OpenAI被諷ClosedAI？語言模型并沒有想象中的強(qiáng)大-AET-電子技術(shù)應(yīng)用

OpenAI被諷ClosedAI？語言模型并沒有想象中的強(qiáng)大

日期： 2019-02-27

關(guān)鍵詞： OpenAI 語言模型 BERT

前一段時間，OpenAI 丟出了兩枚炸彈，一是公布了當(dāng)前最先進(jìn)的語言模型，二是選擇與開源「Say Goodbye」。他們擔(dān)心 GPT-2 模型太好，會被不懷好意的人濫用。近來，很多研究者呼吁 OpenAI 盡快開源這個 15 億參數(shù)量的大模型，因?yàn)樗⒉荒苷嬲咐斫狻棺匀徽Z言。

其實(shí)想想也是，語言模型只能確定自然語句或語法的正確性，它并不能對自然語言的邏輯進(jìn)行建模。很快機(jī)器學(xué)習(xí)社區(qū)就發(fā)起了一個暗諷 GPT-2 的帖子：為了防止濫用，我是不是不應(yīng)該公布在 MNIST 訓(xùn)練的 23064 層殘差網(wǎng)絡(luò)？

微信圖片_20190227205409.jpg

很多人認(rèn)為谷歌的 BERT是一種「暴力美學(xué)」，它美的地方在于提出了新型雙向語言建模任務(wù)，輔以大數(shù)據(jù)、大模型最終能打造暴力美感，但 GPT-2 并沒有給我們這種感覺。

也許現(xiàn)在隨著模型變得越來越大，我們能更好地「遷移」到其它任務(wù)，如知識問答和情感分析等。但是從 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及剛剛公布的 GPT-2，真正具有美感的還是少數(shù)，不論是新架構(gòu)還是新任務(wù)，閃亮的創(chuàng)新點(diǎn)才是重點(diǎn)。

微信圖片_20190227205437.jpg

熱門的 Reddit 帖子

OpenAI 發(fā)布驚艷的研究成果不足為奇。真正讓人意外的是他們決定不開源完整的研究成果，表示擔(dān)心自己的技術(shù)被不懷好意的人用來制造垃圾郵件和假新聞。這一做法在 Reddit、Twitter 等平臺上激起了熱烈討論，媒體也爭相報(bào)道，討論 AI 研究如何變得「危險(xiǎn)到不能公布」。

OpenAI 擔(dān)心技術(shù)被不當(dāng)利用無可厚非，但我并不贊同他們拒絕開源 GPT-2 這種做法。首先，只有某幾種類型的危險(xiǎn)技術(shù)才應(yīng)該受到控制。基于此，我認(rèn)為拒絕開放完整的 GPT-2 模型既沒必要，也不利于 AI 的未來發(fā)展。

欺騙性和破壞性的技術(shù)

我把有可能被濫用的現(xiàn)代技術(shù)大體分為欺騙性技術(shù)和破壞性技術(shù)。破壞性技術(shù)主要在物理領(lǐng)域運(yùn)行，如化學(xué)武器、實(shí)驗(yàn)室工程超級病毒、致命自動化武器或原子彈。

而欺騙性技術(shù)則主要在我們的頭腦中運(yùn)行，可能被不懷好意的人大范圍地用于操縱或控制人類。如 deepfakes、Photoshop 或互聯(lián)網(wǎng)、印刷機(jī)。除了自動化武器之外，關(guān)于 AI 濫用的的擔(dān)憂也屬于這一類別。

微信圖片_20190227205454.jpg

Deepfakes 允許操作者將面部表情疊加到其他人的臉上。

對于比較危險(xiǎn)的破壞性技術(shù)，保護(hù)社會的唯一方法就是嚴(yán)格限制來源（如造核武器的鈾）。如果沒有其它控制機(jī)制，僅僅拒絕公布一項(xiàng)危險(xiǎn)技術(shù)的細(xì)節(jié)是遠(yuǎn)遠(yuǎn)不夠的：技術(shù)的快速發(fā)展使任何成果都可能會在幾年內(nèi)被獨(dú)立復(fù)制，除非被某種外力強(qiáng)行阻止。以這種方式抑制某項(xiàng)技術(shù)是極其笨拙的，也不是萬無一失的。恐怖分子總有機(jī)會搜集放射性材料造出臟彈，但我們現(xiàn)在別無選擇：如果人們能夠輕易從網(wǎng)上獲取零部件和組裝方法來自己組裝原子彈，那地球就會成為一片墳場。

然而，對于欺騙性技術(shù)，卻有一個更高效的替代方案。與其壓制一項(xiàng)技術(shù)，不如將其威力公之于眾。盡管這聽上去有些違反直覺，但如果公眾廣泛意識到被操縱的可能性，欺騙性技術(shù)將失去很大威力。雖然對核武器的了解無法使我們免受其威脅，但如果對語音合成技術(shù)的最新進(jìn)展有所了解，我們會對「奧巴馬說中文」這件事更加懷疑。子彈不會長眼睛，但根據(jù)我們對現(xiàn)代照片編輯技術(shù)的了解，普京不太可能真的會騎熊。

微信圖片_20190227205512.jpg

你可以在網(wǎng)上找到普京騎任何東西的照片。

舉一個具體的例子，我們可以看看一種有可能引發(fā)混亂但（謝天謝地）并沒有摧毀現(xiàn)代社會的技術(shù)：Photoshop。

解析 GPT-2

通過具體分析文本生成，OpenAI 展示了一些模型生成的故事案例，并表明 GPT-2 可能會帶來一些危險(xiǎn)應(yīng)用。為了方便起見，我們在下面復(fù)制了獨(dú)角獸故事的前提和模型生成的前兩段。

前提：科學(xué)家們震驚地發(fā)現(xiàn)，在安第斯山脈一個偏遠(yuǎn)且沒被開發(fā)過的山谷里，生活著一群獨(dú)角獸。更加讓人訝異的是，這些獨(dú)角獸說著完美的英語。

模型：這群生物有著獨(dú)特的角，因此科學(xué)家將其命名為 Ovid's Unicorn。這些長著四支銀白色角的生物之前并不為科學(xué)家所知。而今在將近兩個世紀(jì)后，這一奇怪現(xiàn)象的神秘面紗終于得到了探索。

微信圖片_20190227205531.jpg

雖然從直觀上而言，語言模型只能判斷一句話是「人話」的概率，它并不會內(nèi)在理解自然語言的邏輯，更不用說理解背后的知識了。但是從 OpenAI 給出的案例而言，GPT-2 似乎能理解自然語言的邏輯，我們只能認(rèn)為這也許是大數(shù)據(jù)擬合的力量吧。值得注意的是，除了多次運(yùn)行模型并手動挑選最佳樣本外，故事前提也是精心挑選的。特別是前提介紹了說英語的獨(dú)角獸，這很容易掩蓋更深層次的問題：生成的無意義句子能擬合無意義的前提。

即便考慮上述情況，這個短樣本仍然存在著嚴(yán)重的連貫性缺陷。第一句暗示獨(dú)角獸只有一支角，而生成的第二句卻表明有四支角；前提表明發(fā)現(xiàn)獨(dú)角獸是最近的新聞，而第三句卻又暗示獨(dú)角獸兩個世紀(jì)前就被發(fā)現(xiàn)了。因?yàn)槟Ｐ筒荒芙Ｗ匀徽Z言的邏輯，因此這種不連貫或相互矛盾會大量出現(xiàn)在文本生成中。

這些挑刺可能看起來作用不大，但它們卻揭示了深度學(xué)習(xí)模型中普遍存在的一個更深層次的問題：GPT-2 并沒有真正「理解」它所生成的文本。其實(shí)生成一目了然的自然語句非常容易，例如后現(xiàn)代作文生成器和 Mathgen，它們都是用上下文無關(guān)的語法生成「語法正確」的句子，不過這些句子并沒有任何語義含義。畢竟對于大多數(shù)不熟悉數(shù)學(xué)的讀者而言，下面兩個方程式都像胡言亂語。

微信圖片_20190227205550.jpg

生成語法正確的句子很容易，但確保句子連貫很難。

不過公平地說，GPT-2 超過了其它大多數(shù)語言生成模型，但是離人類水平的連貫性語言還有很長的路要走。此外重要的是，OpenAI 展示的樣本都沒到被惡意使用的水平。

此外，GPT-2 并沒有顯著超過其它開源語言模型，研究者在論文中也表示并不確定表現(xiàn)能超過 BERT 等語言模型。BERT 表示，它們的雙向編碼器提供的性能比單向語言模型要好。GPT 系列的模型都是傳統(tǒng)的單向語言模型，但 OpenAI 并沒有詳細(xì)地對比 GPT-2 與其它前沿語言模型。由于 OpenAI 并沒有微調(diào)它們的模型，因此我們也不能直接對比各模型在自動文本摘要或機(jī)器翻譯等下游任務(wù)上的性能。

開源完整模型的重要性

有些人可能認(rèn)為開源完整的模型不是很有必要，只要披露研究結(jié)果就行了。但這種想法是不對的。

AI 研究發(fā)展如此之快的部分原因就是開源，研究人員可以在眨眼之間復(fù)現(xiàn)已有的研究，而不必從頭開始重建之前的工作。作為 AI 研究領(lǐng)域最具影響力的機(jī)構(gòu)之一，OpenAI 強(qiáng)大的開源歷史毫無疑問激勵了其他人來做同樣的事。如果 OpenAI 的新政策違背了這一趨勢，其他研究人員可能也會效仿，而這會對為這個領(lǐng)域帶來巨大利益的開源文化造成威脅。

此外，開源促使信息向大眾傳播。通過開源，thispersondoesnotexist.com 網(wǎng)站在 ProductHunt 上獲得了最高的排名。通過開源，藝術(shù)家們制作了首幅 AI 生成的畫作并在佳士得拍賣行出售。雖然 OpenAI 的研究博客僅被熱愛機(jī)器學(xué)習(xí)的從業(yè)者所閱，但是建立在開源基礎(chǔ)上的研究可以接觸到更廣泛的受眾，而這些人不太可能會看到最初的研究聲明。

微信圖片_20190227205607.jpg

去年，這幅 AI 生成的畫作賣了近 50 萬美元。

開源也確保了研究的合理性。這個領(lǐng)域有很多名不副實(shí)的研究，而研究人員是否可以通過檢查開源代碼來復(fù)現(xiàn)非比尋常的研究結(jié)果非常重要。以 OpenAI 的聲望，沒有人會質(zhì)疑其研究結(jié)果，不管它有沒有開源，但這一聲望是建立在其先前的開源工作上的。在研究中，即使你沒有作假，其他人也可能會作假。而沒有開源就沒有辦法來驗(yàn)證，研究人員和公眾都無法穿透迷霧尋求真相。

這也并不是說所有東西都應(yīng)該不假思索地開源。那些危險(xiǎn)的破壞性技術(shù)絕對不能讓其他人輕易獲得。即使是欺騙性的技術(shù)，如果非常危險(xiǎn)，就有必要在發(fā)表論文和公布代碼之間增加延遲時間，以防止帶有惡意的快速反應(yīng)者在公眾還沒消化研究成果之前趁機(jī)而入。如果 OpenAI 認(rèn)為 GPT-2 就屬于這種技術(shù)，那我會建議他們晚點(diǎn)再開源模型。

結(jié)語

AI 研究從開源文化中獲益良多。雖然多數(shù)學(xué)科的最新研究獲取渠道收費(fèi)昂貴，但任何有網(wǎng)絡(luò)的人都可以和斯坦福教授一樣訪問最前沿的 AI 研究，做實(shí)驗(yàn)和克隆開源代碼庫一樣簡單，而租賃云端的 GPU 僅需幾美分/小時。我們致力于通過公開發(fā)布學(xué)習(xí)材料、新的研究成果以及開源我們的項(xiàng)目來實(shí)現(xiàn)人工智能的民主化，這也是 AI 領(lǐng)域發(fā)展如此迅速的原因。

我很贊賞 OpenAI 出色的新研究，它突破了語言建模和文本生成的限制。我也感謝他們深思熟慮，愿意參與一場關(guān)于研究倫理的討論。盡管這個話題非常重要，但卻很少有人討論。OpenAI 提出了人工智能濫用的問題，這的確是我們要考慮的問題，但不應(yīng)成為不開源其研究的理由。

我真誠地希望，2019 年機(jī)器學(xué)習(xí)不會從一個開放的系統(tǒng)轉(zhuǎn)變?yōu)榉忾]的系統(tǒng)，這對該領(lǐng)域的發(fā)展既不安全也沒有幫助。為了我們的未來，OpenAI，請開源你們的語言模型。

原文地址：https://thegradient.pub/openai-please-open-source-your-language-model/

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

OpenAI被諷ClosedAI？語言模型并沒有想象中的強(qiáng)大

日期： 2019-02-27

相關(guān)內(nèi)容