前一段時(shí)間,,OpenAI 丟出了兩枚炸彈,一是公布了當(dāng)前最先進(jìn)的語(yǔ)言模型,,二是選擇與開源「Say Goodbye」。他們擔(dān)心 GPT-2 模型太好,,會(huì)被不懷好意的人濫用,。近來,很多研究者呼吁 OpenAI 盡快開源這個(gè) 15 億參數(shù)量的大模型,因?yàn)樗⒉荒苷嬲咐斫狻棺匀徽Z(yǔ)言,。
其實(shí)想想也是,,語(yǔ)言模型只能確定自然語(yǔ)句或語(yǔ)法的正確性,它并不能對(duì)自然語(yǔ)言的邏輯進(jìn)行建模,。很快機(jī)器學(xué)習(xí)社區(qū)就發(fā)起了一個(gè)暗諷 GPT-2 的帖子:為了防止濫用,,我是不是不應(yīng)該公布在 MNIST 訓(xùn)練的 23064 層殘差網(wǎng)絡(luò)?
很多人認(rèn)為谷歌的 BERT是一種「暴力美學(xué)」,,它美的地方在于提出了新型雙向語(yǔ)言建模任務(wù),,輔以大數(shù)據(jù)、大模型最終能打造暴力美感,,但 GPT-2 并沒有給我們這種感覺,。
也許現(xiàn)在隨著模型變得越來越大,我們能更好地「遷移」到其它任務(wù),,如知識(shí)問答和情感分析等,。但是從 fast.ai 的 ULMFit、OpenAI 的 GPT,、AI2 的 ELMO,、到谷歌的 BERT 以及剛剛公布的 GPT-2,真正具有美感的還是少數(shù),,不論是新架構(gòu)還是新任務(wù),,閃亮的創(chuàng)新點(diǎn)才是重點(diǎn)。
熱門的 Reddit 帖子
OpenAI 發(fā)布驚艷的研究成果不足為奇,。真正讓人意外的是他們決定不開源完整的研究成果,,表示擔(dān)心自己的技術(shù)被不懷好意的人用來制造垃圾郵件和假新聞。這一做法在 Reddit,、Twitter 等平臺(tái)上激起了熱烈討論,,媒體也爭(zhēng)相報(bào)道,討論 AI 研究如何變得「危險(xiǎn)到不能公布」,。
OpenAI 擔(dān)心技術(shù)被不當(dāng)利用無可厚非,,但我并不贊同他們拒絕開源 GPT-2 這種做法。首先,,只有某幾種類型的危險(xiǎn)技術(shù)才應(yīng)該受到控制,。基于此,,我認(rèn)為拒絕開放完整的 GPT-2 模型既沒必要,,也不利于 AI 的未來發(fā)展。
欺騙性和破壞性的技術(shù)
我把有可能被濫用的現(xiàn)代技術(shù)大體分為欺騙性技術(shù)和破壞性技術(shù),。破壞性技術(shù)主要在物理領(lǐng)域運(yùn)行,,如化學(xué)武器,、實(shí)驗(yàn)室工程超級(jí)病毒,、致命自動(dòng)化武器或原子彈,。
而欺騙性技術(shù)則主要在我們的頭腦中運(yùn)行,可能被不懷好意的人大范圍地用于操縱或控制人類,。如 deepfakes,、Photoshop 或互聯(lián)網(wǎng)、印刷機(jī),。除了自動(dòng)化武器之外,,關(guān)于 AI 濫用的的擔(dān)憂也屬于這一類別。
Deepfakes 允許操作者將面部表情疊加到其他人的臉上,。
對(duì)于比較危險(xiǎn)的破壞性技術(shù),,保護(hù)社會(huì)的唯一方法就是嚴(yán)格限制來源(如造核武器的鈾)。如果沒有其它控制機(jī)制,,僅僅拒絕公布一項(xiàng)危險(xiǎn)技術(shù)的細(xì)節(jié)是遠(yuǎn)遠(yuǎn)不夠的:技術(shù)的快速發(fā)展使任何成果都可能會(huì)在幾年內(nèi)被獨(dú)立復(fù)制,,除非被某種外力強(qiáng)行阻止。以這種方式抑制某項(xiàng)技術(shù)是極其笨拙的,,也不是萬(wàn)無一失的,。恐怖分子總有機(jī)會(huì)搜集放射性材料造出臟彈,,但我們現(xiàn)在別無選擇:如果人們能夠輕易從網(wǎng)上獲取零部件和組裝方法來自己組裝原子彈,,那地球就會(huì)成為一片墳場(chǎng)。
然而,,對(duì)于欺騙性技術(shù),,卻有一個(gè)更高效的替代方案。與其壓制一項(xiàng)技術(shù),,不如將其威力公之于眾,。盡管這聽上去有些違反直覺,但如果公眾廣泛意識(shí)到被操縱的可能性,,欺騙性技術(shù)將失去很大威力,。雖然對(duì)核武器的了解無法使我們免受其威脅,但如果對(duì)語(yǔ)音合成技術(shù)的最新進(jìn)展有所了解,,我們會(huì)對(duì)「奧巴馬說中文」這件事更加懷疑,。子彈不會(huì)長(zhǎng)眼睛,但根據(jù)我們對(duì)現(xiàn)代照片編輯技術(shù)的了解,,普京不太可能真的會(huì)騎熊,。
你可以在網(wǎng)上找到普京騎任何東西的照片。
舉一個(gè)具體的例子,,我們可以看看一種有可能引發(fā)混亂但(謝天謝地)并沒有摧毀現(xiàn)代社會(huì)的技術(shù):Photoshop,。
解析 GPT-2
通過具體分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能會(huì)帶來一些危險(xiǎn)應(yīng)用,。為了方便起見,,我們?cè)谙旅鎻?fù)制了獨(dú)角獸故事的前提和模型生成的前兩段。
前提:科學(xué)家們震驚地發(fā)現(xiàn),,在安第斯山脈一個(gè)偏遠(yuǎn)且沒被開發(fā)過的山谷里,,生活著一群獨(dú)角獸。更加讓人訝異的是,,這些獨(dú)角獸說著完美的英語(yǔ),。
模型:這群生物有著獨(dú)特的角,因此科學(xué)家將其命名為 Ovid's Unicorn,。這些長(zhǎng)著四支銀白色角的生物之前并不為科學(xué)家所知,。而今在將近兩個(gè)世紀(jì)后,這一奇怪現(xiàn)象的神秘面紗終于得到了探索,。
雖然從直觀上而言,,語(yǔ)言模型只能判斷一句話是「人話」的概率,它并不會(huì)內(nèi)在理解自然語(yǔ)言的邏輯,,更不用說理解背后的知識(shí)了,。但是從 OpenAI 給出的案例而言,GPT-2 似乎能理解自然語(yǔ)言的邏輯,,我們只能認(rèn)為這也許是大數(shù)據(jù)擬合的力量吧,。值得注意的是,除了多次運(yùn)行模型并手動(dòng)挑選最佳樣本外,,故事前提也是精心挑選的,。特別是前提介紹了說英語(yǔ)的獨(dú)角獸,這很容易掩蓋更深層次的問題:生成的無意義句子能擬合無意義的前提,。
即便考慮上述情況,,這個(gè)短樣本仍然存在著嚴(yán)重的連貫性缺陷。第一句暗示獨(dú)角獸只有一支角,,而生成的第二句卻表明有四支角,;前提表明發(fā)現(xiàn)獨(dú)角獸是最近的新聞,而第三句卻又暗示獨(dú)角獸兩個(gè)世紀(jì)前就被發(fā)現(xiàn)了,。因?yàn)槟P筒荒芙W匀徽Z(yǔ)言的邏輯,,因此這種不連貫或相互矛盾會(huì)大量出現(xiàn)在文本生成中。
這些挑刺可能看起來作用不大,,但它們卻揭示了深度學(xué)習(xí)模型中普遍存在的一個(gè)更深層次的問題:GPT-2 并沒有真正「理解」它所生成的文本,。其實(shí)生成一目了然的自然語(yǔ)句非常容易,例如后現(xiàn)代作文生成器和 Mathgen,,它們都是用上下文無關(guān)的語(yǔ)法生成「語(yǔ)法正確」的句子,,不過這些句子并沒有任何語(yǔ)義含義,。畢竟對(duì)于大多數(shù)不熟悉數(shù)學(xué)的讀者而言,下面兩個(gè)方程式都像胡言亂語(yǔ),。
生成語(yǔ)法正確的句子很容易,,但確保句子連貫很難。
不過公平地說,,GPT-2 超過了其它大多數(shù)語(yǔ)言生成模型,,但是離人類水平的連貫性語(yǔ)言還有很長(zhǎng)的路要走,。此外重要的是,,OpenAI 展示的樣本都沒到被惡意使用的水平。
此外,,GPT-2 并沒有顯著超過其它開源語(yǔ)言模型,,研究者在論文中也表示并不確定表現(xiàn)能超過 BERT 等語(yǔ)言模型。BERT 表示,,它們的雙向編碼器提供的性能比單向語(yǔ)言模型要好,。GPT 系列的模型都是傳統(tǒng)的單向語(yǔ)言模型,但 OpenAI 并沒有詳細(xì)地對(duì)比 GPT-2 與其它前沿語(yǔ)言模型,。由于 OpenAI 并沒有微調(diào)它們的模型,,因此我們也不能直接對(duì)比各模型在自動(dòng)文本摘要或機(jī)器翻譯等下游任務(wù)上的性能。
開源完整模型的重要性
有些人可能認(rèn)為開源完整的模型不是很有必要,,只要披露研究結(jié)果就行了,。但這種想法是不對(duì)的。
AI 研究發(fā)展如此之快的部分原因就是開源,,研究人員可以在眨眼之間復(fù)現(xiàn)已有的研究,,而不必從頭開始重建之前的工作。作為 AI 研究領(lǐng)域最具影響力的機(jī)構(gòu)之一,,OpenAI 強(qiáng)大的開源歷史毫無疑問激勵(lì)了其他人來做同樣的事,。如果 OpenAI 的新政策違背了這一趨勢(shì),其他研究人員可能也會(huì)效仿,,而這會(huì)對(duì)為這個(gè)領(lǐng)域帶來巨大利益的開源文化造成威脅,。
此外,開源促使信息向大眾傳播,。通過開源,,thispersondoesnotexist.com 網(wǎng)站在 ProductHunt 上獲得了最高的排名。通過開源,,藝術(shù)家們制作了首幅 AI 生成的畫作并在佳士得拍賣行出售,。雖然 OpenAI 的研究博客僅被熱愛機(jī)器學(xué)習(xí)的從業(yè)者所閱,但是建立在開源基礎(chǔ)上的研究可以接觸到更廣泛的受眾,,而這些人不太可能會(huì)看到最初的研究聲明,。
去年,,這幅 AI 生成的畫作賣了近 50 萬(wàn)美元。
開源也確保了研究的合理性,。這個(gè)領(lǐng)域有很多名不副實(shí)的研究,,而研究人員是否可以通過檢查開源代碼來復(fù)現(xiàn)非比尋常的研究結(jié)果非常重要。以 OpenAI 的聲望,,沒有人會(huì)質(zhì)疑其研究結(jié)果,,不管它有沒有開源,但這一聲望是建立在其先前的開源工作上的,。在研究中,,即使你沒有作假,其他人也可能會(huì)作假,。而沒有開源就沒有辦法來驗(yàn)證,,研究人員和公眾都無法穿透迷霧尋求真相。
這也并不是說所有東西都應(yīng)該不假思索地開源,。那些危險(xiǎn)的破壞性技術(shù)絕對(duì)不能讓其他人輕易獲得,。即使是欺騙性的技術(shù),如果非常危險(xiǎn),,就有必要在發(fā)表論文和公布代碼之間增加延遲時(shí)間,,以防止帶有惡意的快速反應(yīng)者在公眾還沒消化研究成果之前趁機(jī)而入。如果 OpenAI 認(rèn)為 GPT-2 就屬于這種技術(shù),,那我會(huì)建議他們晚點(diǎn)再開源模型,。
結(jié)語(yǔ)
AI 研究從開源文化中獲益良多。雖然多數(shù)學(xué)科的最新研究獲取渠道收費(fèi)昂貴,,但任何有網(wǎng)絡(luò)的人都可以和斯坦福教授一樣訪問最前沿的 AI 研究,,做實(shí)驗(yàn)和克隆開源代碼庫(kù)一樣簡(jiǎn)單,而租賃云端的 GPU 僅需幾美分/小時(shí),。我們致力于通過公開發(fā)布學(xué)習(xí)材料,、新的研究成果以及開源我們的項(xiàng)目來實(shí)現(xiàn)人工智能的民主化,這也是 AI 領(lǐng)域發(fā)展如此迅速的原因,。
我很贊賞 OpenAI 出色的新研究,,它突破了語(yǔ)言建模和文本生成的限制。我也感謝他們深思熟慮,,愿意參與一場(chǎng)關(guān)于研究倫理的討論,。盡管這個(gè)話題非常重要,但卻很少有人討論,。OpenAI 提出了人工智能濫用的問題,,這的確是我們要考慮的問題,但不應(yīng)成為不開源其研究的理由,。
我真誠(chéng)地希望,,2019 年機(jī)器學(xué)習(xí)不會(huì)從一個(gè)開放的系統(tǒng)轉(zhuǎn)變?yōu)榉忾]的系統(tǒng),,這對(duì)該領(lǐng)域的發(fā)展既不安全也沒有幫助。為了我們的未來,,OpenAI,,請(qǐng)開源你們的語(yǔ)言模型。
原文地址:https://thegradient.pub/openai-please-open-source-your-language-model/