ChatGPT的出圈掀起了一場(chǎng)人工智能模型和自然語言處理技術(shù)的大討論,,圈內(nèi)圈外人士都對(duì)未來人工智能模型的重新塑造我們的生活有了更多的遐想,。Yoav Goldberg在2023年1月借著這股ChatGPT的熱度發(fā)表了一篇文章,討論了他對(duì)以ChatGPT為代表的大規(guī)模語言模型的一些思考,。他認(rèn)為目前的語言模型在加入了指令調(diào)整,、代碼語言和人類反饋的強(qiáng)化學(xué)習(xí)等內(nèi)容后,引入了外部知識(shí)和交互后,,已經(jīng)超越了之前自然語言處理概念中像“猜字游戲”一樣的語言模型的范疇了,。但是即便如此,他認(rèn)為當(dāng)前的大規(guī)模語言模型仍然有許多不足的地方,,比如時(shí)間的概念、關(guān)聯(lián)不同文本的能力,、了解“知識(shí)的知識(shí)”等,。
關(guān)于大型語言模型的一些評(píng)論
Yoav Goldberg, 2023年1月
受眾: 我假設(shè)你聽說過ChatGPT,可能稍微玩了一下,,并且對(duì)它印象深刻,,而且你也聽說它是"一個(gè)大型語言模型",也許它"解決了自然語言理解",。接下來我將講講我對(duì)這些(和類似的)模型的簡(jiǎn)短個(gè)人看法,,以及我們?cè)谡Z言理解方面到哪一步了。
序言
在2014-2017年左右,就在NLP領(lǐng)域中神經(jīng)網(wǎng)絡(luò)方法興起之際,,我開過一個(gè)半學(xué)術(shù)半科普的講座,,圍繞著這樣一個(gè)故事: 實(shí)現(xiàn)完美的語言建模等同于和人類一樣聰明。大約在同一時(shí)間,,我在一個(gè)學(xué)術(shù)小組中被問到: "如果給你無限的計(jì)算能力并且不用擔(dān)心勞動(dòng)成本,,你會(huì)做什么",我自信滿滿地回答 "我會(huì)訓(xùn)練一個(gè)真正巨大的語言模型,,只是為了證明它不能解決一切!",。嗯,這個(gè)回答現(xiàn)在看是不是早就過時(shí)了,!真的嗎,?它如何與我同時(shí)講的“完美語言建模為智能的故事”同時(shí)存在?
完美的語言建模是AI-完備的
我的NLP入門科普講座( "教電腦理解語言" )圍繞著Claude Shannon的"猜字游戲"和語言建模的理念展開。它從AI游戲開始,,然后很快轉(zhuǎn)向Shannon在1951年發(fā)明的"另一種游戲":"猜下一個(gè)字母"的游戲,。游戲運(yùn)營(yíng)商選擇一些文本和文本中的一個(gè)剪切點(diǎn),隱藏結(jié)尾,。玩家需要在最小數(shù)量的猜測(cè)中猜出第一個(gè)隱藏的字母,。
我給出了一些這個(gè)游戲的例子,演示了在不同層面的語言理解中表現(xiàn)良好所需的各種語言知識(shí)(從形態(tài)學(xué)到各種句法,、語義,、語用和社會(huì)語言學(xué))。然后我說,,人類在沒有練習(xí)的情況下就很擅長(zhǎng)這個(gè)游戲,,而讓他們變得更好是困難的,這就是為什么他們認(rèn)為這不是一個(gè)很好的游戲,。
然后我說,,相比人類,計(jì)算機(jī)在這個(gè)游戲上有點(diǎn)差,。但是通過教它們玩這個(gè)游戲,,我們獲得了很多語言的隱含知識(shí)。而且還有很長(zhǎng)的路要走,,但是有了一些穩(wěn)定的進(jìn)展: 這就是機(jī)器翻譯今天的工作原理!
我還說,,計(jì)算機(jī)仍然不是很好,這是可以理解的: 這個(gè)游戲是"AI-完備"的: 真正在"人類水平"上玩這個(gè)游戲意味著解決其他所有AI問題,,并表現(xiàn)出類似人類智能的能力,。為了理解為什么這是真的,請(qǐng)考慮這個(gè)游戲需要完成任何文本前綴,,包括非常長(zhǎng)的前綴,,包括對(duì)話,,包括每一種可能的對(duì)話前綴,包括用人類語言表達(dá)的每一種經(jīng)驗(yàn)描述,,包括在任何主題或情境上可以提出的所有問題的答案,,包括高級(jí)數(shù)學(xué),包括哲學(xué)等等,??傊娴煤?,你需要理解文本,,理解文本中描述的情境,想象自己處于這種情境中,,然后回應(yīng),。它真的模仿了人類的經(jīng)驗(yàn)和思想。(是的,,這個(gè)論點(diǎn)可能有幾個(gè)反駁,,例如人類也可能需要詢問圖像或場(chǎng)景或其他模型看不到的感知輸入。但我認(rèn)為你懂的,。)
這就是我講述的Shannon的猜測(cè)游戲(也就是"語言建模")和在人類水平上玩這個(gè)游戲意味著人類水平智能的故事,。
建立大型語言模型不能解決一切/任何問題
現(xiàn)在,如果獲得完美語言建模能力意味著智能("AI-完備"),,那么為什么我堅(jiān)持認(rèn)為建立最大可能的語言模型不會(huì)"解決一切"?我錯(cuò)了嗎,?
答案是我當(dāng)時(shí)不認(rèn)為基于當(dāng)時(shí)存在的技術(shù)(當(dāng)時(shí)只在RNNs/LSTMs和Transformer之間切換)建立非常大的語言模型會(huì)讓我們距離"完美語言建模"甚遠(yuǎn)。
我錯(cuò)了嗎,?有點(diǎn),。我絕對(duì)對(duì)大型語言模型的能力感到驚訝。在600億參數(shù)和1750億參數(shù)之間發(fā)生了一個(gè)相移,,使語言模型的能力變得超級(jí)厲害,。它們做的事情比我當(dāng)時(shí)認(rèn)為基于文本和基于RNNs/LSTMs/Transformers的語言模型能做的要多得多。當(dāng)我自大地說它們"不能解決一切"時(shí),,它們確實(shí)能做到所有事情,。
是的,當(dāng)前的語言模型(chatGPT的第一版)確實(shí)"解決"了我當(dāng)時(shí)隱含考慮的語言理解問題的集合中的所有事情,。所以在這個(gè)意義上,,我錯(cuò)了。但在另一個(gè)意義上,,不,它沒有解決一切,。至少現(xiàn)在還沒有,。此外,,當(dāng)前語言模型的性能并不僅僅是通過我當(dāng)時(shí)所想的語言語言建模來獲得的。我認(rèn)為這很重要,,我將在下面討論這一點(diǎn),。
在接下來的部分中,我將簡(jiǎn)要描述我看到的當(dāng)前語言模型和當(dāng)時(shí)被認(rèn)為是語言模型之間的差異,,并列舉一些我認(rèn)為大型語言模型尚未"解決"的問題,。我還將提到一些我認(rèn)為是正確但不相關(guān)/不感興趣的觀點(diǎn)。
自然語言建模和精挑細(xì)選的語言建模
我說"當(dāng)前語言模型的性能并不僅僅是通過語言建模獲得的"是什么意思,?大型語言模型的第一次展示(比如說1700億參數(shù)級(jí)別的GPT-3)是(據(jù)我們所知)在自然發(fā)生的文本數(shù)據(jù)上訓(xùn)練的:在書籍中找到的文本,、從互聯(lián)網(wǎng)爬取的文本、在社交網(wǎng)絡(luò)中找到的文本等,。后來的模型(BLOOM,、OPT)也使用了類似的數(shù)據(jù)。這非常接近Shannon的游戲,,也是過去幾十年中大多數(shù)人認(rèn)為的'語言建模',。這些模型已經(jīng)帶來了非常出色的性能。但chatGPT是不同的,。
chatGPT有什么不同,?在GPT-3和chatGPT之間有三個(gè)概念步驟:指令、代碼,、基于人類反饋的強(qiáng)化學(xué)習(xí),。最后一個(gè)盡管得到了最多的關(guān)注,但我個(gè)人認(rèn)為這是最無趣的,。這是我隨手寫的一些解釋,。也許有一天我會(huì)把它變成一個(gè)更正式的論點(diǎn)。希望你能從中得到直覺,。
像"傳統(tǒng)語言模型"一樣僅僅在"文本"上訓(xùn)練有一些明顯的理論局限性,。最顯著的是,它沒有與"文本外部"任何事物的聯(lián)系,,因此無法獲取"意義"或"交流意圖",。另一種說法是,該模型"沒有接地",。模型操作的符號(hào)只是符號(hào),,它們可以相互關(guān)聯(lián),但它們不會(huì)"接觸"到任何現(xiàn)實(shí)世界的項(xiàng)目上,。所以語言模型可以知道符號(hào)"藍(lán)色",,但不了解它背后任何的現(xiàn)實(shí)世界概念。
在指令調(diào)整中,,模型訓(xùn)練者并非僅在“發(fā)現(xiàn)”數(shù)據(jù)上訓(xùn)練,,而是開始在人類創(chuàng)建的特定數(shù)據(jù)上訓(xùn)練(在機(jī)器學(xué)習(xí)圈子中被稱為“監(jiān)督學(xué)習(xí)”,,例如從標(biāo)注樣本中學(xué)習(xí)),除了發(fā)現(xiàn)的數(shù)據(jù)外,,人類標(biāo)記員會(huì)寫一些類似于“請(qǐng)總結(jié)這篇文章”的東西,,然后是他們得到的一些文本,然后是他們對(duì)這篇文章的摘要,?;蛘撸麄兛赡軙?huì)寫“將此文本翻譯成形式語言”,,然后是一些文本,,然后是形式語言。他們會(huì)創(chuàng)建許多這樣的說明(許多摘要,、許多翻譯等),,針對(duì)許多不同的“任務(wù)”。然后這些將被添加到模型的訓(xùn)練數(shù)據(jù)中,。
為什么這很重要,?模型的核心仍是語言建模,去學(xué)習(xí)如何預(yù)測(cè)下一個(gè)單詞,,僅僅基于文本嗎,?確實(shí),但是,,這里人類注釋員會(huì)在文本中標(biāo)記一些基礎(chǔ)的符號(hào),。一些符號(hào)(“總結(jié)”,“翻譯”,,“形式”)始終與它們表示的概念/任務(wù)一起使用,。它們總是出現(xiàn)在文本的開頭。這使這些符號(hào)(或“指令”)在某種程度上外部于其余數(shù)據(jù),,使生成摘要與人類“摘要”的概念相關(guān),。或者換句話說,,這有助于模型了解用戶在“指令”中請(qǐng)求“摘要”的交流意圖,。這里的一個(gè)反對(duì)意見是,這種情況可能已經(jīng)在大型文本集合中自然發(fā)生,,模型已經(jīng)從中學(xué)習(xí),,那么新的是什么?我認(rèn)為直接指令比從非指令數(shù)據(jù)中推斷學(xué)習(xí)要容易得多(想想“這是一只狗”這樣的直接陳述,,而不是需要從聽到人們談?wù)摴分型茢啵?。通過將訓(xùn)練數(shù)據(jù)的分布轉(zhuǎn)向這些注釋的情況,可以顯著改變模型的行為和它所具有的“接地”程度,。也許通過明確的指令數(shù)據(jù),,相比起不使用它們,,我們可以使用更少的訓(xùn)練文本。
此外,,最新一代模型還在編程語言代碼數(shù)據(jù)上進(jìn)行訓(xùn)練,特別是包含自然語言說明或描述(以代碼注釋的形式)和相應(yīng)編程語言代碼的數(shù)據(jù),。這產(chǎn)生了另一種非常直接的接地形式,。在這里,我們有文本流中的兩個(gè)獨(dú)立系統(tǒng):一個(gè)是人類語言,,另一個(gè)是編程語言,。我們觀察這兩個(gè)系統(tǒng)之間的直接交互:人類語言描述了概念(或意圖),然后在對(duì)應(yīng)的程序中實(shí)現(xiàn),。這是一種非常明確的“形式到意義配對(duì)”,。我們當(dāng)然可以從中學(xué)到更多,而不是僅僅“形式”,。(此外,,我假設(shè)最新模型也在執(zhí)行上訓(xùn)練:程序和其輸出內(nèi)容的組合。這是一種更強(qiáng)的接地形式:指稱),。這現(xiàn)在已經(jīng)不再“僅僅”是語言建模了,。
最后,RLHF,,或“基于人類反饋的強(qiáng)化學(xué)習(xí)”,。這是一種夸張的說法,意思就是模型現(xiàn)在觀察兩個(gè)人之間的對(duì)話,,一個(gè)扮演用戶的角色,,另一個(gè)扮演“人工智能”,演示人工智能如何在不同情況下作出反應(yīng),。這明顯有助于模型學(xué)習(xí)對(duì)話的工作原理,,以及如何在對(duì)話狀態(tài)中跟蹤信息(僅憑“發(fā)現(xiàn)”的數(shù)據(jù)非常困難)。并且給人類的指令也是所有“......是不適當(dāng)?shù)??!钡裙?模板響應(yīng)的來源,我們從模型中觀察到,。這是一種通過示范訓(xùn)練模型“表現(xiàn)得好”的方法,。
ChatGPT擁有全部以上三種甚至更多的特點(diǎn)。這就是為什么我認(rèn)為它和傳統(tǒng)的語言模型有很大不同,,為什么它可能不會(huì)“服從”我們(或我)對(duì)語言模型的期望,,以及為什么它在許多任務(wù)上表現(xiàn)如此出色:它是一種監(jiān)督模型,具有訪問外部模態(tài)的能力,,并且通過對(duì)話形式明確地進(jìn)行遵循大量指令的訓(xùn)練,。
還有什么缺失,?普遍但乏味的論點(diǎn)
關(guān)于語言模型有很多常見的論點(diǎn),我認(rèn)為這些論點(diǎn)是正確的,,但是對(duì)我在這里的討論沒有啟發(fā)意義/不相關(guān),。
它們很浪費(fèi),訓(xùn)練它們非常昂貴,,使用它們也非常昂貴,。
是的,現(xiàn)在這是事實(shí),。但是隨著時(shí)間的推移,,事情會(huì)變得更便宜。另外,,讓我們把事情放在適當(dāng)?shù)慕嵌葋砜矗菏堑?,這在環(huán)境上是非常昂貴的,但是我們并沒有訓(xùn)練那么多,,總成本相對(duì)于我們?nèi)祟愖龅钠渌芰肯膩碚f是微不足道的,。而且,我也不確定環(huán)境論點(diǎn)與“這些東西有趣”,,“這些東西有用”等問題有什么關(guān)系,。這是一個(gè)經(jīng)濟(jì)問題。
這些模型編碼了許多偏差和刻板印象,。
嗯,,當(dāng)然。它們模仿了人類語言,,我們?nèi)祟愂强膳碌纳?,我們具有偏差并不斷進(jìn)行刻板印象。這意味著我們?cè)趯⑦@些模型應(yīng)用于實(shí)際任務(wù)時(shí)需要非常小心,,但這并不意味著它們?cè)诳茖W(xué)角度上變得不正確/沒有用處/沒有趣,。
這些模型并沒有真正理解語言。
當(dāng)然,。它們并不能,。那又怎樣?我們專注于它們能做到的,,也許嘗試改進(jìn)它們不能做到的地方,?
這些模型永遠(yuǎn)不會(huì)真正理解語言。
再說一遍,,那又怎樣,?它們顯然很好地覆蓋了一些方面。讓我們看看這些?或者如果你不關(guān)心這些方面,,就不用看了,。那些想要真正理解語言的人可能確實(shí)更愿意去其他地方尋找。我對(duì)近似理解感到滿意,。
這些模型不像人類那樣理解語言,。
呵呵?難道它們是人類嗎,?當(dāng)然它們?cè)谀承C(jī)制上有所不同,。它們?nèi)匀豢梢愿嬖V我們很多關(guān)于語言結(jié)構(gòu)的東西。對(duì)于它們不能告訴我們的東西,,我們可以去其他地方尋找。
你不能僅基于形式學(xué)到任何有意義的東西:
但它不是僅僅基于形式訓(xùn)練的,,請(qǐng)參見上面的部分,。
它只能根據(jù)一些統(tǒng)計(jì)數(shù)據(jù)連接它之前看到的東西。
...而這不是非常了不起的嗎,?大型模型以非常強(qiáng)大的方式連接詞匯和短語,。而且,請(qǐng)考慮根據(jù)統(tǒng)計(jì)數(shù)據(jù)將語料庫(kù)中的詞語和短語連接起來的錯(cuò)誤方式有多少,。以及這些模型如何避免這些錯(cuò)誤方式,,并選擇“有意義”的方式。我認(rèn)為這是非常了不起的,。
我們不知道這些東西可能對(duì)社會(huì)產(chǎn)生的影響:
這是關(guān)于任何新技術(shù)/新發(fā)現(xiàn)的事實(shí),。讓我們?nèi)グl(fā)現(xiàn)。我們可以嘗試小心地做,。但這并不意味著這件事情不有趣/不有效/不值得研究,。它只是增加了一個(gè)值得研究的方面。
模型沒有引用它們的來源:
確實(shí)如此,。但是...那又怎樣,?我能理解為什么在某些類型的應(yīng)用中你會(huì)希望這樣,你當(dāng)然希望模型不會(huì)欺騙你,,也許你希望能夠驗(yàn)證它們不會(huì)欺騙你,,但這些都與語言模型的核心無關(guān)/在我看來這不是正確的問題。畢竟,,人類在真實(shí)意義上并沒有“引用來源”,,我們很少將我們的知識(shí)歸因于特定的單一來源,如果我們這樣做,,我們通常是在一個(gè)理性化的過程中做出論述,,或在一個(gè)非常有意識(shí)的過程中找到來源并引用它。這可以復(fù)制。從應(yīng)用的角度來看(例如,,如果我們想要開發(fā)一個(gè)搜索系統(tǒng),、一個(gè)論文寫作系統(tǒng)、一個(gè)通用問題回答系統(tǒng)),,人們當(dāng)然可以通過生成過程或后處理步驟或在先檢索再生成的設(shè)置中將話語與來源相關(guān)聯(lián),。很多人都在這么做。但這與語言理解無關(guān),。但是,,有趣的是,我認(rèn)為更有建設(shè)性的問題是(a)如何將來自模型的回答與來自人類的回答區(qū)分開來,?(b)如何評(píng)估模型的回答是否準(zhǔn)確,?(c)如何提高模型的回答質(zhì)量?這些都是重要的問題,,值得研究,。
那么缺少什么/有哪些真正的局限呢?
這是我認(rèn)為目前"大型語言模型"(包括最新的chatGPT)中存在的一些挑戰(zhàn)性問題的非正式且不完整的一些點(diǎn),,這些問題阻礙了它們?cè)谀撤N意義上"完全理解"語言,。這些是模型仍然無法做到的事情,或者至少非常不適合做到的事情,。
將多個(gè)文本彼此關(guān)聯(lián),。在模型的訓(xùn)練中,模型將文本作為一個(gè)大型流或獨(dú)立的信息塊進(jìn)行消耗,。它們可能會(huì)得到文本中的共性模式,,但它對(duì)文本如何與現(xiàn)實(shí)世界中的"事件"相關(guān)聯(lián)沒有任何概念。特別是,,如果模型在關(guān)于同一事件的多篇新聞故事上進(jìn)行訓(xùn)練,,它無法知道這些文本都描述的是同一件事,并且無法將其與描述相似但不相關(guān)事件的文本區(qū)分開來,。在這個(gè)意義上,,模型無法真正形成(或根本不能形成)從所有文本中"閱讀"的一個(gè)連貫和完整的世界觀。
時(shí)間的概念,。同樣,,模型在訓(xùn)練流中沒有哪些事件其他事件的概念。它們根本沒有時(shí)間的概念,,除了可能的明確提到的時(shí)間,。因此,它可能會(huì)學(xué)習(xí) "Obama became president in 2009" 等表達(dá)的局部含義,,并在其他明確標(biāo)明日期的事情之前或之后進(jìn)行推理,。但它不能理解時(shí)間的流動(dòng),即如果它在另一篇文本中讀到 "Obama is the current president of the united state",并在第三篇文本中讀到 "Obama is no longer the president",,模型不能理解它們之間是如何相互跟隨的,,以及現(xiàn)在是什么是真實(shí)的。它可以同時(shí)"相信" "Obama is the current president of the US",、"Trump is the current president of the US"和 "Biden is the current president of the US"都是有效的陳述,。同樣,它真的沒有實(shí)際的方法來解釋像 "X is the latest album by Y" 這樣的陳述,,以及它們之間的關(guān)系,。
知識(shí)的知識(shí) 模型并不真的知道它們知道了什么。它們甚至不知道"知道"是什么,。它們所做的就是猜測(cè)文本流中的下一個(gè)詞,,并且猜下一個(gè)詞可能是基于有充分根據(jù)的知識(shí),也可能是完全的猜測(cè),。模型的訓(xùn)練和訓(xùn)練數(shù)據(jù)沒有明確的機(jī)制來區(qū)分這兩種情況,,當(dāng)然也沒有明確的機(jī)制根據(jù)它們來采取不同的行動(dòng)。這體現(xiàn)在有據(jù)可查的“自信地編造東西”的趨勢(shì)中,。 從示范中學(xué)習(xí) (RLHF) 使模型“意識(shí)到”某些答案應(yīng)該謹(jǐn)慎對(duì)待,也許模型甚至學(xué)會(huì)了將這種謹(jǐn)慎程度與某些事實(shí),、實(shí)體或主題的涵蓋程度聯(lián)系起來 他們的訓(xùn)練數(shù)據(jù),,或者數(shù)據(jù)反映在他們內(nèi)部權(quán)重中的程度。 因此,,從這個(gè)意義上說,,他們展示了一些知識(shí)知識(shí)。 但是當(dāng)他們熬過了這個(gè)拒絕回答的初始階段,,進(jìn)入“文本生成模式”時(shí),,他們“失去”了所有這些知識(shí),并且很快過渡到“編造”模式,,也就是在它所知道的事情上 明確說明(在不同的階段)是不知道的,。
數(shù)字和數(shù)學(xué) 這些模型真的不具備執(zhí)行數(shù)學(xué)的能力。它們的基本構(gòu)建塊是“詞塊”,,它們并不真正對(duì)應(yīng)于任何方便的基礎(chǔ)中的數(shù)字,。 他們也沒有任何合適的方法以任何有意義且一致的方式學(xué)習(xí)不同數(shù)字之間的關(guān)系(例如 +1 或“大于”關(guān)系)。大型語言模型在一些涉及數(shù)字的問題上表現(xiàn)得還算不錯(cuò),,但實(shí)際上有比我們給大型語言模型的機(jī)制更好的方法來表示數(shù)字和數(shù)學(xué),,令人驚訝的是他們可以做任何事情。 但我懷疑如果沒有一些更明確的建模,,他們不會(huì)走得太遠(yuǎn),。
罕見事件、高召回率設(shè)置、高覆蓋率設(shè)置:從本質(zhì)上講,,模型側(cè)重于常見和可能的情況,。 這讓我立即懷疑它們是否有能力從數(shù)據(jù)中的罕見事件中學(xué)習(xí),或回憶起罕見事件,,或回憶所有事件,。 在這里,我比其他方面更不確定:他們也許能夠做到,。 但我目前持懷疑態(tài)度,。
數(shù)據(jù)饑餓 這可能是我在當(dāng)前大型語言模型中看到的最大的技術(shù)問題:它們極度渴望數(shù)據(jù)。 為了取得令人印象深刻的表現(xiàn),,他們接受了數(shù)萬億個(gè)單詞的訓(xùn)練,。 顯而易見的“.....人類從其中的一小部分中學(xué)習(xí)”當(dāng)然是正確的,但它本身對(duì)我來說并不是很有趣:那又怎樣,? 模型不必為了有用而模仿人類,。 不過還有其他含義,我發(fā)現(xiàn)這非常令人不安:大多數(shù)人類語言沒有那么多數(shù)據(jù),,當(dāng)然也沒有以數(shù)字形式提供的數(shù)據(jù),。 為什么這很重要?因?yàn)檫@意味著我們將很難復(fù)制我們現(xiàn)在對(duì)其他語言(例如我的母語希伯來語,,甚至更常見的語言)的令人難以置信的英語理解結(jié)果,,像德語、法語或阿拉伯語,,甚至中文或印地語(我甚至不考慮所謂的“低資源”語言,,就像許多非洲和菲律賓語言一樣)。我們可以用這些語言獲得很多數(shù)據(jù),,但不是那么多數(shù)據(jù),。 是的,通過“指令訓(xùn)練”,,我們可能需要更少的數(shù)據(jù),。 但是接下來需要?jiǎng)?chuàng)建指令數(shù)據(jù):對(duì)于我們要添加的每一種新語言來說,這都是一項(xiàng)艱巨的任務(wù),。 此外,,如果我們相信(并且我相信)代碼 + 語言的培訓(xùn)很重要,那么這就是為英語以外的語言實(shí)現(xiàn)類似模型的另一個(gè)巨大障礙,。這難道不能通過翻譯來解決嗎,?畢竟我們?cè)跈C(jī)器翻譯方面也有很大的進(jìn)步。 我們可以翻譯成英文,,在那里運(yùn)行模型,,然后再翻譯回來,。 嗯,是的,,我們可以,。 但這只會(huì)在非常膚淺的層面上起作用。 不同的語言來自不同的地理區(qū)域,,這些區(qū)域有其當(dāng)?shù)氐奈幕?、?xí)俗、故事,、事件等,。 這些以各種方式不同于英語地區(qū)的文化、規(guī)范,、故事和事件,。 即使是“城市”這樣的簡(jiǎn)單概念也會(huì)因社區(qū)和地域而異,更不用說“禮儀”或“暴力”等概念了,。 或者“只是”關(guān)于某些人,、歷史事件、重要地點(diǎn),、植物,、習(xí)俗等的“事實(shí)”知識(shí)。這些不會(huì)反映在英語培訓(xùn)數(shù)據(jù)中,,也無法通過翻譯涵蓋,。因此,數(shù)據(jù)饑餓是一個(gè)真正的問題,,如果我們考慮到我們可能希望在英語之外也擁有語言理解和“人工智能”技術(shù)。對(duì)于我們這些想要擔(dān)心社會(huì)影響的人來說,,這種數(shù)據(jù)饑渴和英語/美國(guó)中心的結(jié)合絕對(duì)是一個(gè)需要考慮的大問題,。
模塊化 在上面“常見但無聊的爭(zhēng)論”部分的末尾,我問“我們?nèi)绾螌㈥P(guān)于語言和推理的‘核心‘知識(shí)與關(guān)于‘事物‘的具體事實(shí)知識(shí)分開”,。 我認(rèn)為這是一個(gè)要問的主要問題,,解決這個(gè)問題將大大有助于取得進(jìn)展(如果不是“解決”)許多其他問題。 如果我們能夠?qū)ⅰ昂诵恼Z言理解和推理”部分與“知識(shí)”部分模塊化和分離,,我們也許能夠更好地解決數(shù)據(jù)饑餓問題和由此產(chǎn)生的文化知識(shí)差距,,我們也許能夠更好地 處理和控制偏見和刻板印象,我們幾乎可以“免費(fèi)”獲得知識(shí)的知識(shí),。 (很多人都在研究“檢索增強(qiáng)語言模型”,。這可能是也可能不是解決這個(gè)問題的正確方法。我傾向于懷疑是否有更基本的方法可以找到,。但歷史證明我沒有 對(duì)這些事情的直覺,。)
結(jié)論
大型語言模型是驚人的,。語言建模還不夠,但“當(dāng)前的語言模型”其實(shí)不僅僅是語言模型,,它們能做的比我們想象的要多得多,。但是,如果我們關(guān)心“包容性”語言理解,,這仍然“不夠”,,即便我們不關(guān)心,也還是不夠,。
歡迎關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<