從未有一種產(chǎn)品,,能像人工智能對(duì)話軟件ChatGPT一樣,,在兩個(gè)月的時(shí)間內(nèi),,吸引了上億的用戶,。它所迅速引發(fā)的爭(zhēng)議波及范圍之廣,,也創(chuàng)造了一個(gè)紀(jì)錄,。最重要的是,,不管你喜歡還是不喜歡它,,都必須談?wù)撍?/p>
一向AI技術(shù)領(lǐng)先的谷歌,也不得不跟隨,,推出ChatGPT的競(jìng)品,。Bard在發(fā)布會(huì)上翻車了,它回答問(wèn)題稱,,美國(guó)的詹姆斯·韋伯太空望遠(yuǎn)鏡拍攝了太陽(yáng)系外行星的第一張照片,,然而實(shí)際上是由歐洲南方天文臺(tái)的Very Large Telescope (VLT) 在 2004 年拍攝的。這樣一個(gè) 科技巨頭,,也會(huì)犯這樣低級(jí)的事實(shí)性錯(cuò)誤,。
其實(shí)ChatGPT犯的低級(jí)錯(cuò)誤,比比皆是,,只是當(dāng)人們對(duì)一件事物著迷的時(shí)候,,其優(yōu)點(diǎn)和缺點(diǎn)是一體的,而且人們往往忽略后者,。
今天,,我們“不合時(shí)宜”地來(lái)聊一聊ChatGPT的十大不足。指出缺點(diǎn),,是為了改進(jìn),。加油?。ū疚木幾g自Ali Borji的 A Categorial Archive of ChatGPT Failures)
一、推理能力
“推理”這個(gè)詞在文學(xué)作品和日常談話中都很廣泛地使用,,但它是一個(gè)模糊的術(shù)語(yǔ),,可以指許多不同的東西。批判性思維,、決策和解決問(wèn)題都是關(guān)鍵的活動(dòng),,它們?cè)诤艽蟪潭壬弦蕾囉谕评?。但像ChatGPT這樣的模型缺乏一個(gè)“世界模型”,,這意味著它們沒(méi)有對(duì)物理世界和社會(huì)世界的完全理解,也沒(méi)有能力對(duì)概念和實(shí)體之間的聯(lián)系進(jìn)行推理,。他們只能根據(jù)在訓(xùn)練中學(xué)到的模式來(lái)生成文本,。
1.1 空間推理能力
空間推理是指理解和操縱我們周圍物理空間中的物體、人和地點(diǎn)之間的關(guān)系的能力,。它包括在二維或三維空間中對(duì)物體進(jìn)行可視化和心理轉(zhuǎn)換,,以及識(shí)別模式、轉(zhuǎn)換和物體之間的關(guān)系,??臻g推理技能對(duì)于許多任務(wù)和活動(dòng)都很重要,比如導(dǎo)航,,解決問(wèn)題,,以及可視化你腦海中的物體和結(jié)構(gòu)。
圖1顯示了 ChatGPT努力完成空間導(dǎo)航任務(wù)的實(shí)例,。
1.2 物理推理能力
物理推理是指在現(xiàn)實(shí)世界中理解和操縱物理物體及其相互作用的能力,。它涉及到應(yīng)用物理定律和概念來(lái)預(yù)測(cè) 和解釋物理系統(tǒng)的行為。物理推理是人類智能的一個(gè)關(guān)鍵方面,,被用于各種智能領(lǐng)域,,如工程、物理和機(jī)器人技術(shù),。在人工智能中,,物理推理是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要專門(mén)的模型來(lái)學(xué)習(xí)和推理物理系統(tǒng),。
圖2顯示了ChatGPT在物理推理失敗的一些例子,。
1.3 時(shí)間推理能力
時(shí)間推理是指對(duì)事件及其時(shí)間順序進(jìn)行推理和預(yù)測(cè)的能力。它涉及到理解事件之間的時(shí)間關(guān)系,,事件的持續(xù)時(shí)間,,以及事件與事件之間相對(duì)的時(shí)間。時(shí)間推理是人類智能的一個(gè)重要方面,,它被用于調(diào)度,、規(guī)劃和預(yù)測(cè)等各個(gè)領(lǐng)域,。在人工智能中,時(shí)間推理是一項(xiàng)具有挑戰(zhàn)性的任務(wù),,需要專門(mén)的模型和算法來(lái)學(xué)習(xí)和預(yù)測(cè)事件序列的時(shí)間和時(shí)間,。
圖3中的實(shí)例表明,ChatGPT不能從一個(gè)簡(jiǎn)單的故事中推斷出正確的時(shí)間順序,。
1.4 心理推理能力
心理推理是指理解和預(yù)測(cè)人類行為和心理過(guò)程的能力,。它涉及到應(yīng)用心理學(xué)理論、模型和概念來(lái)解釋和預(yù)測(cè)人類的行為和心理狀態(tài),。在人工智能中,,心理推理是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要專門(mén)的模型和算法,,來(lái)學(xué)習(xí)和推理人類的行為和心理過(guò)程,。
二、邏輯
邏輯學(xué)是數(shù)學(xué)和哲學(xué)的一個(gè)分支,,它研究推理的原理,。它處理正確推理的規(guī)則和方法,如三段論,、歸納法和演繹法,。邏輯是指確保參數(shù)是有效的、一致的,、沒(méi)有矛盾的,。
圖5和圖6中顯示了ChatGPT在邏輯推理中失敗的一些示例。
圖5. Q:邁克的媽媽有4個(gè)孩子,;其中3個(gè)是路易斯,、德雷克和瑪?shù)贍栠_(dá)。第四個(gè)孩子叫什么名字,?--ChatGPT:如果沒(méi)有更多的信息,,就不可能確定第四個(gè)孩子的名字。
圖6. Q:一所房子四面都有窗,。一頭熊走過(guò)窗前,。這頭熊是什么顏色的?---ChatGPT:基于現(xiàn)有信息,,無(wú)法判斷熊的顏色,!
三、數(shù)學(xué)和算術(shù)
ChatGPT計(jì)算數(shù)學(xué)表達(dá)式的能力有限,。圖7,、8和9顯示了ChatGPT在數(shù)學(xué)和算術(shù)方面失敗的一些例子。
圖7. ChatGPT無(wú)法簡(jiǎn)化代數(shù)表達(dá)式
圖8
ChatGPT在回答“我6歲時(shí),,我的妹妹只有我一半的年齡”這個(gè)問(wèn)題時(shí)犯了一個(gè)錯(cuò)誤?,F(xiàn)在我已經(jīng)70歲了,,我妹妹多大了?”因?yàn)樗峁┑幕卮鹗?3,,但正確的答案是67,。
四、事實(shí)性錯(cuò)誤
ChatGPT的輸出在科學(xué)事實(shí)方面缺乏準(zhǔn)確性,。它有時(shí)缺乏對(duì)基本事實(shí)的知識(shí),,它提供的信息可能看起來(lái)可信,但最終被證明是不正確的,,Bard在發(fā)布會(huì)現(xiàn)場(chǎng)的翻車事件,,就是一個(gè)很好的例子。圖10和圖11顯示了ChatGPT所犯下的其他兩個(gè)令人啼笑皆非的事實(shí)性錯(cuò)誤,。
圖10. 一個(gè)月竟有40多天?。,。,。?/p>
圖11. Q:英寸,、公斤,、厘米、碼,,其中哪個(gè)不屬于其他三個(gè)的范疇? -- ChatGPT: “碼”,。因?yàn)椤按a”是長(zhǎng)度單位,其他三個(gè)都是質(zhì)量單位,。
五,、偏見(jiàn)和歧視
人工智能帶來(lái)的倫理挑戰(zhàn)是巨大的,其中最重要的一個(gè)是偏見(jiàn)問(wèn)題,。語(yǔ)言模型中的偏見(jiàn)是指生成的語(yǔ)言輸出中出現(xiàn)的系統(tǒng)性不準(zhǔn)確或刻板印象,,這些數(shù)據(jù)被訓(xùn)練數(shù)據(jù)所影響,并反映了數(shù)據(jù)中存在的社會(huì)和文化偏見(jiàn),。這些偏見(jiàn)可以以多種方式影響語(yǔ)言模型,,如延續(xù)刻板印象,造成誤解,,或傳播有害和虛假的信息,。
六、幽默
幽默是一種有趣或滑稽的品質(zhì),,通常通過(guò)娛樂(lè)或讓人大笑的言語(yǔ)或行為來(lái)表達(dá),。它可以采取多種形式,如笑話,、諷刺,、諷刺或好玩的行為,,它的意義可以根據(jù)文化背景和個(gè)人品味而有很大的不同。幽默通常包括使用幽默技巧,,如雙關(guān)語(yǔ),、文字游戲和荒謬,來(lái)喚起觀眾的反應(yīng),。這是一種復(fù)雜而微妙的人類交流形式,,對(duì)機(jī)器人,即使是最先進(jìn)的機(jī)器人,,也是一個(gè)重大的挑戰(zhàn),。
ChatGPT說(shuō)笑話的效果如何?
七,、寫(xiě)代碼
ChatGPT擅長(zhǎng)處理一些編程問(wèn)題,,但有時(shí)會(huì)產(chǎn)生不準(zhǔn)確或不那么優(yōu)質(zhì)的代碼。雖然它有了編寫(xiě)代碼的能力,,可以幫助完成諸如生成通用函數(shù)或重復(fù)代碼等任務(wù),,但它不能完全替代人類開(kāi)發(fā)人員。
圖14顯示了ChatGPT所犯的一些編碼錯(cuò)誤,。例如,,盡管ChatGPT能夠在Python中正確識(shí)別操作符優(yōu)先級(jí),但它在語(yǔ)句中生成了一個(gè)錯(cuò)誤的答案,。
八.句法結(jié)構(gòu),、拼寫(xiě)和語(yǔ)法
ChatGPT擅長(zhǎng)于語(yǔ)言理解,但偶爾仍然會(huì)出現(xiàn)錯(cuò)誤,。
圖15. 當(dāng)被要求以s為結(jié)尾造句時(shí),,ChatGPT兩次都答非所問(wèn)了。
九,、自我意識(shí)
自我意識(shí)是指認(rèn)識(shí)到自己是一個(gè)獨(dú)立于他人的個(gè)體,,并理解自己的思想、感受,、個(gè)性和身份的能力,。它包括能夠改變自己的思想、情感和行為,,并理解它們?nèi)绾斡绊懸粋€(gè)人的行為和與他人的互動(dòng),。
圖16的例子顯示,ChatGPT的自我意識(shí)能力亟待提升,,它并不清楚自己的體系結(jié)構(gòu),,包括模型圖層和參數(shù)。
圖16
十、其他
除前述不足之外,,ChatGPT在以下方面的表現(xiàn)可能也不盡如人意,,包括:
1. ChatGPT在使用習(xí)語(yǔ)方面的拙劣表現(xiàn),讓人輕易察覺(jué)到它的非人類身份,。
2. 由于ChatGPT缺乏真實(shí)的情感和思想,,因此它無(wú)法像人類那樣創(chuàng)造出能與人們產(chǎn)生情感共鳴的內(nèi)容。
3. ChatGPT雖能很好地濃縮主題內(nèi)容,,但無(wú)法提供獨(dú)特的視角,。
4. ChatGPT的答案往往過(guò)于全面和冗長(zhǎng),從多個(gè)角度處理一個(gè)主題,,當(dāng)需要給出一個(gè)直接的答案時(shí),,可能無(wú)法勝任。
5. 世界上沒(méi)有兩片相同的葉子,,世界上也沒(méi)有兩個(gè)相同的人,。ChatGPT缺乏這種個(gè)體差異性,而且往往過(guò)于字面化,,在某些情況下導(dǎo)致了某些信息的缺失,。例如,它的回答通常會(huì)嚴(yán)格地框定在所問(wèn)到的問(wèn)題之中,,而人類的回答往往會(huì)各種各樣,,并很有可能將話題轉(zhuǎn)移到其他主題上,。
6. ChatGPT努力保持一種中立的立場(chǎng),,而人類在表達(dá)觀點(diǎn)時(shí)則往往有傾向性。
7. ChatGPT的回答在本質(zhì)上往往是正式的,,因?yàn)樗木幊瘫苊饬朔钦降恼Z(yǔ)言,。相比之下,人類傾向于使用更隨意和熟悉的表達(dá)方式,。
8. 如果ChatGPT被告知它的答案是不正確的,,它可能會(huì)通過(guò)道歉,并糾正自己的答案,,但也有可能保持其原來(lái)的答案,。