【ChatGPT專題】“中國版ChatGPT”將花落誰家？-AET-電子技術(shù)應(yīng)用

【ChatGPT專題】“中國版ChatGPT”將花落誰家？

日期： 2023-02-17

來源：新京報(bào)

關(guān)鍵詞： ChatGPT 人工智能

　　隨著人工智能聊天機(jī)器人ChatGPT引發(fā)的熱議持續(xù)升溫，科技圈正迎來一輪新熱潮，不少用戶被ChatGPT足以“以假亂真”的擬人回答深深震撼，還有用戶使用過微軟基于ChatGPT支持的最新版本人工智能搜索引擎后驚呼“時(shí)代變了”。

　　在中文人工智能領(lǐng)域，百度、360、科大訊飛等人工智能公司紛紛發(fā)力，關(guān)于“中國版ChatGPT”最終將花落誰家也不斷引起業(yè)內(nèi)熱議。

　　事實(shí)上，ChatGPT之所以能夠取得令人稱奇的能力，核心在于其基于GPT-3.5架構(gòu)一路發(fā)展而來，具備強(qiáng)大認(rèn)知智能的預(yù)訓(xùn)練模型，海量學(xué)習(xí)數(shù)據(jù)以及背靠微軟的強(qiáng)大算力。從這些維度來看，誰將最先打造出“中國版ChatGPT”呢？

　　━━━━━

　　ChatGPT表現(xiàn)出色

　　考驗(yàn)國內(nèi)企業(yè)認(rèn)知智能領(lǐng)域技術(shù)積累

　　ChatGPT屬于認(rèn)知智能領(lǐng)域的應(yīng)用，從目前普遍的對話感受來看，ChatGPT的最大亮點(diǎn)就在于其意圖識別與語言理解能力甚至能夠達(dá)到“以假亂真”的水準(zhǔn)，回答滴水不漏。要做到這一點(diǎn)，強(qiáng)大的NLP（自然語言處理）技術(shù)是關(guān)鍵。

　　有觀點(diǎn)認(rèn)為，ChatGPT的核心技術(shù)是人工智能語言大模型，其關(guān)鍵是如何讓人工智能模型具備邏輯推理能力，以及如何讓人工智能學(xué)習(xí)全互聯(lián)網(wǎng)的知識。這些ChatGPT基本都做到了，因此在決策和知識環(huán)節(jié)有了很大的突破。

　　據(jù)了解，目前國內(nèi)有不少公司正在布局這一領(lǐng)域。2月7日，百度宣布將推出類ChatGPT的技術(shù)，并確定項(xiàng)目名為“文心一言”。三六零同日也在投資者互動平臺上表示計(jì)劃盡快推出類ChatGPT技術(shù)的原型版產(chǎn)品。

　　具體來看，對于決策和知識環(huán)節(jié)，常識推理是重要一環(huán)。對于常識問答系統(tǒng)來說，首先要能從千萬量級的海量的知識庫中準(zhǔn)確檢索到相關(guān)的知識，同時(shí)模型要能正確地將兩條知識進(jìn)行結(jié)合，建立兩條常識之間的關(guān)系，才能與問題相匹配，最終得到正確選項(xiàng)。

　　2月8日，科大訊飛在投資者互動平臺回應(yīng)稱，已面向認(rèn)知智能領(lǐng)域陸續(xù)開源了6大類、超過40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語言模型，在Github平臺的中文預(yù)訓(xùn)練模型的星標(biāo)數(shù)達(dá)13346，位列第一，是第二名的2倍，“公司已經(jīng)在當(dāng)前核心技術(shù)、產(chǎn)業(yè)場景、行業(yè)數(shù)據(jù)等深厚積累的基礎(chǔ)上，于2022年12月份進(jìn)一步啟動生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān)，科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品，將于2023年5月6日進(jìn)行產(chǎn)品級發(fā)布。”截至目前，這是唯一給出確切上市時(shí)間，并率先實(shí)現(xiàn)商業(yè)化的中國企業(yè)。

　　在該領(lǐng)域，科大訊飛主導(dǎo)承建了科技部首批20家標(biāo)桿全國重點(diǎn)實(shí)驗(yàn)室之一的認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室，多年來始終保持關(guān)鍵核心技術(shù)處于世界前沿水平。去年科大訊飛曾獲得包括OpenBookQA、常識推理挑戰(zhàn)賽QASC等在內(nèi)的總共獲得了12項(xiàng)認(rèn)知智能領(lǐng)域權(quán)威評測的第一。

　　━━━━━

　　如何“再打造”ChatGPT？

　　數(shù)據(jù)與算力是門檻

　　事實(shí)上，早在2022年12月，首個(gè)開源的類ChatGPT項(xiàng)目就已經(jīng)在GitHub上發(fā)布，該項(xiàng)目基于谷歌語言大模型PaLM架構(gòu)，使用了同ChatGPT一模一樣的從人類反饋中強(qiáng)化學(xué)習(xí)的方法，但卻出現(xiàn)了無人能夠運(yùn)行的窘境。

　　這是因?yàn)椋斯ぶ悄苣Ｐ鸵脒_(dá)到ChatGPT的級別，不僅要看算法，還需要足夠大的規(guī)模、海量的訓(xùn)練數(shù)據(jù)以及支撐運(yùn)行的算力。

　　中國電信首席專家、美國貝爾實(shí)驗(yàn)室院士畢奇在接受媒體采訪時(shí)表示，ChatGPT所使用的技術(shù)研發(fā)需要投入大規(guī)模資金，它基于一個(gè)巨大的語料庫，千億參數(shù)的模型，還需要計(jì)算快且便宜的芯片等。

　　IDEA研究院（粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院）認(rèn)知計(jì)算與自然語言研究中心講席科學(xué)家張家興公開表示，與以往的人工神經(jīng)網(wǎng)絡(luò)相比，預(yù)訓(xùn)練大模型最大的不同在于它規(guī)模足夠大，深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)多、連接多、參數(shù)多。

　　據(jù)了解，2012年前后的深度學(xué)習(xí)網(wǎng)絡(luò)只有幾百萬參數(shù)；2018年前后主流的預(yù)訓(xùn)練模型達(dá)到1億參數(shù)；目前被證明非常有效的大規(guī)模預(yù)訓(xùn)練模型已有幾千億參數(shù)，短短幾年時(shí)間提升了幾千倍。在對預(yù)訓(xùn)練模型各種不同的技術(shù)評測中，算法性能展示了一個(gè)規(guī)律：數(shù)據(jù)規(guī)模越大、預(yù)訓(xùn)練模型參數(shù)越多，算法輸出精度往往也越高，而在這背后，所要求的算力也更加恐怖。

　　ChatGPT由OpenAI研發(fā)，該公司背靠微軟，可用算力包括28.5萬個(gè)CPU核心、1萬個(gè)英偉達(dá)V100 GPU。公開資料顯示，ChatGPT的前身GPT-3參數(shù)量達(dá)到了驚人的1750億，訓(xùn)練一次所要消耗的成本就高達(dá)近8400萬元人民幣。由此看來，訓(xùn)練ChatGPT所需要的數(shù)據(jù)量、算力只會更多。

　　目前，國內(nèi)市場中百度、科大訊飛等常年深耕人工智能的企業(yè)各自均有各自的算力積累，如科大訊飛曾于去年12月在投資者互動平臺上表示，其于2009年就開始算力基礎(chǔ)設(shè)施建設(shè)，目前已建成4城7中心深度學(xué)習(xí)計(jì)算平臺，訊飛的算力不僅完全滿足AI算法模型訓(xùn)練，及面向開放平臺數(shù)百萬開發(fā)者和其他行業(yè)伙伴提供相關(guān)AI服務(wù)的需求。

　　━━━━━

　　產(chǎn)品發(fā)布看什么？

　　行業(yè)應(yīng)用是關(guān)鍵

　　當(dāng)“硬件”足夠，ChatGPT能夠運(yùn)轉(zhuǎn)起來的重要因素還有一個(gè)：讓其能夠不斷迭代、訓(xùn)練的海量數(shù)據(jù)。記者在體驗(yàn)多個(gè)國外人工智能語義模型時(shí)發(fā)現(xiàn)，對方往往提供免費(fèi)的對話服務(wù)，但需要用戶予以反饋，通過此種方式對模型進(jìn)行再訓(xùn)練，事實(shí)上，這天然符合行業(yè)應(yīng)用的場景。

　　三六零董秘在近期的電話會議中表示，ChatGPT走出了通用范式（AI）的從0到1，這會對搜索引擎的底層邏輯造成重大影響，所以大家看到現(xiàn)在首先發(fā)力或者主要發(fā)力于ChatGPT產(chǎn)品的是谷歌等搜索引擎巨頭，“在此之前，大家對于能用通用AI來做專業(yè)的事情心里是沒有根的，大家更多做垂直領(lǐng)域或者更專業(yè)的AI，用更專業(yè)的數(shù)據(jù)模型去訓(xùn)練人工智能，去做一些專業(yè)領(lǐng)域的事情。”

　　在行業(yè)應(yīng)用方面，他認(rèn)為360使用安全AI查找、掃描漏洞效果非常好，科大訊飛從很早開始就做AI訓(xùn)練模型，在專有領(lǐng)域做到了相當(dāng)?shù)乃剑卺t(yī)療領(lǐng)域、教育領(lǐng)域有很好的市場地位。

　　事實(shí)上，深耕某一行業(yè)多年的公司具備更多數(shù)據(jù)積累優(yōu)勢。公開資料顯示，目前科大訊飛智慧教育產(chǎn)品已在全國32個(gè)省級行政單位50000多所學(xué)校中應(yīng)用，服務(wù)超1.3億師生；在AI學(xué)習(xí)機(jī)市場，去年?duì)I收增長53%，一直是份額最高的學(xué)習(xí)機(jī)產(chǎn)品；智醫(yī)助理產(chǎn)品覆蓋了全國380個(gè)區(qū)縣，5.3億次AI輔助診療。

　　記者梳理資料發(fā)現(xiàn)，近期科大訊飛、云從科技等A股相關(guān)人工智能類公司的投資者交流活動吸引了多家投研機(jī)構(gòu)的關(guān)注，是否會布局類ChatGPT產(chǎn)品是主要問題之一。早在2月7日，科大訊飛就在深交所互動易上回答關(guān)于“搶灘ChatGPT語言模型”的問題時(shí)表示，已于2022年12月份進(jìn)一步啟動生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān)，科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品，于2023年5月6日進(jìn)行產(chǎn)品級發(fā)布。該技術(shù)突破將在AI學(xué)習(xí)機(jī)的中英文作文輔導(dǎo)、中英文口語學(xué)習(xí)等方面帶來顯著提升。科大訊飛在2023年會持續(xù)升級該系列技術(shù)，并陸續(xù)應(yīng)用于公司在教育、醫(yī)療、汽車、消費(fèi)者等多個(gè)行業(yè)賽道的既有產(chǎn)品，持續(xù)提升核心技術(shù)效果和產(chǎn)品體驗(yàn)。可見，從算力算法積累到搶先布局產(chǎn)品落地，科大訊飛在這場中國版的ChatGPT角逐中已優(yōu)先一步。

　　睿億投資研究總監(jiān)熊林認(rèn)為，包括ChatGPT在內(nèi)的人工智能產(chǎn)業(yè)，由于具有替代人工的潛能，可以有效地幫助企業(yè)降本增效，因而長期想象空間很大，但短期產(chǎn)品迭代及生態(tài)建立仍需時(shí)間，盈利兌現(xiàn)也需要時(shí)間，因此應(yīng)提防過度炒作帶來的風(fēng)險(xiǎn)。

　　事實(shí)上，在基礎(chǔ)算力、人工智能模型、數(shù)據(jù)量等維度，國內(nèi)的人工智能公司均有各自的優(yōu)勢，在ChatGPT大獲成功的鼓勵(lì)下，中國版ChatGPT的到來似乎已并不遙遠(yuǎn)。有業(yè)界觀點(diǎn)稱，從大數(shù)據(jù)資源看，中國擁有全世界最大規(guī)模的網(wǎng)民數(shù)量，有豐富的應(yīng)用場景，在數(shù)據(jù)積累方面優(yōu)勢明顯。雖然目前全球還沒有能跟ChatGPT驚艷表現(xiàn)相抗衡的大模型，但是業(yè)界共識是差距在兩年左右，兩年的差距并非鴻溝，有趕超可能。屬于AIGC的時(shí)代已然來臨，那些對AIGC探索的企業(yè)也將接踵而至。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

【ChatGPT專題】“中國版ChatGPT”將花落誰家？

日期： 2023-02-17

來源： 新京報(bào)

相關(guān)內(nèi)容

來源：新京報(bào)