隨著人工智能聊天機(jī)器人ChatGPT引發(fā)的熱議持續(xù)升溫,,科技圈正迎來一輪新熱潮,,不少用戶被ChatGPT足以“以假亂真”的擬人回答深深震撼,,還有用戶使用過微軟基于ChatGPT支持的最新版本人工智能搜索引擎后驚呼“時(shí)代變了”。
在中文人工智能領(lǐng)域,,百度,、360、科大訊飛等人工智能公司紛紛發(fā)力,,關(guān)于“中國版ChatGPT”最終將花落誰家也不斷引起業(yè)內(nèi)熱議,。
事實(shí)上,ChatGPT之所以能夠取得令人稱奇的能力,,核心在于其基于GPT-3.5架構(gòu)一路發(fā)展而來,,具備強(qiáng)大認(rèn)知智能的預(yù)訓(xùn)練模型,,海量學(xué)習(xí)數(shù)據(jù)以及背靠微軟的強(qiáng)大算力。從這些維度來看,,誰將最先打造出“中國版ChatGPT”呢,?
━━━━━
ChatGPT表現(xiàn)出色
考驗(yàn)國內(nèi)企業(yè)認(rèn)知智能領(lǐng)域技術(shù)積累
ChatGPT屬于認(rèn)知智能領(lǐng)域的應(yīng)用,從目前普遍的對話感受來看,,ChatGPT的最大亮點(diǎn)就在于其意圖識別與語言理解能力甚至能夠達(dá)到“以假亂真”的水準(zhǔn),,回答滴水不漏。要做到這一點(diǎn),,強(qiáng)大的NLP(自然語言處理)技術(shù)是關(guān)鍵,。
有觀點(diǎn)認(rèn)為,ChatGPT的核心技術(shù)是人工智能語言大模型,,其關(guān)鍵是如何讓人工智能模型具備邏輯推理能力,,以及如何讓人工智能學(xué)習(xí)全互聯(lián)網(wǎng)的知識。這些ChatGPT基本都做到了,,因此在決策和知識環(huán)節(jié)有了很大的突破,。
據(jù)了解,目前國內(nèi)有不少公司正在布局這一領(lǐng)域,。2月7日,,百度宣布將推出類ChatGPT的技術(shù),并確定項(xiàng)目名為“文心一言”,。三六零同日也在投資者互動(dòng)平臺上表示計(jì)劃盡快推出類ChatGPT技術(shù)的原型版產(chǎn)品,。
具體來看,對于決策和知識環(huán)節(jié),,常識推理是重要一環(huán),。對于常識問答系統(tǒng)來說,首先要能從千萬量級的海量的知識庫中準(zhǔn)確檢索到相關(guān)的知識,,同時(shí)模型要能正確地將兩條知識進(jìn)行結(jié)合,,建立兩條常識之間的關(guān)系,才能與問題相匹配,,最終得到正確選項(xiàng),。
2月8日,科大訊飛在投資者互動(dòng)平臺回應(yīng)稱,,已面向認(rèn)知智能領(lǐng)域陸續(xù)開源了6大類,、超過40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語言模型,在Github平臺的中文預(yù)訓(xùn)練模型的星標(biāo)數(shù)達(dá)13346,,位列第一,,是第二名的2倍,“公司已經(jīng)在當(dāng)前核心技術(shù)、產(chǎn)業(yè)場景,、行業(yè)數(shù)據(jù)等深厚積累的基礎(chǔ)上,于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),,科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,,將于2023年5月6日進(jìn)行產(chǎn)品級發(fā)布?!苯刂聊壳?,這是唯一給出確切上市時(shí)間,并率先實(shí)現(xiàn)商業(yè)化的中國企業(yè),。
在該領(lǐng)域,,科大訊飛主導(dǎo)承建了科技部首批20家標(biāo)桿全國重點(diǎn)實(shí)驗(yàn)室之一的認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室,多年來始終保持關(guān)鍵核心技術(shù)處于世界前沿水平,。去年科大訊飛曾獲得包括OpenBookQA,、常識推理挑戰(zhàn)賽QASC等在內(nèi)的總共獲得了12項(xiàng)認(rèn)知智能領(lǐng)域權(quán)威評測的第一。
━━━━━
如何“再打造”ChatGPT,?
數(shù)據(jù)與算力是門檻
事實(shí)上,,早在2022年12月,首個(gè)開源的類ChatGPT項(xiàng)目就已經(jīng)在GitHub上發(fā)布,,該項(xiàng)目基于谷歌語言大模型PaLM架構(gòu),,使用了同ChatGPT一模一樣的從人類反饋中強(qiáng)化學(xué)習(xí)的方法,但卻出現(xiàn)了無人能夠運(yùn)行的窘境,。
這是因?yàn)?,人工智能模型要想達(dá)到ChatGPT的級別,不僅要看算法,,還需要足夠大的規(guī)模,、海量的訓(xùn)練數(shù)據(jù)以及支撐運(yùn)行的算力。
中國電信首席專家,、美國貝爾實(shí)驗(yàn)室院士畢奇在接受媒體采訪時(shí)表示,,ChatGPT所使用的技術(shù)研發(fā)需要投入大規(guī)模資金,它基于一個(gè)巨大的語料庫,,千億參數(shù)的模型,,還需要計(jì)算快且便宜的芯片等。
IDEA研究院(粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院)認(rèn)知計(jì)算與自然語言研究中心講席科學(xué)家張家興公開表示,,與以往的人工神經(jīng)網(wǎng)絡(luò)相比,,預(yù)訓(xùn)練大模型最大的不同在于它規(guī)模足夠大,深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)多,、連接多,、參數(shù)多。
據(jù)了解,2012年前后的深度學(xué)習(xí)網(wǎng)絡(luò)只有幾百萬參數(shù),;2018年前后主流的預(yù)訓(xùn)練模型達(dá)到1億參數(shù),;目前被證明非常有效的大規(guī)模預(yù)訓(xùn)練模型已有幾千億參數(shù),短短幾年時(shí)間提升了幾千倍,。在對預(yù)訓(xùn)練模型各種不同的技術(shù)評測中,,算法性能展示了一個(gè)規(guī)律:數(shù)據(jù)規(guī)模越大、預(yù)訓(xùn)練模型參數(shù)越多,,算法輸出精度往往也越高,,而在這背后,所要求的算力也更加恐怖,。
ChatGPT由OpenAI研發(fā),,該公司背靠微軟,可用算力包括28.5萬個(gè)CPU核心,、1萬個(gè)英偉達(dá)V100 GPU,。公開資料顯示,ChatGPT的前身GPT-3參數(shù)量達(dá)到了驚人的1750億,,訓(xùn)練一次所要消耗的成本就高達(dá)近8400萬元人民幣,。由此看來,訓(xùn)練ChatGPT所需要的數(shù)據(jù)量,、算力只會更多,。
目前,國內(nèi)市場中百度,、科大訊飛等常年深耕人工智能的企業(yè)各自均有各自的算力積累,,如科大訊飛曾于去年12月在投資者互動(dòng)平臺上表示,其于2009年就開始算力基礎(chǔ)設(shè)施建設(shè),,目前已建成4城7中心深度學(xué)習(xí)計(jì)算平臺,,訊飛的算力不僅完全滿足AI算法模型訓(xùn)練,及面向開放平臺數(shù)百萬開發(fā)者和其他行業(yè)伙伴提供相關(guān)AI服務(wù)的需求,。
━━━━━
產(chǎn)品發(fā)布看什么,?
行業(yè)應(yīng)用是關(guān)鍵
當(dāng)“硬件”足夠,ChatGPT能夠運(yùn)轉(zhuǎn)起來的重要因素還有一個(gè):讓其能夠不斷迭代,、訓(xùn)練的海量數(shù)據(jù),。記者在體驗(yàn)多個(gè)國外人工智能語義模型時(shí)發(fā)現(xiàn),對方往往提供免費(fèi)的對話服務(wù),,但需要用戶予以反饋,,通過此種方式對模型進(jìn)行再訓(xùn)練,事實(shí)上,,這天然符合行業(yè)應(yīng)用的場景,。
三六零董秘在近期的電話會議中表示,,ChatGPT走出了通用范式(AI)的從0到1,這會對搜索引擎的底層邏輯造成重大影響,,所以大家看到現(xiàn)在首先發(fā)力或者主要發(fā)力于ChatGPT產(chǎn)品的是谷歌等搜索引擎巨頭,,“在此之前,大家對于能用通用AI來做專業(yè)的事情心里是沒有根的,,大家更多做垂直領(lǐng)域或者更專業(yè)的AI,,用更專業(yè)的數(shù)據(jù)模型去訓(xùn)練人工智能,去做一些專業(yè)領(lǐng)域的事情,。”
在行業(yè)應(yīng)用方面,,他認(rèn)為360使用安全AI查找,、掃描漏洞效果非常好,科大訊飛從很早開始就做AI訓(xùn)練模型,,在專有領(lǐng)域做到了相當(dāng)?shù)乃?,在醫(yī)療領(lǐng)域、教育領(lǐng)域有很好的市場地位,。
事實(shí)上,,深耕某一行業(yè)多年的公司具備更多數(shù)據(jù)積累優(yōu)勢。公開資料顯示,,目前科大訊飛智慧教育產(chǎn)品已在全國32個(gè)省級行政單位50000多所學(xué)校中應(yīng)用,,服務(wù)超1.3億師生;在AI學(xué)習(xí)機(jī)市場,,去年?duì)I收增長53%,,一直是份額最高的學(xué)習(xí)機(jī)產(chǎn)品;智醫(yī)助理產(chǎn)品覆蓋了全國380個(gè)區(qū)縣,,5.3億次AI輔助診療,。
記者梳理資料發(fā)現(xiàn),近期科大訊飛,、云從科技等A股相關(guān)人工智能類公司的投資者交流活動(dòng)吸引了多家投研機(jī)構(gòu)的關(guān)注,,是否會布局類ChatGPT產(chǎn)品是主要問題之一。早在2月7日,,科大訊飛就在深交所互動(dòng)易上回答關(guān)于“搶灘ChatGPT語言模型”的問題時(shí)表示,,已于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,,于2023年5月6日進(jìn)行產(chǎn)品級發(fā)布,。該技術(shù)突破將在AI學(xué)習(xí)機(jī)的中英文作文輔導(dǎo)、中英文口語學(xué)習(xí)等方面帶來顯著提升,??拼笥嶏w在2023年會持續(xù)升級該系列技術(shù),,并陸續(xù)應(yīng)用于公司在教育、醫(yī)療,、汽車,、消費(fèi)者等多個(gè)行業(yè)賽道的既有產(chǎn)品,持續(xù)提升核心技術(shù)效果和產(chǎn)品體驗(yàn),??梢姡瑥乃懔λ惴ǚe累到搶先布局產(chǎn)品落地,,科大訊飛在這場中國版的ChatGPT角逐中已優(yōu)先一步,。
睿億投資研究總監(jiān)熊林認(rèn)為,包括ChatGPT在內(nèi)的人工智能產(chǎn)業(yè),,由于具有替代人工的潛能,,可以有效地幫助企業(yè)降本增效,因而長期想象空間很大,,但短期產(chǎn)品迭代及生態(tài)建立仍需時(shí)間,,盈利兌現(xiàn)也需要時(shí)間,因此應(yīng)提防過度炒作帶來的風(fēng)險(xiǎn),。
事實(shí)上,,在基礎(chǔ)算力、人工智能模型,、數(shù)據(jù)量等維度,,國內(nèi)的人工智能公司均有各自的優(yōu)勢,在ChatGPT大獲成功的鼓勵(lì)下,,中國版ChatGPT的到來似乎已并不遙遠(yuǎn),。有業(yè)界觀點(diǎn)稱,從大數(shù)據(jù)資源看,,中國擁有全世界最大規(guī)模的網(wǎng)民數(shù)量,,有豐富的應(yīng)用場景,在數(shù)據(jù)積累方面優(yōu)勢明顯,。雖然目前全球還沒有能跟ChatGPT驚艷表現(xiàn)相抗衡的大模型,,但是業(yè)界共識是差距在兩年左右,兩年的差距并非鴻溝,,有趕超可能,。屬于AIGC的時(shí)代已然來臨,那些對AIGC探索的企業(yè)也將接踵而至,。