沒(méi)有好問(wèn)題,,就沒(méi)有好答案,。
百度技術(shù)積累如何,,比起谷歌微軟的搜索會(huì)有什么優(yōu)勢(shì),?
百度的大模型參數(shù)比ChatGPT多近50%,質(zhì)量會(huì)更好嗎?
————
之前文章提過(guò),,北京時(shí)間2月7日,,谷歌發(fā)布了Bard,直接與ChatGPT競(jìng)爭(zhēng),,而微軟緊接著發(fā)布了新Bing,,這個(gè)ChatGPT技術(shù)支持的搜索引擎驚艷四座。兩家公司分別上漲了4%多一點(diǎn),。
同樣在2月7日,,百度對(duì)外證實(shí)正在打造中國(guó)版的類ChatGPT項(xiàng)目,隨即,,百度股票漲了15%,。百度的微信官宣,項(xiàng)目名為文心一言(英文名ERNIE Bot),。其中,,“ERNIE”是“Enhanced Representation through Knowledge Integration”的縮寫(xiě),即“通過(guò)知識(shí)集成實(shí)現(xiàn)增強(qiáng)型表達(dá)”,。
資本市場(chǎng)給予了類ChatGPT項(xiàng)目很高的期待,。2月1日,便有消息傳出,,百度將于3月在國(guó)內(nèi)推出類似ChatGPT的智能聊天程序,,截至當(dāng)日收盤,百度港股股價(jià)報(bào)收于144.3港元,,漲幅達(dá)到8.66%,。
美國(guó)投行麥格理稱,百度可見(jiàn)的上行驚喜將會(huì)是公司有機(jī)會(huì)在中國(guó)推出類似ChatGPT的人工智能(AI)聊天機(jī)器人,,該公司將百度2023年,、2024年兩年經(jīng)調(diào)整每股盈測(cè)分別上調(diào)13%、4%,,并預(yù)計(jì)2023年經(jīng)調(diào)整經(jīng)營(yíng)利潤(rùn)率將提高2.4個(gè)百分點(diǎn)至18.3%,。資管巨頭貝萊德則增加持倉(cāng),將其在百度的持股比例增至6.6%,,成為該公司最大股東之一,。但隨后2月8日百度股價(jià)有所回落,2月9日百度股價(jià)低開(kāi)低走,。
為什么百度股票漲得這么多,?
百度方面表示,“百度是國(guó)內(nèi)少有的擁有大模型技術(shù)的企業(yè),,其從2019年開(kāi)始進(jìn)行大模型探索,,打造文心大模型家族,,包含PLATO、ERNIE 3.0等多個(gè)NLP大模型,,其中PLATO也主打?qū)υ捊换?。從技術(shù)上看,文心過(guò)往在NLP模型上的實(shí)踐,,將成為百度打造‘文心一言’的基礎(chǔ),。”
據(jù)百度方面介紹,,開(kāi)發(fā)中國(guó)的ChatGPT,,百度并不是從零開(kāi)始,百度在人工智能領(lǐng)域已經(jīng)深耕數(shù)十年了,。
目前的文心系列大模型參數(shù)規(guī)模達(dá)到2600億,,比GPT-3的1750億參數(shù)多48.5%。具備跨模態(tài),、跨語(yǔ)言的深度語(yǔ)義理解與生成能力,,表現(xiàn)超越谷歌的T5和OpenAI的GPT-3,是全球最大的中文單體模型,。
百度同時(shí)具備人工智能需要的算力,、算法和數(shù)據(jù),并且在底層的芯片,、深度學(xué)習(xí)框架,、大模型以及最上層的搜索等應(yīng)用四層技術(shù)棧均有布局。擁有產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)文心大模型ERNIE ,,具備跨模態(tài),、跨語(yǔ)言的深度語(yǔ)義理解與生成能力。
許多人表示,,看好百度以及相關(guān)廠商在國(guó)內(nèi)的布局能力,,原因是他們有中文語(yǔ)言優(yōu)勢(shì),有國(guó)內(nèi)領(lǐng)域相關(guān)數(shù)據(jù)積累,。當(dāng)然,國(guó)內(nèi)廠商目前在基礎(chǔ)模型及預(yù)訓(xùn)練模型方面與國(guó)外有差距,。但相信會(huì)在不久的將來(lái)會(huì)減少差距,。在特定的場(chǎng)景,各有優(yōu)勢(shì),。
百度的野心
就在ChatGPT上線后不久,,2022年12月末的百度全員會(huì)(內(nèi)部稱為“簡(jiǎn)單之約”)上,百度創(chuàng)始人,、董事長(zhǎng)兼CEO李彥宏就被員工問(wèn)到如何評(píng)價(jià)引發(fā)巨大關(guān)注的 ChatGPT,,以及百度有什么部署,。
李彥宏當(dāng)時(shí)說(shuō)道:“最近有許多人問(wèn)類似的問(wèn)題,不只是同業(yè),、同領(lǐng)域的朋友,,還有許多不同領(lǐng)域,跨界的人都在關(guān)注,,很高興我們天天琢磨的技術(shù)方向,,能夠讓這么多人關(guān)注,確實(shí)是挺不容易的,?!?/p>
“我們做了這么多年的AI之后,發(fā)現(xiàn)過(guò)去AI試圖理解人,、模仿人,,現(xiàn)在AI可以生成內(nèi)容?!崩顝┖晖嘎?,其實(shí)在這個(gè)領(lǐng)域,百度在過(guò)去很多年都有技術(shù)的積累,。
百度表示,,目前文心一言(英文名ERNIE Bot)在做上線前的沖刺準(zhǔn)備工作,預(yù)計(jì)三月份完成內(nèi)測(cè),,面向公眾開(kāi)放,。
從商業(yè)價(jià)值上看,OpenAI已經(jīng)初步證明了ChatGPT的商業(yè)化可行性,。OpenAI預(yù)測(cè),,2023年將實(shí)現(xiàn)收入2億美元,2024年將超過(guò)10億美元,。Sam Altman 最近對(duì)投資者表示,,OpenAI很快就能產(chǎn)生高達(dá)10億美元的年收入,部分是通過(guò)向消費(fèi)者和企業(yè)收取產(chǎn)品費(fèi)用實(shí)現(xiàn)的,。
而微軟的發(fā)布會(huì)上,,新搜索Bing和新瀏覽器Edge都放大了OpenAI技術(shù)的價(jià)值,說(shuō)明了其對(duì)搜索引擎的賦能是改變搜索引擎市場(chǎng)格局的關(guān)鍵,。
百度的野心首先是在搜索上,,有接近百度相關(guān)人士向記者透露,百度搜索早就接入了文心相關(guān)技術(shù),。
去年9月,,李彥宏公開(kāi)表示,人工智能發(fā)展在“技術(shù)層面和商業(yè)應(yīng)用層面,,都有方向性改變”,。
在近期流出的一份百度內(nèi)部講話中,,李彥宏再次強(qiáng)調(diào)“技術(shù)已經(jīng)到了臨界點(diǎn),類似ChatGPT這樣的技術(shù)如何運(yùn)用在搜索場(chǎng)景上,,未來(lái)一年,,在這方面我們非常有機(jī)會(huì)”。
2月8日,,經(jīng)媒體披露,,百度CEO李彥宏2023年一季度OKR關(guān)鍵任務(wù)為“引領(lǐng)搜索體驗(yàn)的代際變革”。
顯然,,百度搜索或?qū)⑷€接入文心一言,,搜索產(chǎn)品將迎來(lái)顛覆性變化。一些相關(guān)功能已陸續(xù)在百度搜索內(nèi)上線或內(nèi)測(cè),,包括多答案回復(fù),、智能生成等。
另外,,小度將融合文心一言的全面能力打造針對(duì)智能設(shè)備場(chǎng)景的人工智能模型,,“小度靈機(jī)”應(yīng)用到小度全系產(chǎn)品。
從百度相關(guān)商標(biāo)注冊(cè)的范圍看,,百度未來(lái)會(huì)把AI技術(shù)鋪開(kāi)到更廣泛的應(yīng)用范圍,。百度已申請(qǐng)注冊(cè)多件“ERNIE”、“ERNIEAI”,、“ERNIENLP”,、“ERNIE-VILG”商標(biāo),國(guó)際分類包括網(wǎng)站服務(wù),、科學(xué)儀器,,商標(biāo)最早申請(qǐng)時(shí)間是2019年6月,最新申請(qǐng)于今年1月3日,,多件商標(biāo)已注冊(cè)成功,。
其他大廠摩拳擦掌
除百度之外,國(guó)內(nèi)各個(gè)大廠也在試圖抓住ChatGPT帶來(lái)的熱度,。
列舉如下:
阿里
此前,,有媒體報(bào)道,阿里達(dá)摩院正在研發(fā)類chatgpt的對(duì)話機(jī)器人,,從曝光截圖來(lái)看,,阿里巴巴可能將ai大模型技術(shù)與釘釘生產(chǎn)力工具深度結(jié)合。阿里確認(rèn),,其ChatGPT產(chǎn)品也已經(jīng)在研發(fā)中,目前處于內(nèi)測(cè)階段,。據(jù)透露,,新產(chǎn)品可實(shí)現(xiàn)的功能包括知識(shí)問(wèn)答,、AI繪畫(huà)、代碼生成,、小說(shuō)續(xù)寫(xiě),、文案撰寫(xiě)、寫(xiě)詩(shī)作詞等,。也就是說(shuō),,不僅ChatGPT具備的能力它都能實(shí)現(xiàn),而且多了“AI繪畫(huà)”這項(xiàng)功能,。
據(jù)了解,,2023年1月,阿里巴巴達(dá)摩院曾發(fā)布2023年十大科技趨勢(shì),,其中多模態(tài)預(yù)訓(xùn)練大模型,、生成式ai在列。在這些可能照進(jìn)現(xiàn)實(shí)的科技趨勢(shì)中,,達(dá)摩院認(rèn)為,,基于多模態(tài)的預(yù)訓(xùn)練大模型將實(shí)現(xiàn)圖文音統(tǒng)一知識(shí)表示,成為人工智能(ai)基礎(chǔ)設(shè)施,。生產(chǎn)式ai進(jìn)入應(yīng)用爆發(fā)期,,將極大推動(dòng)數(shù)字內(nèi)容生產(chǎn)與創(chuàng)造。
360
2月7日,,三六零在互動(dòng)平臺(tái)表示,,公司的人工智能研究院從2020年開(kāi)始一直在包括類ChatGPT技術(shù)在內(nèi)的AIGC技術(shù)上有持續(xù)性的投入,但截至目前僅作為內(nèi)部業(yè)務(wù)自用的生產(chǎn)力工具使用,,且投資規(guī)模及技術(shù)水平與當(dāng)前的ChatGPT 3相比還有較大差距,,各項(xiàng)技術(shù)指標(biāo)只能做到略強(qiáng)于ChatGPT 2。
由于訓(xùn)練數(shù)據(jù)源及應(yīng)用方向的原因,,在中文環(huán)境下的實(shí)際效果強(qiáng)于ChatGPT 2,。360在數(shù)據(jù)資源端有豐富的多模態(tài)大數(shù)據(jù)積累和相關(guān)語(yǔ)料,尤其是中文語(yǔ)料,,相較于國(guó)外同行落后的是預(yù)訓(xùn)練大模型和有效的多模態(tài)數(shù)據(jù)清洗與融合技術(shù),。公司有充足的資金儲(chǔ)備可用于購(gòu)買大規(guī)模算力,在繼續(xù)深入自行研發(fā)的同時(shí),,不排除尋找強(qiáng)有力的合作伙伴,,以開(kāi)放的心態(tài)搭建多方共享平臺(tái)、補(bǔ)足短板,,快速縮小差距,。公司也計(jì)劃盡快推出類ChatGPT技術(shù)的demo版產(chǎn)品。AIGC技術(shù)除了在搜索引擎的應(yīng)用之外,,還可以輔助數(shù)字安全能力的提升,。
網(wǎng)易
2月8日,,據(jù)報(bào)道,網(wǎng)易有道未來(lái)或?qū)⑼瞥鯟hatGPT同源技術(shù)產(chǎn)品,,應(yīng)用場(chǎng)景圍繞在線教育,。網(wǎng)易有道一度漲超18%。
據(jù)相關(guān)負(fù)責(zé)人透露,,網(wǎng)易有道的AI團(tuán)隊(duì)此前便投入到ChatGPT同源技術(shù)產(chǎn)品的研發(fā),。去年底嘗試AIGC在教育場(chǎng)景中的落地應(yīng)用,包括但不限于AI口語(yǔ)老師,、中文作文打分和評(píng)價(jià)等,。網(wǎng)易有道還表示,其在學(xué)習(xí)和翻譯場(chǎng)景下積累了豐富的多模態(tài)數(shù)據(jù)和相關(guān)語(yǔ)料,,一直通過(guò)有道智云平臺(tái)向外輸出,。
近年來(lái),團(tuán)隊(duì)在神經(jīng)網(wǎng)絡(luò)翻譯,、計(jì)算機(jī)視覺(jué),、智能語(yǔ)音AI技術(shù)、高性能計(jì)算等關(guān)鍵技術(shù)方面均取得重要突破,。
“產(chǎn)品的最終形態(tài)團(tuán)隊(duì)還在討論中,,需要匹配用戶需求來(lái)決定,智能硬件,、在線課程都可能是考慮落地的場(chǎng)景,。”網(wǎng)易有道稱,。
騰訊
騰訊稱,,目前在相關(guān)方向上已有布局,專項(xiàng)研究也在有序推進(jìn),。騰訊持續(xù)投入AI等前沿技術(shù)的研發(fā),,基于此前在AI大模型、機(jī)器學(xué)習(xí)算法以及NLP等領(lǐng)域的技術(shù)儲(chǔ)備,,將進(jìn)一步開(kāi)展前沿研究及應(yīng)用探索,。據(jù)悉,2月3日,,騰訊科技(深圳)有限公司申請(qǐng)的“人機(jī)對(duì)話方法,、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”專利獲授權(quán),。
ChatGPT將是騰訊發(fā)展的一個(gè)巨大機(jī)遇,,聊天式界面天然與微信相洽,許多人都在期待騰訊的時(shí)間表。
京東
2月9日,,京東集團(tuán)副總裁,、IEEE Fellow何曉冬表示,京東一直在ChatAI 和AIGC賽道上推進(jìn),,但更聚焦2B行業(yè),近期將有進(jìn)一步突破,,包括在這一賽道上推出下一代產(chǎn)品,。何曉冬透露,京東云旗下言犀人工智能平臺(tái),,將依托自身10余年智能對(duì)話經(jīng)驗(yàn)的積累,,加上在京東零售、物流,、金融,、健康等各業(yè)務(wù)的多年實(shí)踐,日均千萬(wàn)次智能交互,,未來(lái)借助ChatGPT等相關(guān)技術(shù)成果,,將加速我國(guó)在人工智能的應(yīng)用落地。而結(jié)合京東大規(guī)模,、豐富的應(yīng)用場(chǎng)景和多年的技術(shù)積累,,聚焦文本、聲音和數(shù)字人生成4個(gè)方面開(kāi)展工作,。
京東云旗下言犀人工智能應(yīng)用平臺(tái)宣布推出產(chǎn)業(yè)版ChatGPT:ChatJD,,并公布了ChatJD的落地應(yīng)用路線圖“125”計(jì)劃。包含一個(gè)平臺(tái),、兩個(gè)領(lǐng)域,、五個(gè)應(yīng)用。
1個(gè)平臺(tái)是指ChatJD智能人機(jī)對(duì)話平臺(tái),,即自然語(yǔ)言處理中理解和生成任務(wù)的對(duì)話平臺(tái),,預(yù)計(jì)參數(shù)量達(dá)千億級(jí);2個(gè)領(lǐng)域分別為零售,、金融,;5個(gè)應(yīng)用包含內(nèi)容生成、人機(jī)對(duì)話,、用戶意圖理解,、信息抽取、情感分類,,涵蓋零售和金融行業(yè)復(fù)用程度最高的應(yīng)用場(chǎng)景,。
作業(yè)幫
作業(yè)幫也向媒體透露,關(guān)于ChatGPT在教育領(lǐng)域的應(yīng)用,該公司已經(jīng)在做一些小樣測(cè)試,,主要還是在原來(lái)作業(yè)幫的產(chǎn)品上,,等產(chǎn)品成熟度較高后,會(huì)在聰明學(xué)系統(tǒng)里進(jìn)行應(yīng)用,。
作業(yè)幫表示,,多年來(lái)其在預(yù)訓(xùn)練語(yǔ)言模型中有持續(xù)投入,在教育相關(guān)場(chǎng)景下的多個(gè)垂類應(yīng)用都有落地,,包括題意理解,、知識(shí)點(diǎn)分類、作文批改,、智能質(zhì)檢等,。
“比如,行業(yè)之前做考試批閱的普遍做法是圍繞圖像比對(duì)來(lái)進(jìn)行,,現(xiàn)在我們已經(jīng)能對(duì)一些數(shù)學(xué)題本身進(jìn)行測(cè)算和深度理解,、處理,這其實(shí)是相似的技術(shù),?!弊鳂I(yè)幫執(zhí)行總裁蘇靜表示。
科大訊飛
科大訊飛表示,,已于2022年12月進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),。2023年5月6日,將進(jìn)行產(chǎn)品級(jí)發(fā)布,,AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,。其技術(shù)突破將在中英文作文輔導(dǎo)、中英文口語(yǔ)學(xué)習(xí)等方面帶來(lái)顯著提升,。
消息放出后,,科大訊飛股價(jià)一度上漲30%,2月10日午盤,,科大訊飛上漲4.66%,。
字節(jié)跳動(dòng)
唯一不跟風(fēng)的是字節(jié)跳動(dòng),2月9日有傳聞稱,,字節(jié)跳動(dòng)的人工智能實(shí)驗(yàn)室(AI Lab)有開(kāi)展類似ChatGPT和AIGC的相關(guān)研發(fā),,未來(lái)或?yàn)槠煜碌腜ICO公司提供技術(shù)支持。但 PICO相關(guān)負(fù)責(zé)人直接對(duì)傳聞進(jìn)行了否認(rèn),,表示,,PICO目前沒(méi)有采用類似ChatGPT技術(shù)的產(chǎn)品規(guī)劃。不過(guò),,對(duì)于AI Lab是否正在研發(fā)ChatGPT,,字節(jié)跳動(dòng)沒(méi)有做出回應(yīng),。
在中國(guó)的AI模型中,你最看好哪一家,?
百度 ERNIE發(fā)展歷程
文心( ERNIE) 依托百度的深度學(xué)習(xí)平臺(tái)飛槳打造,,將機(jī)器理解語(yǔ)言的水平提升到新的高度,全面刷新了各項(xiàng)NLP任務(wù)的世界最好效果,,取得了諸多權(quán)威語(yǔ)義評(píng)測(cè)比賽的世界冠軍,。 除語(yǔ)言理解外,提出的基于多流機(jī)制生成完整語(yǔ)義片段語(yǔ)言生成技術(shù)ERNIE-GEN,、知識(shí)增強(qiáng)跨模態(tài)語(yǔ)義理解技術(shù)ERNIE-ViL等,,均達(dá)到世界領(lǐng)先水平。自2019年誕生至今,,在語(yǔ)言理解、文本生成,、跨模態(tài)語(yǔ)義理解等領(lǐng)域取得多項(xiàng)技術(shù)突破,,在公開(kāi)權(quán)威語(yǔ)義評(píng)測(cè)中斬獲了十余項(xiàng)世界冠軍。
文心平臺(tái)基于領(lǐng)先的語(yǔ)義理解核心技術(shù),,內(nèi)置百度自研業(yè)界效果領(lǐng)先的預(yù)訓(xùn)練模型集ERNIE和全面領(lǐng)先的算法集,,將文本數(shù)據(jù)處理、基于深度學(xué)習(xí)的模型訓(xùn)練,、模型評(píng)估和上線部署等NLP開(kāi)發(fā)流程進(jìn)行易用性封裝,,為NLP開(kāi)發(fā)者提供一整套效果領(lǐng)先、簡(jiǎn)單易用,、高效靈活的NLP模型開(kāi)發(fā)服務(wù),,文心平臺(tái)已廣泛應(yīng)用于金融、通信,、教育,、電商等行業(yè)。
下面簡(jiǎn)單回顧下其發(fā)展歷程,。
2019年3月,,ERNIE 1.0 問(wèn)世
2019年3月,百度開(kāi)發(fā)了文心ERNIE語(yǔ)言模型,,推出1.0版,。
百度文心大模型是基于國(guó)產(chǎn)深度學(xué)習(xí)框架發(fā)展的,打造了自主創(chuàng)新的AI底座,,大幅降低了AI開(kāi)發(fā)和應(yīng)用的門檻,,滿足真實(shí)場(chǎng)景中的應(yīng)用需求,真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值,。文心大模型的一大特色是“知識(shí)增強(qiáng)”,即引入知識(shí)圖譜,將數(shù)據(jù)與知識(shí)融合,,提升了學(xué)習(xí)效率及可解釋性,。
2019年12月,文心就在國(guó)際權(quán)威的通用語(yǔ)言理解評(píng)估基準(zhǔn) GLUE 上,,首次突破90分,,超過(guò)人類水平3個(gè)百分點(diǎn),刷新榜單得分并獲得全球第一,。
2020年,,ERNIE榮獲WAIC最高獎(jiǎng)
2020年3月,在全球最大規(guī)模之一的語(yǔ)義評(píng)測(cè) SemEval 2020上取得了5項(xiàng)世界冠軍,。2020年7月,,文心登頂視覺(jué)常識(shí)推理權(quán)威榜單 VCR。
2020年7月,,文心在多模態(tài)語(yǔ)義理解領(lǐng)域取得突破,,提出了業(yè)界首個(gè)基于場(chǎng)景圖知識(shí)增強(qiáng)的多模態(tài)預(yù)訓(xùn)練模型ERNIE-ViL,在多項(xiàng)典型多模態(tài)任務(wù)上刷新世界最好效果,。2020年7月9日,,文心ERNIE榮獲世界人工智能大會(huì)WAIC最高獎(jiǎng)項(xiàng)SAIL獎(jiǎng) (Super AI Leader,卓越人工智能引領(lǐng)者),。
從這時(shí)開(kāi)始,,百度搜索就開(kāi)始應(yīng)用“文心大模型”技術(shù),深度賦能搜索的相關(guān)性,、深度問(wèn)答和內(nèi)容理解等,。百度全系列產(chǎn)品都在逐步使用文心大模型。
2021年5月,,開(kāi)源四個(gè)ERNIE預(yù)訓(xùn)練模型
2021年5月20日,,依靠飛槳外圍框架,百度文心 ERNIE 最新開(kāi)源四大預(yù)訓(xùn)練模型:多粒度語(yǔ)言常識(shí)加強(qiáng)模型 ERNIE-Gram,、長(zhǎng)文本了解模型 ERNIE-Doc,、交融場(chǎng)景圖常識(shí)的跨模態(tài)了解模型 ERNIE-ViL、語(yǔ)言與視覺(jué)一體的模型 ERNIE-UNIMO,。
針對(duì)以后預(yù)訓(xùn)練模型現(xiàn)存的難點(diǎn)痛點(diǎn),,此次文心 ERNIE 開(kāi)源的四大預(yù)訓(xùn)練模型不僅在文本語(yǔ)義了解、長(zhǎng)文本建模和跨模態(tài)了解三大畛域獲得沖破,,還領(lǐng)有寬泛的利用場(chǎng)景和前景,,進(jìn)一步助力產(chǎn)業(yè)智能化降級(jí)。
基于ERNIE,,對(duì)百度搜索也進(jìn)行了升級(jí),,又要求將大模型作為整個(gè)系統(tǒng)的核心引擎,,應(yīng)用于檢索和生成,并將搜索引擎升級(jí)為檢索生成雙模系統(tǒng),。
2021年12月,,發(fā)布2600億參數(shù)的ERNIE 3.0
2021年12月 鵬城-百度·文心(ERNIE 3.0 Titan)正式發(fā)布,該模型參數(shù)規(guī)模達(dá)到2600億,,比 GPT-3 的參數(shù)量多 48.5% ,。這是目前全球最大中文單體模型,在機(jī)器閱讀理解,、文本分類,、語(yǔ)義相似度計(jì)算等60多項(xiàng)任務(wù)取得最好效果,并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn),。
不過(guò),,大模型不僅僅是比模型參數(shù),跟語(yǔ)料和訓(xùn)練方法,,人工監(jiān)督的參與都有關(guān)系,。所以,谷歌出的16000億參數(shù)的模型,,依然不如GPT-3。百度的這個(gè)模型,,可能也有較多差距,。但大概率比中國(guó)的某家機(jī)構(gòu)推出的萬(wàn)億參數(shù)的模型好。
ERNIE 3.0首次在百億級(jí)和千億級(jí)預(yù)訓(xùn)練模型中引入大規(guī)模知識(shí)圖譜,,提出了海量無(wú)監(jiān)督文本與大規(guī)模知識(shí)圖譜的平行預(yù)訓(xùn)練方法,。通過(guò)將大規(guī)模知識(shí)圖譜的實(shí)體關(guān)系與大規(guī)模文本數(shù)據(jù)同時(shí)輸入到預(yù)訓(xùn)練模型中進(jìn)行聯(lián)合掩碼訓(xùn)練,促進(jìn)了結(jié)構(gòu)化知識(shí)和無(wú)結(jié)構(gòu)文本之間的信息共享,,大幅提升了模型對(duì)于知識(shí)的記憶和推理能力,。在此基礎(chǔ)上,ERNIE 3.0 提出了將通用語(yǔ)義表示與任務(wù)語(yǔ)義表示相結(jié)合的模型框架,,該框架融合自編碼和自回歸等不同的任務(wù)語(yǔ)義表示網(wǎng)絡(luò),,既可同時(shí)處理語(yǔ)言理解和語(yǔ)言生成任務(wù),還能做無(wú)標(biāo)注數(shù)據(jù)的零樣本學(xué)習(xí)(Zero-shot Learning)和有標(biāo)注數(shù)據(jù)的微調(diào)訓(xùn)練(Fine-tuning),。
在此基礎(chǔ)上,,鵬城-百度·文心中提出了可控學(xué)習(xí)和可信學(xué)習(xí)算法。
在可控學(xué)習(xí)方面,,模型具備了不同類型的零樣本生成能力,。使用者可以將指定的體裁、情感,、長(zhǎng)度,、主題,、關(guān)鍵詞等屬性自由組合,無(wú)需標(biāo)注任何樣本,,便可生成新的類型的文本,。在可信學(xué)習(xí)方面,鵬城-百度·文心通過(guò)自監(jiān)督的對(duì)抗訓(xùn)練,,讓模型學(xué)習(xí)區(qū)分?jǐn)?shù)據(jù)是真實(shí)的還是模型偽造的,,使得模型對(duì)生成結(jié)果真實(shí)性具備判斷能力,從而讓模型可以從多個(gè)候選中選擇最可靠的生成結(jié)果,,顯著提升了生成結(jié)果的可信度,。
鵬城-百度·文心首創(chuàng)了大模型在線蒸餾技術(shù),顯著降低了大模型應(yīng)用成本,。其在訓(xùn)練過(guò)程中周期性地將知識(shí)信號(hào)傳遞給若干個(gè)學(xué)生模型同時(shí)訓(xùn)練,,保證了學(xué)生模型的效果和尺寸豐富性,方便不同性能需求的應(yīng)用場(chǎng)景使用,。其參數(shù)壓縮率可達(dá)99.98%,。壓縮版模型僅保留0.02%參數(shù)規(guī)模就能與原有模型效果相當(dāng)。
ERNIE 3.0刷新情感分析,、觀點(diǎn)抽取,、閱讀理解、文本摘要,、對(duì)話生成,、數(shù)學(xué)運(yùn)算等54個(gè)中文NLP任務(wù)基準(zhǔn),其英文模型在國(guó)際權(quán)威的復(fù)雜語(yǔ)言理解任務(wù)評(píng)測(cè)SuperGLUE上, 以超越人類水平0.8個(gè)百分點(diǎn)的成績(jī)登頂全球榜首,。在知識(shí)推理任務(wù)上,,鵬城-百度·文心相對(duì)OpenAI GPT-3 準(zhǔn)確率絕對(duì)提升8%。
2022年6月,,ERNIE 賦能虛擬人
2022年6月,,百度文心大模型讓虛擬人度曉曉變身為高考作文寫(xiě)手和 AI 畫(huà)家,她在全國(guó)高考作文寫(xiě)作得高分,;其作畫(huà)參加西安美術(shù)學(xué)院畢業(yè)展,;還聯(lián)合龔俊數(shù)字人推出國(guó)內(nèi)首個(gè)虛擬偶像 AIGC 創(chuàng)作歌曲。 這要?dú)w功于融合任務(wù)相關(guān)知識(shí)的千億大模型 ERNIE 3.0 Zeus 和跨模態(tài)圖文生成模型 ERNIE-ViLG,。
6 月 7 日高考語(yǔ)文考試之后,,度曉曉化身數(shù)字人考生挑戰(zhàn)全國(guó)新高考 Ⅰ 卷作文題《本手、妙手,、俗手》,,40 秒的時(shí)間內(nèi)完成了 40 篇高考作文,平均 1 秒生成 1 篇,,寫(xiě)作速度遠(yuǎn)超了人類,。那么度曉曉生成的作文能滿足高考寫(xiě)作的審題,、邏輯和創(chuàng)意等要求嗎?
這一擔(dān)心也被證明是多余的,,曾任北京高考語(yǔ)文閱卷組組長(zhǎng)的申怡為她隨機(jī)生成的一篇作文打出了 48 分的成績(jī)(滿分 60 分),,從歷年統(tǒng)計(jì)數(shù)據(jù)來(lái)看,這個(gè)分?jǐn)?shù)超過(guò)了 75% 的人類考生,。稱呼她一聲寫(xiě)作高手絕不為過(guò),。
6 月初,度曉曉創(chuàng)作的「無(wú)界」系列數(shù)字藏品上線百度 APP 開(kāi)啟限時(shí)搶購(gòu),,該系列共有 4 幅畫(huà)作,。作為國(guó)內(nèi)首個(gè)數(shù)字人創(chuàng)作的藝術(shù)數(shù)字藏品,這些畫(huà)作在 24 小時(shí)內(nèi)就賣出了 17 萬(wàn)元,。更令人想不到的是,,每幅畫(huà)作的創(chuàng)作時(shí)間僅需幾十秒,這種畫(huà)畫(huà)速度大概會(huì)令通常仔細(xì)斟酌,、耗時(shí)很長(zhǎng)的專業(yè)畫(huà)家羨慕吧,。
隨后,度曉曉帶著她的畫(huà)作現(xiàn)身西安美術(shù)學(xué)院 2022 年「時(shí)空留痕無(wú)界西美」本科畢業(yè)展,,在自己的專屬展區(qū)展出了此前制成數(shù)字藏品的四幅作品以及兩幅有關(guān)西安大雁塔的本地特色作品,。這些畫(huà)作的水平又如何呢?西安美院教授評(píng)價(jià)稱「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」,。
2020年7月,,發(fā)布ERNIE-ViL
2020年7月,百度提出了知識(shí)增強(qiáng)視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型 ERNIE-ViL,,首次將場(chǎng)景圖(Scene Graph)知識(shí)融入多模態(tài)預(yù)訓(xùn)練。
ERNIE-ViL在 5 項(xiàng)多模態(tài)任務(wù)上刷新世界最好效果,,并在多模態(tài)領(lǐng)域權(quán)威榜單 VCR 上超越微軟,、谷歌、Facebook 等機(jī)構(gòu),,登頂榜首,。
2022年8月,發(fā)布“文心一格”
2022年8月19日 ,,百度推出人工智能作畫(huà)輔助工具“文心一格”,。用戶僅需輸入文字創(chuàng)想,即可完成別具一格的畫(huà)作,,受到用戶廣泛好評(píng),。值得一提的是,文心一格深諳中國(guó)文化精髓,,所創(chuàng)畫(huà)作盡現(xiàn)中國(guó)風(fēng)骨,。本次峰會(huì)上,,吳甜發(fā)布了文心一格的三大全新功能:支持以圖生圖、支持可控的增刪改等圖片二次編輯和一鍵生成視頻,,進(jìn)一步激發(fā)創(chuàng)造力,,降低內(nèi)容生產(chǎn)成本。
2022年11月,,發(fā)布“文心百中”
2022年11月30日,,產(chǎn)業(yè)級(jí)搜索系統(tǒng)“文心百中”發(fā)布,該產(chǎn)品由百度搜索與文心大模型聯(lián)合研制,,命名寓意搜索結(jié)果精準(zhǔn),,百發(fā)百中。
產(chǎn)業(yè)級(jí)搜索系統(tǒng)文心百中
文心百中具有三大特性:極簡(jiǎn),、強(qiáng)大,、高效。文心百中采用純神經(jīng)搜索架構(gòu)加數(shù)據(jù)驅(qū)動(dòng)搜索效果優(yōu)化策略設(shè)計(jì)而成,,應(yīng)用起來(lái)極其簡(jiǎn)便,,僅需三步即可在線完成搜索引擎的構(gòu)建;文心百中擁有強(qiáng)大的語(yǔ)義理解能力,,相比傳統(tǒng)模型實(shí)現(xiàn)了質(zhì)的提升,,已在多個(gè)場(chǎng)景展現(xiàn)驚艷的搜索效果;文心百中具備搜索系統(tǒng)從0到1的高效建設(shè)能力,,相比傳統(tǒng)搜索系統(tǒng)可減少人力成本90%以上,;同時(shí),基于小樣本學(xué)習(xí)能力極強(qiáng)的文心大模型,,文心百中僅需少量的數(shù)據(jù),,即可實(shí)現(xiàn)不同行業(yè)的搜索效果優(yōu)化,十分高效,。
百度的行業(yè)大模型
為了更好幫助企業(yè)與開(kāi)發(fā)者,,實(shí)現(xiàn)從開(kāi)發(fā)大模型到應(yīng)用大模型的全流程實(shí)踐,百度勾勒出了飛槳+文心,,即深度學(xué)習(xí)平臺(tái)+大模型的產(chǎn)業(yè)路徑,。二者結(jié)合,開(kāi)發(fā)者可以獲得從算力,、框架,、模型庫(kù),再到大模型調(diào)用,、大模型行業(yè)化的所有能力,,獲得了完善、穩(wěn)固的產(chǎn)業(yè)智能化基座,。
大模型因“大”而效果好,,同時(shí)在產(chǎn)業(yè)應(yīng)用中也會(huì)因?yàn)椤疤蟆倍y以落地部署,。為了解決這個(gè)問(wèn)題,百度全新發(fā)布了ERNIE 3.0 Tiny模型,。其通過(guò)將千億模型作為教師模型,,經(jīng)過(guò)知識(shí)蒸餾等方式,可以形成一系列輕量化模型,。最終實(shí)現(xiàn)在效果損失非常有限的情況下,,模型體量變小,但較比傳統(tǒng)模型卻有數(shù)十倍,、上百倍的性能提升,,以此滿足產(chǎn)業(yè)場(chǎng)景的真實(shí)應(yīng)用需求。
百度首席技術(shù)官,、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰提出,,討論大模型的新升級(jí)、新發(fā)展思路,,必須建立在對(duì)大模型產(chǎn)業(yè)化的客觀理解上,。在目前階段,大模型正處在高速發(fā)展期,。幾乎每個(gè)月,,甚至每星期都可以看到產(chǎn)業(yè)界、學(xué)術(shù)界公布大模型創(chuàng)新,。并且在今天,,已經(jīng)很少看到大模型創(chuàng)新過(guò)分執(zhí)著參數(shù)對(duì)比,更多是進(jìn)行不同技術(shù)路線,、不同應(yīng)用領(lǐng)域的多樣化創(chuàng)新,。
大模型的復(fù)雜技術(shù)與研發(fā)挑戰(zhàn),應(yīng)該是停留在產(chǎn)業(yè)上游的,。具有算法,、算力和數(shù)據(jù)綜合優(yōu)勢(shì)的企業(yè),應(yīng)該將模型生產(chǎn)進(jìn)行封裝,,在產(chǎn)業(yè)鏈上游就解決大數(shù)據(jù)、大算力,、大模型的能力挑戰(zhàn),。這樣,應(yīng)用場(chǎng)景與企業(yè)用戶,、開(kāi)發(fā)者,,將得到簡(jiǎn)單、易用,、工業(yè)化的大模型能力,。只有這樣,,大模型才能真正落下去、推廣開(kāi),。
百度正在用飛槳+文心大模型,,在技術(shù)與產(chǎn)業(yè)之間架起橋梁,簡(jiǎn)化AI模型的應(yīng)用,。
百度聯(lián)合深圳燃?xì)?、吉利、泰康保險(xiǎn),、TCL,、上海辭書(shū)出版社重磅新發(fā)5個(gè)行業(yè)大模型:深燃-百度·文心、吉利-百度·文心,、泰康-百度·文心,、TCL-百度·文心和辭海-百度·文心。
2022年5月,,文心大模型面向具體的行業(yè)需求,,發(fā)布了行業(yè)大模型這一全新發(fā)展路徑。其通過(guò)文心大模型的基礎(chǔ)模型能力,,搭配對(duì)海量行業(yè)數(shù)據(jù)的挖掘,,以及由合作機(jī)構(gòu)、行業(yè)客戶提供的行業(yè)特色數(shù)據(jù)和知識(shí),,加上行業(yè)特色的專家經(jīng)驗(yàn)多方結(jié)合,,進(jìn)行相應(yīng)的行業(yè)訓(xùn)練任務(wù)設(shè)計(jì),最終形成了文心行業(yè)大模型,。
在于行業(yè)結(jié)合的過(guò)程中,,文心大模型知識(shí)增強(qiáng)與產(chǎn)業(yè)級(jí)兩大特色得以充分發(fā)揮,形成了行業(yè)知識(shí)增強(qiáng)的關(guān)鍵路徑,。這一路徑不僅解決了大模型的應(yīng)用挑戰(zhàn),,還凝結(jié)成了一系列面向重點(diǎn)行業(yè)的大模型產(chǎn)業(yè)落地方法。實(shí)現(xiàn)了大模型在行業(yè)場(chǎng)景中“不但能用還便捷好用”的價(jià)值,。文心行業(yè)大模型目前有了11個(gè)行業(yè)大模型,,將行業(yè)大模型延伸到了制造業(yè)、城市管理,、汽車等關(guān)鍵領(lǐng)域,。可以說(shuō),,行業(yè)大模型已經(jīng)從先鋒,、探索性質(zhì),發(fā)展到了覆蓋行業(yè)眾多、體系完備的新階段,。從應(yīng)用效果與行業(yè)覆蓋上來(lái)說(shuō),,都已經(jīng)實(shí)現(xiàn)了蔚為大觀。
如今,,行業(yè)大模型已經(jīng)在多個(gè)領(lǐng)域取得可信的成果,。比如文心大模型與電影頻道結(jié)合,可以實(shí)現(xiàn)每天修復(fù)28.5萬(wàn)幀老舊影片,。即使是精修,,文心大模型的修復(fù)速度也較人工效率提升了3到4倍。在能源,、金融等一系列領(lǐng)域,,行業(yè)大模型已經(jīng)形成了產(chǎn)業(yè)智能化的發(fā)展路標(biāo)。
舉個(gè)例子,,智慧城市建設(shè)是數(shù)字中國(guó)的重點(diǎn)發(fā)展方向,。哈爾濱市政府?dāng)y手百度,聯(lián)合發(fā)布面向城市領(lǐng)域的行業(yè)大模型——冰城-百度·文心,,該系統(tǒng)可以將城市中跨業(yè)務(wù),、跨結(jié)構(gòu)、跨部門的數(shù)據(jù)知識(shí)和多種任務(wù)算法進(jìn)行融合,,基于百度文心NLP大模型ERNIE 3.0,,打造統(tǒng)一預(yù)訓(xùn)練模型,提供強(qiáng)大的語(yǔ)言理解,、語(yǔ)義分析等能力,,支撐城市中各領(lǐng)域的AI規(guī)模化效果提升,。文心行業(yè)大模型,,至此可以從城市治理、產(chǎn)業(yè)發(fā)展,、公共服務(wù)等多個(gè)領(lǐng)域支持哈爾濱的數(shù)字化發(fā)展,。從產(chǎn)業(yè)路徑上看,這一聯(lián)合發(fā)布,、聯(lián)合打造,,將大模型與智慧城市需求有效結(jié)合在了一起。
在一系列新加入的模型之外,,百度也在推動(dòng)大模型開(kāi)發(fā)工具建設(shè),、產(chǎn)品化升級(jí)與社區(qū)建設(shè)。在工具與平臺(tái)的技術(shù)升級(jí)上,,百度提供面向場(chǎng)景化,以及行業(yè)大模型的配套能力。比如在模型精調(diào)方面提供的技術(shù)工具更加豐富,,大模型的API當(dāng)中將包含更豐富的精調(diào)能力,。同時(shí),在大模型訓(xùn)練中也會(huì)添加一系列可信學(xué)習(xí)工具,,滿足開(kāi)發(fā)者對(duì)大模型的安全,、可控需求。
在文心大模型的產(chǎn)品和社區(qū)方面,,百度保留了旸谷社區(qū)作為創(chuàng)意社區(qū),。同時(shí)增加了兩款以大模型為核心驅(qū)動(dòng)的產(chǎn)品。這些產(chǎn)品既可以直接賦能給有相關(guān)需求的產(chǎn)業(yè)用戶和泛科技用戶,,豐富大模型的應(yīng)用價(jià)值,。同時(shí)也為行業(yè)起到了示范作用,展示了大模型產(chǎn)品化的技術(shù)路徑,。
總結(jié)
從這次資本市場(chǎng)的反饋看,,對(duì)許多大廠都是利好。研發(fā)多年的AI技術(shù)有了爆發(fā)的機(jī)會(huì),。
百度看起來(lái)是其中最大的受益者,,不過(guò),當(dāng)搜索引擎能更準(zhǔn)確地給出答案了,,用戶看的更少,,對(duì)搜索付費(fèi)廣告的曝光和點(diǎn)擊可能都會(huì)減少。
未來(lái),,百度的新版搜索引擎出現(xiàn)后,,搜索的收入是否降低,是很多人關(guān)心的事情,。
從之前知乎暴漲40%來(lái)看,,能持續(xù)積累關(guān)鍵知識(shí)的網(wǎng)站是未來(lái)各家模型爭(zhēng)奪的焦點(diǎn),也許,,知乎是可以躺贏的,。