AI大模型可能是走向強人工智能的必經(jīng)之路,,也或許只是過渡手段,,但不管怎么說,它已經(jīng)越來越清晰地呈現(xiàn)出了魅力,。
AI落地初期,,為了提升傳統(tǒng)行業(yè)的應(yīng)用體驗,提高機器學習算法的效率,,面向海量的,、碎片化的應(yīng)用場景,行業(yè)拼命“大煉模型”,。
這從一定程度上確實助推了AI的落地,,不過,為了進一步優(yōu)化效果,、提高精度,,模型變得越來越復(fù)雜,數(shù)據(jù)越來越龐大,,進一步提高了行業(yè)的應(yīng)用門檻,,特別是對小公司帶來挑戰(zhàn)。由于模型越復(fù)雜,,所需的投入越大,,訓練成本越高,很多企業(yè)不足以應(yīng)對這種狀況,,導(dǎo)致落地效率越來越低,。
最“卷”的AI模型在語言領(lǐng)域。2020年夏天,,OpenAI推出了GPT-3,,它在自然語言處理方面展示出驚人的能力,能寫文章,、做翻譯,、生成代碼,甚至可以學習一個人的語言模式,,并遵循這個模式與人進行談話,。GPT-3的面市也使得全球范圍內(nèi)AI大模型迎來大爆發(fā),參與企業(yè)越來越多,,參數(shù)級別越來越大,,成為新一輪AI競賽的賽場。2021年,,谷歌發(fā)布了萬億級模型Switch Transformer,,微軟和英偉達也推出了包含5300億個參數(shù)的自然語言生成模型。國內(nèi)的企業(yè)也不甘落后,,華為,、浪潮,、百度、阿里巴巴等企業(yè)都競相推出了自己的大模型,。
AI進入“煉大模型”時代,。
AI“劇本殺”玩家
能解行業(yè)之痛嗎?
國內(nèi)AI大模型的代表之一是“源1.0”,,是浪潮在2021年9月發(fā)布的單體巨量自然語言處理模型?!霸?.0”一發(fā)布就問鼎全球最大規(guī)模的中文AI模型,,其參數(shù)規(guī)模高達2457億,訓練采用的中文數(shù)據(jù)集達5000GB,,相比GPT-3模型1750億參數(shù)量和570GB訓練數(shù)據(jù)集,,“源1.0”參數(shù)規(guī)模領(lǐng)先40%,訓練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍,。
一個有趣的應(yīng)用是,,源開發(fā)者社區(qū)的開發(fā)者基于“源1.0”開發(fā)出了“劇本殺”AI玩家。在游戲中,,AI所扮演的角色不僅可以與其他玩家流暢對話,,甚至會為了達成任務(wù)說謊去“套路”人類玩家。
它所憑借的,,正是“源1.0”零樣本(Zero-Shot)和小樣本(Few-Shot)學習的優(yōu)勢,,AI模型可以很好地理解并實現(xiàn)交互式敘事的“對話策略”,能夠運用“舉一反三”的對話能力,,讓劇本殺成為一部由玩家和AI在不知不覺中共同創(chuàng)造的全新故事,。
開源社區(qū)產(chǎn)生的其他基于“源1.0”開發(fā)的應(yīng)用也是五花八門,包括數(shù)字演員,、正能量陪伴機器人,、抬杠機器人、游戲NPC對話,、文案寫作,、金融文本分析等……并且,浪潮的源1.0大模型已落地智算中心,、金融等多個企業(yè),,實現(xiàn)了智算中心模型即服務(wù)(MaaS)的產(chǎn)品模式創(chuàng)新,助力金融大模型的研發(fā),。
我們該如何看待這些應(yīng)用,?它們反映出了AI的哪些發(fā)展趨勢?
浪潮信息AI軟件研發(fā)總監(jiān)吳韶華介紹,,在大模型出現(xiàn)之前,,如果要做一個類似劇本殺的游戲,,需要很強大的模型和復(fù)雜的流程。首先,,這個模型既要有對話能力,,也要有邏輯推理能力,這對于模型算法,、數(shù)據(jù)研發(fā)的門檻很高,。其次,用戶要有自己的算法人員,,需要從頭開始收集數(shù)據(jù),、標注數(shù)據(jù),然后做模型等,,經(jīng)過復(fù)雜的研發(fā)流程,,最后才能走到最核心的業(yè)務(wù)邏輯上。
而有了大模型,,這些問題都可以得到解決或緩解,,并對AI模型的構(gòu)建及應(yīng)用產(chǎn)生極大影響。在算法基礎(chǔ)設(shè)施層面,,開源開放的大模型,,使得開發(fā)者不需要關(guān)心底層搭建的技術(shù),就能直接調(diào)用大模型的能力,。這相當于把AI應(yīng)用的開發(fā)向上推了一大步,,讓開發(fā)者聚焦應(yīng)用最核心的業(yè)務(wù)邏輯,把跟模型相關(guān)的內(nèi)容放在模型層面或算法基礎(chǔ)設(shè)施的層面,?;谠?.0搭建的“劇本殺”游戲,可以直接復(fù)用源1.0的開源代碼,,開發(fā)過程基本不需要寫代碼和調(diào)試代碼,,就完成了整個應(yīng)用的構(gòu)建,從而可以把更多精力放在劇情內(nèi)容等創(chuàng)意的創(chuàng)作上,。
從“三要素”到“大模型”
AI變了嗎,?
人工智能從前幾年強調(diào)“算力、算法,、數(shù)據(jù)”,,到現(xiàn)在大模型越來越受推崇。這反映了AI的哪些發(fā)展規(guī)律,?AI的核心要素是否發(fā)生了變化,?
吳韶華認為,AI的核心要素并沒有發(fā)生變化,,大模型訓練更需要在“算力,、算法,、數(shù)據(jù)”三個層面開展創(chuàng)新。以“源1.0”大模型為例,,在算法層面,,面向效率和精度優(yōu)化的大模型結(jié)構(gòu)協(xié)同設(shè)計方法,針對Attention層進行結(jié)構(gòu)優(yōu)化,,改進注意力機制聚焦文章內(nèi)部聯(lián)系的學習,;創(chuàng)新小樣本學習精度改進方法,在業(yè)界權(quán)威數(shù)據(jù)集上取得精度領(lǐng)先,。
在算力層面,,圍繞深度學習框架、訓練集群I/O,、通信開展了深入優(yōu)化,在僅采用2x200G互聯(lián)的情況下,,“源1.0”在2128顆異構(gòu)加速器集群上的算力效率達到45%,,超出MT-NLG與GPT-3等國際知名模型。面向多元異構(gòu)芯片,,研發(fā)了大模型推理軟件框架,,并在400顆國產(chǎn)芯片集群上實現(xiàn)了大模型彈性部署,將模型推理性能提高了數(shù)10倍,,形成大模型+大算力的算法基礎(chǔ)設(shè)施建設(shè)的實踐成果,。
在數(shù)據(jù)層面,當前主要存在中文訓練海量數(shù)據(jù)難獲取,、難清洗等問題,,浪潮海量數(shù)據(jù)過濾系統(tǒng)(MDFS)建立了從數(shù)據(jù)采集、粗濾,、質(zhì)量分類,、精濾的全自動化的端到端數(shù)據(jù)工作流程,通過清洗866TB海量數(shù)據(jù)獲得5TB大規(guī)模高質(zhì)量中文數(shù)據(jù)集,。該數(shù)據(jù)集已經(jīng)開源,,并已廣泛應(yīng)用于產(chǎn)業(yè)用戶的模型訓練中。
解“困”AI大規(guī)模產(chǎn)業(yè)化難題
業(yè)界普遍認為AI大模型當前面臨的主要瓶頸包括:算力資源受限,、訓練成本高昂,、人力投入巨大等。
在燧原科技產(chǎn)品市場部總經(jīng)理高平看來,,算力資源不足和成本昂貴的根本問題,,其實是AI算力市場競爭不充分,目前國內(nèi)AI訓練算力市場基本被海外大廠獨家壟斷,,成本與資源受限問題是壟斷下的必然結(jié)果,;其次,,AI算力的技術(shù)發(fā)展在逐漸邁向成熟,面向AI計算的DSA架構(gòu)在AI大模型如火如荼的發(fā)展趨勢下,,將會具備很好的規(guī)模經(jīng)濟效益,,進而隨著技術(shù)發(fā)展取得更好的成本優(yōu)勢;第三,,人力投入大的問題主要是缺乏相應(yīng)的標準規(guī)范,,將會在產(chǎn)業(yè)發(fā)展到某個程度的時候得到解決,減少重復(fù)投入,。
吳韶華認為,,應(yīng)用的碎片化、尤其是長尾場景應(yīng)用的碎片化,,仍是AI落地的難題,。碎片化就意味著不同場景需要有針對性地建模,每個小場景都要從數(shù)據(jù)到模型,、應(yīng)用整個流程走一遍,。此外,隨著數(shù)據(jù)的更新,,模型也要更新,。設(shè)想對于一家維護著上百個模型的企業(yè),要同時更新上百個模型及應(yīng)用,,投入無疑是巨大的,。
而大模型的出現(xiàn)可以說是生逢其時,它能夠?qū)鹘y(tǒng)煙囪式的,、碎片化的AI應(yīng)用開發(fā)轉(zhuǎn)向集中式開發(fā),。一方面,AI大模型具備很好的泛化能力,,一個模型可以支撐各類不同應(yīng)用,,有效緩解碎片化開發(fā)反復(fù)建模的困境;另一方面,,圍繞AI大模型構(gòu)建的算法基礎(chǔ)設(shè)施,,比如開放的API、開源的應(yīng)用代碼等,,使開發(fā)者無需關(guān)心底層技術(shù),,設(shè)置無需配置編程環(huán)境,就可以直接將應(yīng)用構(gòu)建于AI大模型的能力之上,,在降低開發(fā)門檻的同時,,讓開發(fā)人員將更多的精力聚焦在核心業(yè)務(wù)邏輯上。
AI大模型有望重塑產(chǎn)業(yè)格局
高平認為,訓練大模型所需要的海量算力必須依靠AI算力集群來支撐,,能否充分發(fā)揮集群的整體效能,,讓成本昂貴的AI算力能算盡其用,是降低大模型訓練成本的關(guān)鍵,。燧原科技打造了基于液冷技術(shù)的AI集群訓練產(chǎn)品“云燧智算機CloudBlazer POD”,,通過軟件層面(模型和框架)與硬件基礎(chǔ)設(shè)施(計算、存儲,、網(wǎng)絡(luò))的協(xié)同優(yōu)化,,能最大化算力利用率,在實際部署的千卡訓練集群上實現(xiàn)了0.95的線性加速比,。同時,,使數(shù)據(jù)中心PUE可以達到1.1,從而大大降低了電力消耗,,進一步降低了成本,。
“AI大模型的投入是AI技術(shù)邁向新臺階的必經(jīng)之路,是解決產(chǎn)業(yè)碎片化的一種很好的方式,,AI大模型的技術(shù)發(fā)展與商業(yè)落地,,也將會重塑目前的AI算力市場格局與AI應(yīng)用市場格局”, 高平表示,,“未來,,大模型的數(shù)量將遠遠少于目前的模型數(shù)量,,這也有利于AI芯片針對性的設(shè)計開發(fā)與優(yōu)化,,是AI算力企業(yè)生態(tài)建立的新機會,也可以預(yù)期,,基于DSA架構(gòu)的AI芯片會在大模型的發(fā)展下大放異彩,。”
此外,,他認為大模型應(yīng)用會形成新的上下游產(chǎn)業(yè)鏈,,同時掌握大規(guī)模算力與數(shù)據(jù)的大型企業(yè)會把握產(chǎn)業(yè)鏈的上游;下游小企業(yè)利用大模型的能力,,結(jié)合對行業(yè)理解的優(yōu)勢,,能低成本地把AI技術(shù)應(yīng)用到社會的各個方面。這將會是成熟的,、進入良性循環(huán)的AI落地模式,。
寫在最后
一直以來,AI的研發(fā)多數(shù)都依賴于模型:一是用數(shù)據(jù)訓練模型,;二是基于數(shù)據(jù)得到更好的模型結(jié)果,。這就離不開各個環(huán)節(jié)的分工,找數(shù)據(jù)、標注數(shù)據(jù),,AI專業(yè)人士調(diào)參……通過多個環(huán)節(jié)勞動成果的聚合,,最終實現(xiàn)AI的落地。也正是這樣高度分散且具有壁壘的分工,,對AI的大規(guī)模產(chǎn)業(yè)化帶來挑戰(zhàn),。從目前各大企業(yè)、研究機構(gòu)對AI大模型的愿景,,它將能夠很好地解決這些難題,。
不過,也有人認為AI大模型本質(zhì)上不過是深度學習的“加強版”,,通過給模型“填喂”大數(shù)據(jù)提高其自學習能力,,進而實現(xiàn)更強的智能程度。
但正如本文受訪者所介紹,,通過在算法,、數(shù)據(jù)等層面的創(chuàng)新,它可以通過零樣本,、小樣本學習精度的提升,、高質(zhì)量數(shù)據(jù)集的優(yōu)化等,進一步提升泛化能力和效率,,這是AI產(chǎn)業(yè)全鏈條的創(chuàng)新,,而不僅僅只是追求更大的模型。
它可能是走向強人工智能的必經(jīng)之路,,也或許只是過渡手段,,但不管怎么說,它已經(jīng)越來越清晰地呈現(xiàn)出了魅力,。
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<