《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > AI大模型時代,,存算一體開啟智算未來

AI大模型時代,,存算一體開啟智算未來

2023-09-07
來源:集微網(wǎng)
關(guān)鍵詞: AI 大模型 ChatGPT

  ChatGPT一經(jīng)發(fā)布便引起國內(nèi)外強烈反響,成為史上用戶數(shù)增長最快的消費者應(yīng)用,也讓人工智能再次回到大眾關(guān)注的焦點,。然而,,高昂的部署成本已然是人工智能進入市場的主要障礙:從小模型到大模型,過去10年內(nèi)AI算法對算力的需求提升了40萬倍,;大模型開發(fā)和訓(xùn)練一次的成本便需1200萬美元,。各大公司為籌建數(shù)據(jù)中心斥巨資搶購GPU的新聞不時見諸報端,越來越多的人希望尋找一種新方案,,扭轉(zhuǎn)這種高投入低效率的現(xiàn)狀,。

  存算一體作為新一代計算技術(shù),在數(shù)據(jù)運算和存儲過程中實現(xiàn)了一體化設(shè)計,,旨在突破“存儲墻”實現(xiàn)超低功耗和更強的并行計算能力,,被認(rèn)為是后摩爾時代最重要的發(fā)展方向之一。目前,,存算一體技術(shù)在國內(nèi)外企業(yè)的不懈努力下已經(jīng)實現(xiàn)初步的商業(yè)化應(yīng)用,。或許數(shù)年之后,,存算一體芯片就將進入千行百業(yè),,為人工智能的大規(guī)模應(yīng)用提供不竭的算力支撐。

  AI潮開啟,,算力面臨瓶頸

  自1956年美國達(dá)特茅斯學(xué)院首次提出人工智能的概念以來,,AI技術(shù)不斷獲得突破和快速發(fā)展,對算力的需求也在不斷增加,。2006年以前,,AI算法尚未出現(xiàn)突破性進展,AI的訓(xùn)練數(shù)據(jù)多以小數(shù)據(jù)為主,,這一階段AI對算力的需求主要由CPU提供,。2006年之后,隨著AI算法在深度學(xué)習(xí)上獲得突破,,特別是谷歌旗下DeepMind團隊開發(fā)的AI系統(tǒng)AlphaGo戰(zhàn)勝韓國棋手李世石,,引發(fā)全球AI熱潮,AI領(lǐng)域?qū)τ谒懔Φ男枨缶驮诓粩嘣黾?。研究人員發(fā)現(xiàn),,相比于CPU,GPU具備并行計算特性,,在深度學(xué)習(xí)等人工智能先進算法所需的“暴力計算”場景中更為高效,,使得研究機構(gòu)和AI公司開始廣泛采用GPU進行人工智能領(lǐng)域的研究和應(yīng)用。

  2022年11月,,OpenAI公司推出AI大模型ChatGPT,,再次引發(fā)全球AI大模型發(fā)展浪潮,。這一趨勢進一步加大了AI領(lǐng)域?qū)λ懔Φ男枨蟆D壳?,英偉達(dá)集成H100的計算卡已經(jīng)達(dá)到一卡難求地步,,人們預(yù)測GPT-4可能在10000到25000張A100上進行訓(xùn)練,Meta,、特斯拉,、Stability AI等都投入到對高性能GPU的搶購之中。這一形勢推動了AI芯片的投資和發(fā)展,。

  不過,當(dāng)前主流AI芯片在為大模型提供算力支持時的表現(xiàn)并不完美,,尚存很多不足之處,。者采訪北京大學(xué)集成電路學(xué)院院長蔡一茂時,他便指出,,AIGC等人工智能新興技術(shù)的發(fā)展離不開算力,,算力的基礎(chǔ)是人工智能芯片。當(dāng)前人工智能技術(shù)的快速更新迭代對硬件部署提出了多個挑戰(zhàn),。

  首先是算力規(guī)模與算力密度上的需求,。大模型的出現(xiàn)促使AI對大規(guī)模芯片算力的需求更加強烈,按照傳統(tǒng)技術(shù)路線簡單堆砌芯片無法實現(xiàn)期待的算力規(guī)模增長,,需要從提高算力密度和算力集成度等多個角度同時解決問題,。其次是芯片能效問題變得更加突出。芯片高功耗導(dǎo)致的散熱等問題,,不僅是芯片算力提升的主要障礙,,也導(dǎo)致了大模型訓(xùn)練與推理的成本巨大。當(dāng)前AI芯片能效依然低下,,大模型每次訓(xùn)練和推斷的電費成本昂貴,,導(dǎo)致當(dāng)前大模型的應(yīng)用經(jīng)濟性較低。

  第三是AI芯片在執(zhí)行計算密集型任務(wù)時面臨的“內(nèi)存墻”問題,。這導(dǎo)致計算芯片的功耗和性能都受限于處理器和存儲器之間的數(shù)據(jù)搬運,,嚴(yán)重限制了AI芯片在計算規(guī)模、密度,、效率等方面的提升,。此外,AI芯片的通用性和可編程性趨勢也值得關(guān)注,。目前大模型技術(shù)算法有趨同的發(fā)展趨勢,,以Transformer為代表的網(wǎng)絡(luò)模型正在成為主流。定制化的AI芯片將難以滿足AI產(chǎn)業(yè)的發(fā)展,,芯片的通用性和可編程性十分重要,。

  性能優(yōu)勢明顯,存算一體將成解決方案

  其實,GPU并非AI大模型部署的唯一算力擔(dān)當(dāng),。廣義而言,,AI芯片指的是專門用于處理人工智能應(yīng)用中大量計算任務(wù)的模塊,也就是說面向人工智能領(lǐng)域的芯片均被稱為AI芯片,。從技術(shù)架構(gòu)來看,,目前用于AI處理的主流芯片主要包括GPU、FPGA,、ASIC,,以及存算一體芯片等。其中,,GPU目前被運用的最為廣泛,,如圖像渲染、特效制作等,,在數(shù)據(jù)中心,、超級計算機等大型計算設(shè)施中均在采用。FPGA是一種靈活可編程的硬件平臺,,具備較高的計算性能和可定制性等優(yōu)點,,在AI推理應(yīng)用中表現(xiàn)較為出色。但這兩種芯片也存在上面所述的問題,。ASIC是針對用戶對特定電子系統(tǒng)的需求而設(shè)計的專用集成電路,,是固定算法最優(yōu)化設(shè)計的產(chǎn)物。在大模型技術(shù)算法趨同的情況下,,定制化AI芯片整體市場規(guī)模有可能受到限制,。

  存算一體芯片被認(rèn)為是下一代芯片,雖然目前還受限于成熟度,,應(yīng)用范圍不夠廣泛,,但未來卻有著極大的發(fā)展空間。對此,,蔡一茂便指出,,新興的存算一體和近存計算技術(shù)直接在存儲器內(nèi)部或附近進行計算,通過將計算和存儲功能融合在一起提高數(shù)據(jù)處理和計算的效率和成本,。在大模型時代,,存算一體技術(shù)有望大幅度提升AI芯片的計算密度和能效,緩解AI 芯片性能與功耗之間的矛盾,,提升大模型部署的經(jīng)濟性,。特別是針對大模型的推理,存算一體保持權(quán)重的特點與大模型中大規(guī)模的參數(shù)部署需求相匹配,,可能是存算一體技術(shù)最先服務(wù)大模型應(yīng)用的場景之一,。

  知存科技創(chuàng)始人,、CEO王紹迪在接受記者采訪時也表示,傳統(tǒng)芯片是先把數(shù)據(jù)從存儲系統(tǒng)中讀取出來,,放到乘,、加法器當(dāng)中做計算,然后再把計算結(jié)果傳回到存儲系統(tǒng)當(dāng)中,。這種大規(guī)模的數(shù)據(jù)遷移導(dǎo)致了帶寬瓶頸和功耗浪費,。存算一體則從計算架框的根本上避免了這種情況發(fā)生,同時帶來一系列性能優(yōu)勢,。

  首先是運算的性能更高,。存算一體芯片的計算能力取決于存儲器的容量規(guī)模。所有電子設(shè)備當(dāng)中都會集成存儲器,,存儲與計算相伴而行,,有運算的地方就需要對數(shù)據(jù)進行存儲,比如可穿戴手環(huán)中可能會集成2M的SD卡,,筆記本電腦中會安裝1TB的NAND Flash,數(shù)據(jù)中心的閃存芯片可能會達(dá)到256TB,。如果采用存算一體芯片,,隨著存儲容量規(guī)模的提高,其運算能力也會隨之提高,。

  其次是功耗更低,。同樣,由于數(shù)據(jù)傳輸路徑的優(yōu)化,,存算一體技術(shù)在提高傳輸效率的同時,,節(jié)省了數(shù)據(jù)傳輸?shù)膿p耗,帶來更好的能效比,、低功耗,,在相同算力下,AI部分能效比將有2-3個數(shù)量級的提升,,更低散熱成本,,更高可靠性。

  第三是成本更低,。單位算力成本遠(yuǎn)低于傳統(tǒng)計算芯片,。同時,存算一體可以采用更成熟的制造工藝,,大算力芯片往往需要采用先進工藝,,這使存算一體芯片的晶圓成本低得多。再考慮到配套的外圍芯片,、元器件等因素,,整個系統(tǒng)成本將有5倍左右降低,。正是因為這些基于基礎(chǔ)架構(gòu)革新所帶來的性能提升,存算一體技術(shù)有望在很大程度上解決AI大模型面臨的算力挑戰(zhàn),。隨著存算一體芯片逐漸進入市場,,其將為人工智能的大規(guī)模應(yīng)用奠定基礎(chǔ)。

  從終端到云端,,未來發(fā)展讓人期待

  現(xiàn)在的AIGC不僅是云端,,在終端側(cè)也有很多企業(yè)推動其應(yīng)用發(fā)展。云端方面,,越來越多大模型產(chǎn)品問世,,僅我國10億級參數(shù)規(guī)模以上大模型已超80個,其中不乏科技巨頭發(fā)布的產(chǎn)品,,如百度的“文心一言”,、阿里云的“通義千問”、華為的“盤古大模型”等,;終端方面,,邊緣計算實現(xiàn)了計算資源和服務(wù)的下沉,能夠有效降低交互延遲,、緩解數(shù)據(jù)傳輸帶寬壓力,,目前高通推出混合式AI的概念、蘋果也在開發(fā)“AppleGPT”AI模型,,未來將呈現(xiàn)AIGC技術(shù)從云端向邊緣延伸的趨勢,。

  在這樣的大背景下,存算一體也將沿著云端與終端雙向并行的路徑持續(xù)發(fā)展,。王紹迪強調(diào),,存算一體芯片的適用領(lǐng)域其實十分寬廣。如果按終端和云端兩個領(lǐng)域劃分的話,,從終端側(cè)的可穿戴設(shè)備,、智能手機、無人機,、安防,,到規(guī)模更大的邊緣服務(wù)器、自動駕駛,,再到云端的AIGC大模型應(yīng)用,,存算一體芯片都可以去做。

  2022年,,知存科技率先量產(chǎn)全球首顆存算一體SoC芯片WTM2101,。一年左右時間,WTM2101已在TWS耳機,、助聽器,、AR眼鏡,、智能家居控制等終端設(shè)備中實現(xiàn)商用,提供語音,、輕量級視頻等AI處理,。

  在終端應(yīng)用中,AI計算需要高算力下的低功耗,。WTM-2系列就定位于小功率的電池供電場景,,但可以提供一定強度的AI算力。在極低功耗下,,傳統(tǒng)芯片技術(shù)很難滿足深度學(xué)習(xí)模型的運算需求,,存算一體卻在一定程度上可以提供上算力支持。

  今年知存科技將推出具有更高算力的WTM-8系列芯片,。該系列芯片將主要面向移動智能終端如手機,、XR、無人機等,,覆蓋2D(1080P-8K)與3D視頻處理場景,。與WTM2101相比,WTM-8系列芯片采用了第二代3D存內(nèi)計算架構(gòu),,能夠提供算力至少24Tops,,計算精度達(dá)12-bit,目前已經(jīng)完成投片,,預(yù)計今年下半年或明年年初就可以推向市場。

  云端市場也是存算一體的發(fā)展方向,。王紹迪透露,,知存科技除上述兩個系列的產(chǎn)品之外,還在規(guī)劃具備更高的性能的芯片系列,,可用于AI服務(wù)器,,應(yīng)對大模型市場的發(fā)展需求。一旦該系列芯片發(fā)布,,知存科技的產(chǎn)品線布局將變得更加厚實且合理,,從低性能到高性能,從終端側(cè)到云端計算,,都有著相應(yīng)的產(chǎn)品覆蓋,。

  目前,全球范圍內(nèi)無論學(xué)術(shù)界還是工業(yè)界均對存算一體投入大量資源進行開發(fā),。不過蔡一茂也指出,,在大模型到來之前,存算一體研究多數(shù)以零散的技術(shù)攻關(guān)為主,,缺乏面向大算力方向的整體布局,,也缺乏主導(dǎo)的應(yīng)用需求牽引,,因此距離大規(guī)模進入市場還有一定距離。但大模型是值得期待的存算一體應(yīng)用場景,,其對算力能效和密度的強烈需求正是存算一體的優(yōu)勢所在,。面向大模型部署,從業(yè)者需要對存算一體進行體系化布局,,從算法,、框架、編譯器,、工具鏈,、指令集、架構(gòu),、電路等跨層次協(xié)同設(shè)計,,形成全棧式體系、工具鏈及生態(tài)鏈,。大模型的到來必將極大推動存算一體的技術(shù)落地,,其未來應(yīng)用潛力和部署規(guī)模都讓人期待。


 更多精彩內(nèi)容歡迎點擊==>>電子技術(shù)應(yīng)用-AET<<

  微信圖片_20210517164139.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。