《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 大模型,,離不開Serdes!

大模型,,離不開Serdes,!

2023-04-18
來源:半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 大模型 SerDes ChatGPT

隨著ChatGPT橫空出世,預(yù)訓(xùn)練大模型對千行百業(yè)的革新與改造潛力已盡顯無遺,,甚至有業(yè)界大佬將其問世譽為人工智能“iPhone 時刻”,,并預(yù)言這“只是更偉大事物的開始”。

ChatGPT為何顯得如此“與眾不同”,?

借用技術(shù)接受理論(TAM)提出者,、哈佛大學(xué)教授Venky Narayanamurti的總結(jié),有用性(usefulness)與易用性(ease of use)是一項新興技術(shù)擴散的兩大基本前提,。以這一標準衡量,,2016年的AlphaGo-李世石五番棋大戰(zhàn),堪稱完成了對人工智能“有用性”的全民科普,,而ChatGPT則標志著AI技術(shù)擴散的另一必要條件-易用性已潛移默化滲入公眾心智,。

基于此,外界有理由樂觀期待,,人工智能產(chǎn)業(yè)的確已站在了巨擘預(yù)卜的宏偉藍圖新起點上,。


成于算力、困于互連,?

在不少“后見之明”的解讀中,,GPT家族往往被與2017年谷歌推出的Transformer模型相聯(lián)系。

基于自注意力機制的Transformer,,及其后谷歌BERT對各類文本任務(wù)的“屠榜”表現(xiàn)和驚人泛化能力,,的確堪稱為GPT做好了前置技術(shù)與工程方法的鋪墊。站在巨人的肩膀上,,GPT開發(fā)者OpenAI團隊,,最終憑借更敏捷的效率和更有力的執(zhí)行,完成了最后的一躍,。

進一步深入看,,Transformer較此前MLP\LSTM等傳統(tǒng)深度學(xué)習(xí)模型,正是對硬件算力實現(xiàn)了更高效的運用。

關(guān)于這一點,,2019年深度學(xué)習(xí)泰斗,、DeepMind首席科學(xué)家Richard Sutton在其《苦澀的教訓(xùn)》一文中就曾感言,從70年AI研究中可以學(xué)到的最大教訓(xùn)是,,利用計算的一般方法最終是最有效的,,而且有很大的優(yōu)勢,終極原因是摩爾定律,,或者更確切地說,,是它對每單位計算成本持續(xù)呈指數(shù)下降的概括,大多數(shù)AI研究都是在可用算力恒定的情況下進行的(在這種情況下,,利用人類經(jīng)驗將是提高性能的唯一方法),,但是,在比典型研究項目稍長的時間里,,算力會大大增加,,從長遠來看,唯一重要的是利用計算,。

正如Sutton所預(yù)見的,近年來,,AI硬件算力取得了突飛猛進的發(fā)展,。除了為人所熟知的GPU之外,谷歌TPU(GPT系列早期通過TPUv2進行訓(xùn)練),、微軟Catapult等AI加速芯片往往省去了傳統(tǒng)通用CPU微架構(gòu)中亂序,、預(yù)取等高級控制措施,能夠?qū)崿F(xiàn)卷積神經(jīng)網(wǎng)絡(luò)最核心的乘加運算單元設(shè)計最優(yōu)化,,充分挖掘SIMD架構(gòu)并行計算能力,。

算法、算力及其相結(jié)合的工程方法進步,,最終為OpenAI“大力出奇跡”奠定了基礎(chǔ),。

完全可以預(yù)期,在OpenAI明星效應(yīng)下,,全球科技巨頭未來一兩年必將推出一系列類GPT預(yù)訓(xùn)練大模型,,也有望帶動對數(shù)據(jù)中心AI算力集群的投資進一步加速。

不過值得注意的是,,盡管各大芯片廠商爭相推出AI加速芯片,,算力參數(shù)不斷刷新記錄,但預(yù)訓(xùn)練大模型參數(shù)量動輒上百億,、千億乃至萬億,,其訓(xùn)練仍遠遠超出一兩張GPU等AI加速卡所能駕馭的范圍,往往必須通過網(wǎng)絡(luò)將多處理器互連、乃至進一步組成HPC算力集群,,實現(xiàn)算力資源的池化調(diào)度,,如此方能滿足AI大模型的分布式、并行化訓(xùn)練,。而在評估訓(xùn)練效率時,,單批數(shù)據(jù)(batch)的總訓(xùn)練用時也往往受通信時長的顯著影響。

正因如此,,隨著AI大模型揭示的全新想象空間出現(xiàn),,算力集群這一基礎(chǔ)設(shè)施也將迎來投資熱潮,而在其面臨的配電,、散熱,、通信等一系列工程挑戰(zhàn)中,算力節(jié)點間的數(shù)據(jù)傳輸尤其堪稱制約硬件算力充分釋放的關(guān)鍵“瓶頸”,。

破解互連瓶頸的“關(guān)鍵支點”

AI訓(xùn)練,、推理所面對的數(shù)據(jù)量指數(shù)增長,使得無論單服務(wù)器中多GPU,、CPU間C2C通信,,還是在多服務(wù)器間組網(wǎng),數(shù)據(jù)傳輸總體都呈現(xiàn)出高帶寬,、低延遲的技術(shù)需求,。

在算力集群通信網(wǎng)絡(luò)拓撲結(jié)構(gòu)趨同的背景下,交換機接口日益成為打通“瓶頸”的重要突破口,,并衍生出提升網(wǎng)卡速率,、增加網(wǎng)卡數(shù)量、乃至應(yīng)用RDMA網(wǎng)絡(luò)直連等多種工程思路,。

而在底層接口技術(shù)領(lǐng)域,,與傳統(tǒng)并行接口相比,SerDes串行接口由于其顯著的成本優(yōu)勢,,已然成為應(yīng)用主流,,在PCIe 6.0等新標準中,更是在物理層進一步引入對PAM4(四階脈沖振幅調(diào)變)編碼的支持,,以進一步提高SerDes數(shù)據(jù)傳輸速率,。

不過SerDes的應(yīng)用,也自然存在不少技術(shù)挑戰(zhàn),,其中最嚴峻的,,無疑首推信號完整性(SI)問題。

例如在通過背板,、連接器,、PCB板的中距離,、長距離互連場景中,SerDes高速鏈路TX,、RX端往往間隔著管腳,、PCB過孔、信號線乃至連接器,、線纜等環(huán)節(jié),,存在材料、工藝,、布局等復(fù)雜原因引入的噪聲,、串擾和信號衰減,以至于最終抵達接收器的電氣信號可能嚴重失真,,很難恢復(fù)所傳輸信息的時鐘和數(shù)據(jù)位,,也局限了速率、距離上的設(shè)計空間,。

新一代56G,、112G SerDes應(yīng)用PAM4編碼,在提供更大網(wǎng)絡(luò)吞吐量的同時,,也因引入更多電平水平,,帶來了信噪比損失、誤碼率(BER)惡化,、前向糾錯(FEC)延遲增加等問題,,需要進行精細的權(quán)衡取舍。

從上面的分析不難看出,,想要充分發(fā)揮AI硬件算力效能,接口技術(shù)是破解互連瓶頸的關(guān)鍵支點,,具有極大的杠桿效應(yīng),,而其應(yīng)用則必須解決圍繞信號完整性的諸多挑戰(zhàn)。

目前,,盡管大量硬件廠商聘請了專職SI工程師負責(zé)調(diào)試,,不過其效果取決于千差萬別的個人“手藝”,由于在芯片與系統(tǒng)設(shè)計各層面均需保證信號完整性,,驗證過程也往往曠日持久,,只有技能十分熟練且模電領(lǐng)域經(jīng)驗極其豐富的設(shè)計團隊才能嘗試此類設(shè)計,且測試驗證周期漫長,。

正因如此,,在芯片設(shè)計中,外購高速接口IP幾乎成為行業(yè)“必選項”,,也帶動接口IP成為近年來增速最快的IP細分市場,,根據(jù)專業(yè)機構(gòu)預(yù)測,,接口IP甚至有望在2025年前后超越CPU IP,成為第一大半導(dǎo)體IP品類,。


授人以魚,,更要授人以漁


接口IP市場機遇,也使之成為各大IP HOUSE競爭熱點,。例如全球三大IP廠商之一的Cadence(楷登電子),,同樣推出了其112G SerDes IP設(shè)計,面向高性能計算(HPC)數(shù)據(jù)中心SOC需求,,適用于長距離和中距離傳輸,,已經(jīng)經(jīng)過7nm制程硅驗證,擁有上佳的PPA表現(xiàn),,插入損耗>35dB,。

值得一提的是,外購接口IP只是從芯片到系統(tǒng)開發(fā)及信號完整性測試的起點,,與工作流配套的工具是否完備,、可及,也是影響開發(fā)周期的重要因素,,可以說接口IP供應(yīng)商既要授人以魚,,更要授人以漁。

作為EDA\IP領(lǐng)域巨頭,,Cadence在這方面的實踐尤其具有代表性,。在SerDes等成熟接口IP之外,該公司還提供了有機融合的完善設(shè)計工具和技術(shù),,幫助芯片與系統(tǒng)設(shè)計人員應(yīng)對貫穿各層面的信號完整性挑戰(zhàn),。

例如在不同芯片間互連設(shè)計與仿真中,建模是必不可少的手段,。目前,,IBIS和AMI是對SerDes信道進行建模的首選方式,IBIS-AMI的出現(xiàn),,使利用仿真模型快速且精確地模擬大量比特流成為了可能,。作為行業(yè)標準的定義者之一,Cadence在相關(guān)工具開發(fā)上同樣走在前列,,基于其Sigrity Advanced IBIS建模工具,,用戶可自動創(chuàng)建模型,借助向?qū)С绦蛏蓪嵱盟惴P汀?/p>

在基于PCB板/背板/連接器的中長距離互連場景中,,SerDes高速接口開發(fā)人員為了精準可靠地分析信號,,還需要為總體設(shè)計進行信號完整性(SI)、電源完整性(PI)以及電磁兼容性 (EMC)協(xié)同仿真,,開發(fā)者往往需要透徹了解數(shù)據(jù)采集分析理論,、精準建立模擬器件特性模型,。

針對這一痛點,Cadence的Clarity 3D Solve為PCB,、IC封裝和SoIC關(guān)鍵互連設(shè)計提供了更好的工具選擇,,基于其創(chuàng)建的高精度S-參數(shù)模型,即使在112G數(shù)據(jù)傳輸速度下,,也能實現(xiàn)與實驗室測量相匹配的仿真結(jié)果,。其有限元分析(FEM)過程實現(xiàn)了高度并行化,可極大縮短求解耗時,,并支持近乎線性的硬件算力可擴展性,。

微信截圖_20230418094851.png

此外,在分析鏈路信號完整性時,,通常隱含假設(shè)是電路板和連接器功能良好,,但在極高頻率下,單獨分析連接器和電路板,、然后再將它們“連接"在一起的假設(shè)不再適用,。電路板和連接器之間交互過多,同樣需要Clarity Solver等全面的3D分析工具實現(xiàn)高質(zhì)量設(shè)計,,同時準確預(yù)測成品性能,。


 結(jié)語 

在黃仁勛喊出人工智能“iPhone 時刻”后,短短幾十天以來,,預(yù)訓(xùn)練大模型及其下游應(yīng)用,,已經(jīng)呈現(xiàn)出令人目不暇給的爆發(fā)態(tài)勢??梢韵胍?,在各大云計算巨頭的AI大模型“軍備競賽”中,算力集群也將迎來一輪新的投資熱潮,,通信網(wǎng)絡(luò)與接口技術(shù),,也有望進入發(fā)展加速期。此外,,特斯拉 Dojo、Cerebras WSE-2等走“超級單芯片”路線的廠商,,也可能引領(lǐng)一條大模型訓(xùn)練的新路,。

不過無論何種路徑,對接口IP的“剛需”都清晰可見,,在這一熱點,、難點領(lǐng)域,筆者也期待有更多如Cadence等大廠帶來完整解決方案,,推動互連瓶頸的緩解與松動,,有力釋放預(yù)訓(xùn)練大模型無限可能,,造福千行百業(yè)。


 更多精彩內(nèi)容歡迎點擊==>>電子技術(shù)應(yīng)用-AET<<

微信圖片_20210517164139.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。