當前,,以ChatGPT為代表的生成式人工智能應用風頭無兩,正在全球科技巨頭間掀起新一輪的技術(shù)競賽,。在很多人看來,,ChatGPT的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點,,而這個引爆點之所以能出現(xiàn),,則離不開背后的高性能計算與大數(shù)據(jù)基礎設施。
ChatGPT基于Open AI公司的GPT-3系列語言大模型來實現(xiàn),,GPT(Generative Pre-trained Transformer)即生成式預訓練轉(zhuǎn)換模型,,是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型。
為了實現(xiàn)和人類可比擬的語言交互和語言組織能力,,GPT-3的參數(shù)達到1750億個,,相比之下,2018年推出的GPT-1,,參數(shù)為1.17億個,,而2019年推出的GPT-2參數(shù)則達到15億個,量變最終將引發(fā)質(zhì)變,,參數(shù)規(guī)模的飛速膨脹,,對支撐GPT運行的硬件系統(tǒng)提出了越來越高的要求,對于類似GPT這樣的大模型,,沒有高性能硬件支撐,,根本無法去實現(xiàn)與部署,更不要說隨著新數(shù)據(jù)的涌入來迭代了,。
所以,,在眾廠商紛紛宣布加碼大模型AI投入時,有人斷言,,新一輪AI競賽鹿死誰手還很難說,,但高性能計算(HPC)系統(tǒng)中的高算力芯片、高帶寬互連芯片和存儲芯片一定是贏家,。
HPC及其核心芯片發(fā)展趨勢
那么,,高性能計算要如何發(fā)展才能更好地支持新一波人工智能發(fā)展浪潮?而人工智能將如何影響到高性能計算本身呢,?有如下幾點,,可供探討。
第一,高性能計算與人工智能相得益彰,。人工智能的每一次高速發(fā)展,,都離不開背后硬件基礎設施的支持,而高速發(fā)展的AI又對硬件基礎設施提出了更高的要求,,激勵芯片或系統(tǒng)性能成倍上升,。
在Open AI 2018年發(fā)布的報告中,對自2012至2018年人工智能訓練對算力的需求超過30萬倍,,算力需求平均每3.5個月翻一番,,這給芯片及硬件系統(tǒng)更新?lián)Q代帶來極大壓力,因為按摩爾定律的性能升級速度,,已經(jīng)不能滿足AI訓練對芯片性能的需求增長速度了,。
為了打破性能瓶頸,新思科技提出了SysMoore開發(fā)方法學,,通過全系統(tǒng)優(yōu)化,,有效釋放了性能提升潛力。
反過來,,AI能力也在提升芯片開發(fā)效率,,幫助開發(fā)者設計出性能更出色的芯片。例如,,通過應用新思科技的DSO.ai工具,,開發(fā)者將一款HPC處理器的運行頻率提高了100Mz,而開發(fā)時間縮短了一半,,整個團隊的產(chǎn)出效率提升至原來的三倍,。
第二,HPC芯片性能提升方式從平面擴展轉(zhuǎn)變?yōu)榱Ⅲw增長,。多晶片系統(tǒng)(Multi-Die System)正在成為HPC芯片的主要發(fā)展潮流,,從HPC的系統(tǒng)角度來看,采用先進封裝技術(shù)將不同芯片封裝在一起的方式,,比PCB互連能大幅提升系統(tǒng)性能,,因而HPC芯片在實現(xiàn)上,2.5D封裝與3D封裝的設計將越來越多,。
而由于成熟的接口IP可以直接以芯粒(Chiplet)方式與計算內(nèi)核進行拼接,,多晶片系統(tǒng)開發(fā)方式還可以有效保證良率,加快開發(fā)效率,。
多晶片系統(tǒng)的實現(xiàn),,需要設計方法學的更新,以實現(xiàn)高帶寬,、低延遲,、低功耗和無差錯工作的片間接口,,多晶片系統(tǒng)的片間接口技術(shù)對于數(shù)據(jù)中心與邊緣設備的快速、可靠的數(shù)據(jù)傳輸至關(guān)重要,。
采用先進封裝技術(shù)將芯片進行立體堆疊,,為芯片性能提升打開了無限可能,但也需要更強的EDA工具,、設計方法學和IP,,來處理多晶片系統(tǒng)中的異構(gòu)集成、互連和封裝問題,。此外,,隨著數(shù)據(jù)中心互連技術(shù)的發(fā)展,開發(fā)者還需要具備硅光學等領(lǐng)域的專業(yè)知識和技術(shù),。
新思科技的3DIC Compiler是一個高效易用的多晶片系統(tǒng)設計實現(xiàn)平臺,,可以為各種不同工藝制造的芯粒拼接堆疊提供完整的開發(fā)環(huán)境。
例如,,從多晶片系統(tǒng)項目啟動時,,開發(fā)者就需要用3DIC Compiler對多晶片系統(tǒng)進行功能劃分,,將整體設計分解為多個芯粒,,接下來,可以用3DIC Compiler進行早期版圖規(guī)劃和基于封裝的信號完整性分析,,以實現(xiàn)更好的片間連接性能和更優(yōu)的功耗表現(xiàn),。
第三,邊緣計算設備將不斷進步迭代,。人工智能的訓練發(fā)生在數(shù)據(jù)中心,,但推理或數(shù)據(jù)收集都離不開邊緣設備。
在人工智能應用中,,對邊緣設備的延遲要求越來越高,,希望能進一步減少邊緣設備數(shù)據(jù)處理和傳輸延遲,這就要求優(yōu)化邊緣設備主芯片的數(shù)據(jù)傳輸速度和效率,。而邊緣設備數(shù)量眾多,,因而在芯片層面能夠降低功耗的話,將對整個云加邊緣體系的節(jié)能降耗貢獻極大,。
所以,,邊緣端芯片需要強大的仿真和驗證工具、功耗和熱分析功能,、設計布局的智能實施,,以及一系列關(guān)鍵功能和接口的認證IP模塊,新思科技可以為開發(fā)者提供從邊緣到云端可應用的基礎IP,、接口IP,、安全IP和處理器IP,,優(yōu)化實現(xiàn)高性能、低延遲和低功耗,,同時支持先進的工藝技術(shù),。
第四,從信息安全,、可靠性和運營成本等考慮,,HPC芯片需要全生命周期管理。HPC系統(tǒng)規(guī)模巨大,,運營成本高昂,,可以處理PB乃至ZB級別的數(shù)據(jù),可以實時運行大模型,。這種級別的系統(tǒng)一旦出現(xiàn)故障,,由于業(yè)務暫停造成的經(jīng)濟損失,數(shù)字會十分驚人,。
所以,,一個好的HPC系統(tǒng),應該具備卓越的可靠性,、可用性和服務能力,,而要做到這一點,系統(tǒng)角度可以通過冗余設計來增加可靠性,,但更重要的則是從芯片層級來減少故障率,。
在芯片層級減少系統(tǒng)的故障率,就需要用到新思科技的硅生命周期管理(Silicon Lifecycle Management,,SLM )的理念,。
SLM通過內(nèi)置IP來收集芯片運行中的各種參數(shù),并將芯片運行數(shù)據(jù)傳輸至指定位置進行分析和跟蹤,,從而讓系統(tǒng)可以實時監(jiān)控各個核心芯片的運行狀況,,為系統(tǒng)建立起芯片健康狀況跟蹤圖,從而更好地預測和預防故障的發(fā)生,,最終實現(xiàn)故障率降低和最小化故障損失,。
第五,可持續(xù)發(fā)展是HPC產(chǎn)業(yè)長期繁榮的基礎,。由于規(guī)模巨大,,HPC系統(tǒng)能耗驚人,專家預測,,到2030年,,僅數(shù)據(jù)中心用電量將占到全球總用電量的3%至7%,不少區(qū)域甚至抵制建設數(shù)據(jù)中心,,以免因其耗能巨大而導致當?shù)丨h(huán)境惡化,。所以,,如何有效解決HPC/數(shù)據(jù)中心能耗和散熱問題,已經(jīng)成為其能否可持續(xù)發(fā)展的關(guān)鍵,。
在新思科技為HPC/數(shù)據(jù)中心提供的完整解決方案中,,處處體現(xiàn)了節(jié)能降耗的理念。例如,,通過低功耗設計方法學和功耗優(yōu)化過的IP核來實現(xiàn)HPC芯片的整體功耗優(yōu)化,,從而降低HPC系統(tǒng)能耗,有效降低系統(tǒng)功耗,,而新思科技各種高效率開發(fā),、仿真和驗證工具,大幅降低了研發(fā)一款芯片的總體用時和資源占用,,則是從更廣泛角度上為可持續(xù)發(fā)展做出的貢獻,。
總結(jié)
隨著互聯(lián)網(wǎng)與人工智能技術(shù)的發(fā)展,HPC產(chǎn)業(yè)的重要性與日俱增,,大數(shù)據(jù)與大數(shù)據(jù)模型的應用,,都對HPC系統(tǒng)的性能與能耗提出了更高要求,只有從芯片層級出發(fā)來對HPC系統(tǒng)進行優(yōu)化,,才能真正讓HPC系統(tǒng)性能不斷升級,,能效持續(xù)優(yōu)化,走上真正的可持續(xù)發(fā)展之路,。
更多精彩內(nèi)容歡迎點擊==>>電子技術(shù)應用-AET<<