12 月 26 日消息,,以“創(chuàng)新驅(qū)動智啟新程”為主題的 2024 中國人工智能大會(CCAI)開幕式于本月在北京召開,,超節(jié)點算力集群創(chuàng)新聯(lián)合體揭牌儀式舉行。
會上,,北京市科委,、中關(guān)村管委會,、中國移動、浪潮集團,、阿里云,、清華大學(xué)、中國科學(xué)院等單位共同為“超節(jié)點算力集群創(chuàng)新聯(lián)合體”揭牌,。
據(jù)中國移動介紹,,隨著人工智能大模型的迅猛發(fā)展,其參數(shù)規(guī)模正向超萬億級別演進,,模型的性能和泛化能力不斷提升,,對高性能智算基礎(chǔ)設(shè)施的需求更為迫切。在此背景下,,傳統(tǒng)單臺智算服務(wù)器僅能容納 8 張 GPU 芯片的算力模式正被“超節(jié)點算力集群”這一形態(tài)所取代,,以適應(yīng)日益增長的算力需求。
“超節(jié)點算力集群創(chuàng)新聯(lián)合體”的 GPU 卡間互聯(lián)是基于中國移動原創(chuàng)的 OISA(全向智感互聯(lián))協(xié)議所構(gòu)建,,OISA 旨在打造一個高效,、智能、靈活且開放的 GPU 卡間互聯(lián)體系,,該架構(gòu)致力于支持大模型訓(xùn)練,、推理、高性能計算等數(shù)據(jù)密集型的 AI 應(yīng)用,。
為了實現(xiàn)這一目標(biāo),,OISA 采用了全向連接設(shè)計,確保大規(guī)模 GPU 之間對等通信,;引入智能感知設(shè)計,,通過定義流量感知標(biāo)簽,,并結(jié)合流控和重傳機制,優(yōu)化數(shù)據(jù)傳輸效率,。
在協(xié)議層面,,OISA 采用精悍的報文格式、支持內(nèi)存和消息的多語義融合,、多層次流控重傳以及預(yù)設(shè)集合通信加速等多個關(guān)鍵技術(shù),,實現(xiàn)高帶寬、低時延和高可靠的 GPU 通信能力,。
在當(dāng)前 Gen1.1 版本下,,OISA 支持超節(jié)點內(nèi)任意 GPU 卡間的點對點讀寫互聯(lián)帶寬達到 896GB/s,每個 OISA-Switch 芯片支持 128 個端口,、交換容量 51.2T,。
從中國移動官方獲悉,中國移動未來將全面支持超節(jié)點算力集群創(chuàng)新聯(lián)合體發(fā)展,,計劃聯(lián)合產(chǎn)業(yè)界優(yōu)先完成在單層 Switch 條件下基于 OISA 互聯(lián)技術(shù)的 32/64 卡超節(jié)點產(chǎn)品落地,,并加速 128 卡超節(jié)點產(chǎn)品的輸出。