《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 國(guó)產(chǎn)GPU正式進(jìn)入萬(wàn)卡萬(wàn)P時(shí)代

國(guó)產(chǎn)GPU正式進(jìn)入萬(wàn)卡萬(wàn)P時(shí)代

摩爾線程智算集群擴(kuò)展至萬(wàn)卡
2024-07-08
來(lái)源:快科技

無(wú)論是游戲顯卡還是AI加速卡,NVIDIA都已經(jīng)是絕對(duì)壟斷地位,,而在當(dāng)前的形勢(shì)下,我們不但要有自己的游戲卡,,更要有自己的加速卡。

這個(gè)重?fù)?dān),,摩爾線程英勇地都扛了起來(lái),,率先交付全國(guó)產(chǎn)千卡千億模型算力集群之后,又率先拓展到了萬(wàn)卡,、萬(wàn)P,、萬(wàn)億規(guī)模!

摩爾線程重磅宣布,,AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案重大升級(jí),,從當(dāng)前的千卡級(jí)別,擴(kuò)展至萬(wàn)卡規(guī)模,,從而具備萬(wàn)P級(jí)或者說(shuō)10E級(jí)浮點(diǎn)運(yùn)算能力,,也就是每秒可執(zhí)行千億億次級(jí)別的計(jì)算。

1.png

所謂萬(wàn)卡集群,,顧名思義,,就是由1萬(wàn)張甚至更多GPU計(jì)算加速卡組成的高性能計(jì)算系統(tǒng),主要用來(lái)訓(xùn)練,、微調(diào)超大規(guī)模的基礎(chǔ)大模型,。

這種超級(jí)集群全面整合了高性能GPU計(jì)算、高性能RDMA網(wǎng)絡(luò),、高性能并行文件存儲(chǔ),、智算平臺(tái)等全套軟硬件技術(shù),堪稱一臺(tái)“超級(jí)計(jì)算機(jī)”,,可支持千億級(jí),、萬(wàn)億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練,可以大幅提高訓(xùn)練效率,、縮短訓(xùn)練時(shí)間,,快速迭代模型能力。

2.jpg

在國(guó)外,,諸多科技巨頭都已經(jīng)部署了萬(wàn)卡集群,,擁有數(shù)萬(wàn)甚至數(shù)十萬(wàn)張GPU加速卡。

比如馬斯克近日就透露,,新一代AI聊天機(jī)器人Grok 3就動(dòng)用了多達(dá)10萬(wàn)張NVIDIA H100加速卡進(jìn)行訓(xùn)練,,因此將會(huì)“非常特別”,為此耗資多達(dá)三四十億美元,。

再比如谷歌的超級(jí)計(jì)算機(jī)A3 Virtual Machines擁有2.6萬(wàn)塊H100 GPU,,Meta訓(xùn)練下一代大模型的兩個(gè)集群擁有24576塊H100 GPU,16個(gè)專家模型和1.8萬(wàn)億參數(shù)的GTP-4需要在大約2.5萬(wàn)塊A100 GPU上訓(xùn)練90-100天。

在國(guó)內(nèi),,字節(jié)跳動(dòng),、阿里巴巴、百度,、科大訊飛等也都在積極推動(dòng)萬(wàn)卡集群的建設(shè),。

比如字節(jié)跳動(dòng)搭建了一個(gè)12288張卡的訓(xùn)練集群,研發(fā)MegaScale生產(chǎn)系統(tǒng),,用于訓(xùn)練大語(yǔ)言模型,,科大訊飛2023年建成了首個(gè)支持大模型訓(xùn)練的超萬(wàn)卡集群算力平臺(tái)“飛星一號(hào)”。

由此可見(jiàn),,在AI模型訓(xùn)練的主戰(zhàn)場(chǎng),,萬(wàn)卡集群已成為最低入場(chǎng)券。

但是,,萬(wàn)卡集群乍一看只是千卡集群的拓展和延伸,,它絕非簡(jiǎn)單的更多計(jì)算卡疊加,而是一個(gè)超級(jí)復(fù)雜的系統(tǒng)工程,,需要解決超大規(guī)模組網(wǎng)互聯(lián)、集群有效計(jì)算效率,、訓(xùn)練高穩(wěn)定與高可用,、故障快速定位與可診斷工具、生態(tài)Day0級(jí)快速遷移,、未來(lái)場(chǎng)景通用計(jì)算等眾多難題,。

3.jpg

那么,萬(wàn)卡集群如此難做,,摩爾線程作為成立還不到4年的國(guó)產(chǎn)GPU企業(yè),,為什么要去挑戰(zhàn)呢?

這是一條難而正確的事情,,摩爾線程推出夸娥萬(wàn)卡智算集群解決方案,,就是希望能夠建設(shè)一個(gè)規(guī)模超萬(wàn)卡、場(chǎng)景更通用,、生態(tài)兼容好的一個(gè)加速計(jì)算平臺(tái),,并優(yōu)先解決大模型訓(xùn)練的難題。

摩爾線程創(chuàng)始人兼CEO張建中強(qiáng)調(diào):“要挑戰(zhàn)最難做的事情,,除了有勇氣之外,,還要有能力,要有很好的團(tuán)隊(duì),,有很強(qiáng)的研發(fā),、生產(chǎn)、制造、銷售,、市場(chǎng),、服務(wù)等等方方面面的人才,否則是很難做成的,。做成一件事情,,其實(shí)不是偶然的,而是要花很多時(shí)間去建立的,。每一家成功的企業(yè)都有很多正確的決定,,但是不管什么樣的決定,真正強(qiáng)的團(tuán)隊(duì)才是核心,。摩爾線程就有很強(qiáng)的團(tuán)隊(duì),,這么多年的經(jīng)驗(yàn),我們?cè)贕PU行業(yè)里的知識(shí),、Know-how,,碰到過(guò)的困難,解決過(guò)的難題,,對(duì)我們來(lái)說(shuō)都是非常寶貴的經(jīng)驗(yàn),。”

4.jpg

夸娥,,是摩爾線程的智算中心全棧解決方案,,以其自主研發(fā)的全功能GPU為底座,包括以夸娥計(jì)算集群為核心的基礎(chǔ)設(shè)施,、夸娥集群管理平臺(tái)(KUAE Platform),、夸娥大模型服務(wù)平臺(tái)(KUAE Model Studio),軟件硬件一體化,,訓(xùn)練推理一體化,,交付一體化,可以開(kāi)箱即用,,提供大規(guī)模GPU算力集群的建設(shè),、運(yùn)營(yíng)管理。

摩爾線程的夸娥萬(wàn)卡集群具備PB級(jí)的超大顯存總?cè)萘?、PB/s級(jí)的超高速卡間互聯(lián)總帶寬,、PB/s級(jí)的超高速節(jié)點(diǎn)互聯(lián)總帶寬,可實(shí)現(xiàn)系統(tǒng)性協(xié)同優(yōu)化,,從而達(dá)到超強(qiáng)的算力,,并且MFU最高可以達(dá)到60%。

5.jpg

穩(wěn)定性也是卓爾不群,,平均無(wú)故障運(yùn)行時(shí)間超過(guò)15天,,最長(zhǎng)可以穩(wěn)定訓(xùn)練大模型30天以上,,周均訓(xùn)練有效率超過(guò)99%,遠(yuǎn)超行業(yè)平均水平,,而且可以性能自動(dòng)調(diào)休,、問(wèn)題自動(dòng)診斷,2分鐘內(nèi)就能快速修復(fù),,進(jìn)而斷點(diǎn)續(xù)訓(xùn)練,。

這得益于摩爾線程自主研發(fā)的一系列可預(yù)測(cè)、可診斷的多級(jí)可靠機(jī)制,,包括:軟硬件故障的自動(dòng)定位與診斷預(yù)測(cè),,實(shí)現(xiàn)分鐘級(jí)的故障定位;Checkpoint多級(jí)存儲(chǔ)機(jī)制,,實(shí)現(xiàn)內(nèi)存秒級(jí)存儲(chǔ)和訓(xùn)練任務(wù)分鐘級(jí)恢復(fù),;高容錯(cuò)高效能的萬(wàn)卡集群管理平臺(tái),實(shí)現(xiàn)秒級(jí)納管分配與作業(yè)調(diào)度,。

6.jpg

此外還有強(qiáng)大的通用性,,支持所有主流大模型訓(xùn)練,可加速LLM,、MoE,、多模態(tài)、Mamba等不同架構(gòu),、不同模態(tài),,支持主流分布式訓(xùn)練框架(Colossal-AI、DeepSpeed,、Megatron-LM、Flag Scale),。

同時(shí),,基于高效易用的MUSA編程語(yǔ)言、完整的CUDA生態(tài)兼容,、自動(dòng)化遷移工具M(jìn)usify,,開(kāi)發(fā)者只需極短的時(shí)間、極少的工作就能完成遷移,,甚至幾乎不需要修改代碼,,遷移成本趨近于零。

值得一提的是,,摩爾線程表示,,如果已經(jīng)適配過(guò)摩爾線程的千卡集群,不需要任何額外工作就可以無(wú)縫跑在萬(wàn)卡集群上,,而哪怕是第一次適配萬(wàn)卡集群,,也只需幾個(gè)小時(shí),,只是性能調(diào)優(yōu)需要花一點(diǎn)時(shí)間,主要是模型使用方法不同,、芯片廠商策略不同所致,。

目前,摩爾線程已經(jīng)實(shí)現(xiàn)從芯片到算力卡,,從一體機(jī)到節(jié)點(diǎn)集群的全棧式覆蓋,,支持從單機(jī)多卡到多機(jī)多卡、從單卡到千卡萬(wàn)卡集群的無(wú)縫擴(kuò)展,。

- 大模型智算加速卡MTT S4000

訓(xùn)推兼顧,,專為大模型打造的大模型智算加速卡。

單卡支持 48GB 顯存,、768GB/s顯存帶寬,,并支持摩爾線程自研MTLink 1.0互連技術(shù),卡間互連帶寬240GB/s,,從而支持高效多卡互聯(lián),。

- AI大模型訓(xùn)推一體機(jī)MCCX D800

雙路八卡GPU服務(wù)器,專為支持MTT S4000大模型智算加速卡充分發(fā)揮其訓(xùn)推性能,、穩(wěn)定性,、可靠性的服務(wù)器系統(tǒng)。

它還具備多達(dá)16×64GB DDR5內(nèi)存,、2×480GB SATA系統(tǒng)盤(pán),、4×3.84TB NVMe SSD緩存數(shù)據(jù)盤(pán)、雙路400Gb IB與四路25Gb以太計(jì)算存儲(chǔ)網(wǎng)絡(luò),。

- AI超融合一體機(jī)(KUAE FUSION)

夸娥智算集群的單個(gè)節(jié)點(diǎn),,如今也可作為單獨(dú)產(chǎn)品提供,可以任意并聯(lián)擴(kuò)展,。

它基于MCCX D800 訓(xùn)推一體機(jī),,屬于可靈活部署的推理、訓(xùn)練,、微調(diào)軟硬件一體化解決方案,。

目前,摩爾線程萬(wàn)卡集群項(xiàng)目已經(jīng)完成了三項(xiàng)戰(zhàn)略簽約,,分別是:

與青海移動(dòng)的青海零碳產(chǎn)業(yè)園萬(wàn)卡集群,;

與青海聯(lián)通、北京德道信科集團(tuán)的青海高原萬(wàn)卡集群,,,;

與中國(guó)能源建設(shè)、桂林華崛大數(shù)據(jù)的廣西東盟萬(wàn)卡集群,。

生態(tài)方面,,摩爾線程的版圖也正在迅速擴(kuò)大,。

國(guó)內(nèi)眾多AI廠商、云廠商,、科技廠商,、軟件廠商和、科研院校機(jī)構(gòu)等,,都與摩爾線程有著深入的合作,,尤其是利用摩爾線程夸娥智算集群,助力大模型訓(xùn)練,、大模型推理,、具身智能等不同場(chǎng)景和領(lǐng)域持續(xù)創(chuàng)新。

在上海舉辦的世界人工智能大會(huì)WAIC 2024期間,,摩爾線程也展示了自己的全棧解決方案,。

除了芯片、算力卡,、服務(wù)器,、一體機(jī)節(jié)點(diǎn)之外,還有AI算力底座,、AIGC創(chuàng)作生產(chǎn)力,、產(chǎn)業(yè)升級(jí)三大展示區(qū)。

AI算力底座展示區(qū),,包括夸娥集群管理平臺(tái),、夸娥模型服務(wù)平臺(tái)、夸娥大模型推理平臺(tái),,以及夸娥生態(tài)版圖,。

夸娥集群管理平臺(tái)是摩爾線程大規(guī)模GPU計(jì)算集群產(chǎn)品可視化管理平臺(tái),是用于Al大模型訓(xùn)練,、分布式圖形渲染,、流媒體處理和科學(xué)計(jì)算的軟硬件一體化平臺(tái),深度集成全功能GPU計(jì)算,、網(wǎng)絡(luò)和存儲(chǔ),,提供高可靠,、高算力服務(wù),。

夸娥模型服務(wù)平臺(tái)覆蓋大模型預(yù)訓(xùn)練、微調(diào)和推理全流程,,支持所有主流開(kāi)源大模型,。通過(guò)摩爾線程MUSIFY代碼移植工具,可以良好兼容CUDA應(yīng)用生態(tài),,內(nèi)置的容器化解決方案,,則可實(shí)現(xiàn)API一鍵部署,。

夸娥大模型推理平臺(tái),基于高效的MT Transformer大模型推理引擎,,支持業(yè)內(nèi)主流vLLM推理框架,、MUSA Serving自研推理框架等,幫助開(kāi)發(fā)人員高效地在云端部署高性能推理服務(wù),。

AIGC創(chuàng)作生產(chǎn)力展區(qū),,可以看到依靠夸娥智算集群、基于圖形計(jì)算和AI計(jì)算的軟硬件一體化AIGC內(nèi)容創(chuàng)作平臺(tái)“摩筆馬良”,。

它部署了摩爾線程自研大語(yǔ)言模型MUSAChat,,可以及時(shí)潤(rùn)色、翻譯用戶的輸入文本,,進(jìn)一步增強(qiáng)語(yǔ)義理解,,還可以基于用戶的文本指向,靈活調(diào)用SDXL,、SD1.5兩代模型能力,,生成細(xì)節(jié)豐富、有藝術(shù)感的圖像結(jié)果,。

同時(shí),,結(jié)合多種IP-Adapter、ControlNet技術(shù),,它還支持“創(chuàng)意人像”,,上傳一張個(gè)人照片,以文字描述目標(biāo)風(fēng)格,,1分鐘內(nèi)就可以得到細(xì)膩,、逼真的人像圖片,而且無(wú)需訓(xùn)練,、風(fēng)格不限,。

“摩筆天書(shū)”則是依靠夸娥智算集群的AI內(nèi)容生成解決方案,可提供一站式,、多模態(tài),、全流程、全自動(dòng)的繪本生成創(chuàng)作體驗(yàn),。

用戶只需輸入標(biāo)題和簡(jiǎn)要的故事大綱,,即可一鍵生成完整故事、繪本圖片,、旁白,、字幕、背景音樂(lè)等素材,,并自動(dòng)合成圖文繪本故事和視頻繪本故事,。

“MT AIR”(MT AIReality)是摩爾線程自研的新一代的AI渲染平臺(tái),,構(gòu)建擁有照片級(jí)、視網(wǎng)膜級(jí),、堪比物理世界真實(shí)度的實(shí)時(shí)渲染管線,,輕松實(shí)現(xiàn)三維重建,可用于影視,、動(dòng)畫(huà),、游戲、元宇宙等領(lǐng)域,。

“Sora復(fù)現(xiàn)計(jì)劃”(Open-Sora-Plan)是由北京大學(xué),、兔展AIGC聯(lián)合實(shí)驗(yàn)室共同發(fā)起的開(kāi)源項(xiàng)目,利用開(kāi)源社區(qū)的力量,,完成對(duì)Sora文生視頻的復(fù)現(xiàn),,當(dāng)前在Github上有超過(guò)1萬(wàn)開(kāi)發(fā)者,摩爾線程則是國(guó)內(nèi)極少數(shù)支持運(yùn)行Open-Sora-Plan視頻生成模型的國(guó)產(chǎn)GPU公司,。

在產(chǎn)業(yè)數(shù)智化升級(jí)展示區(qū),,可以看到基于人工智能氣象預(yù)報(bào)大模型書(shū)生·風(fēng)烏的氣象預(yù)測(cè)應(yīng)用、基于東華軟件私有化大模型智多型(A.I.Cogniflex)的公共安全應(yīng)用,、佳都全息路口解決方案的數(shù)字交通應(yīng)用,、基于中科聞歌自主研發(fā)雅意大模型的輔助決策應(yīng)用、智慧安防應(yīng)用,、智能金融應(yīng)用,、智慧政務(wù)應(yīng)用等等。

值得一提的是,,依托夸娥智算集群的強(qiáng)兼容,、高算力等特性,風(fēng)烏成功在24小時(shí)內(nèi)就完成了從CUDA到MUSA的無(wú)縫,、快速生態(tài)遷移,,首次實(shí)現(xiàn)從硬件到算法的全國(guó)產(chǎn)化,且性能,、精度均達(dá)到國(guó)際先進(jìn)水平,。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。