《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > AMD將構(gòu)建全球最大AI訓(xùn)練集群

AMD將構(gòu)建全球最大AI訓(xùn)練集群

集成120萬片GPU
2024-06-27
來源:芯智訊

0.png

6月26日消息,,據(jù)The Next Platform報道,,近日AMD執(zhí)行副總裁兼數(shù)據(jù)中心解決方案集團總經(jīng)理Forrest Norrod在接受采訪時表示,,AMD將助力構(gòu)建全球最大的單體人工智能(AI)訓(xùn)練集群,將集成高達(dá)120萬片的GPU,。

120萬片GPU 是一個非常驚人的數(shù)字,,要知道目前全球最強的超級計算機Frontier 所配備的 GPU 數(shù)量才只有37888片,,這也意味著AMD所支持的AI訓(xùn)練集群的GPU規(guī)模將達(dá)到Frontier的30多倍,。不過,,F(xiàn)orrest Norrod沒有透露哪個組織正在考慮構(gòu)建這種規(guī)模的AI系統(tǒng),但確實提到“非常清醒的人”正在考慮在AI訓(xùn)練集群上花費數(shù)百億到數(shù)千億美元,。

目前的AI訓(xùn)練集群通常由幾千個 GPU 構(gòu)建而成,,這些 GPU 通過跨多個服務(wù)器機架或更少的高速互連連接。如果要創(chuàng)建一個擁有高達(dá) 120 萬個 GPU 的單體 AI 集群,,意味著將會面臨極為復(fù)雜的高速互連網(wǎng)絡(luò),,并且還會有延遲、功耗,、硬件故障等諸多的問題,,這似乎是難以實現(xiàn)的。

比如,,AI工作負(fù)載對延遲非常敏感,,尤其是尾部延遲和異常值,其中某些數(shù)據(jù)傳輸比其他數(shù)據(jù)傳輸花費的時間要長得多,,并且會中斷工作負(fù)載。此外,,當(dāng)今的超級計算機也會面臨每隔幾個小時就會發(fā)生的 GPU 或其他硬件故障,。當(dāng)擴展到當(dāng)今最大的超級計算機集群的 30 倍時。更為關(guān)鍵的是,,如此龐大的AI訓(xùn)練集群,,將會產(chǎn)生極為龐大的能耗,不僅穩(wěn)定的供電將會是一個大難題,,而且配套的散熱解決方案也面臨巨大挑戰(zhàn),。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]