《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 揭秘馬斯克的Colossus AI超算集群

揭秘馬斯克的Colossus AI超算集群

集成了10萬個英偉達H100 GPU
2024-10-30
來源:芯智訊
關(guān)鍵詞: xAI Colossus AI超算 H100 英偉達

11.jpg

10月29日消息,,YouTube視頻博主 ServeTheHome 首次曝光了埃隆·馬斯克 (Elon Musk)旗下人工智能企業(yè)xAIColossus  AI 超級計算機集群,,其集成了100000個英偉達(NVIDIA)H100 GPU,號稱是目前全球最強大的AI超級計算機集群,。

早在今年7月下旬,,馬斯克就在“X”平臺上宣布,,自己已經(jīng)啟動了“世界上最強大的 AI 集群”。這座AI集群從開始建設(shè)到完成組裝僅花了122天就完成了,,目前已經(jīng)上線運行了約3個月,。

根據(jù)ServeTheHome曝光的信息來看,龐大的Colossus  AI超級計算機集群采用的是超威電腦(Supermicro)的服務(wù)器,,其基于NVIDIA HGX H100方案,,每個服務(wù)器中擁有8個H100 GPU,封裝在 Supermicro 的 4U 通用 GPU 液冷系統(tǒng)內(nèi),,為每個 GPU 提供簡單的熱插拔液冷,。這些服務(wù)器裝載在機架內(nèi),每個機架可容納 8 臺服務(wù)器,,也就是說每個機架內(nèi)有 64 個 GPU,。1U 歧管夾在每個 HGX H100 之間,提供服務(wù)器所需的液體冷卻,。每個機架的底部是另一個 Supermicro 4U 單元,,這次配備了冗余泵系統(tǒng)和機架監(jiān)控系統(tǒng)。

12.jpg

△四組 xAI 的 HGX H100 服務(wù)器機架,,每組可容納八臺服務(wù)器,。(圖片來源:ServeTheHome)

13.jpg

△xAI Colossus GPU 服務(wù)器的后部訪問。每臺服務(wù)器有 9 根以太網(wǎng)電纜,,每臺服務(wù)器有 4 個電源,。電源和液體冷卻軟管也可見。(圖片來源:ServeTheHome)

這些機架以 8 個為一組配對,,每個陣列有 512 個 GPU,。每臺服務(wù)器都有四個冗余電源,GPU 機架的后部露出三相電源,、以太網(wǎng)交換機和一個提供所有液體冷卻的機架大小的歧管,。Colossus 集群中有超過 1500 個 GPU 機架,或近 200 個機架陣列,。據(jù)英偉達首席執(zhí)行官黃仁勛稱,,這 200 個陣列的 GPU 僅用了三周時間就完成了安裝。

由于 AI 超級集群不斷訓(xùn)練模型的高帶寬要求,,xAI 在其網(wǎng)絡(luò)互連性方面提供了超大的帶寬,。目前每個顯卡都有一個 400GbE 的專用 NIC(網(wǎng)絡(luò)接口控制器),每臺服務(wù)器還有一個額外的 400Gb NIC,。這意味著每臺 HGX H100 服務(wù)器都有每秒 3.6 TB 的以太網(wǎng)速率,。整個集群都在以太網(wǎng)上運行,而不是 InfiniBand 或其他在超級計算領(lǐng)域標配的連接,。

14.jpg

△仰望一大片的黃色以太網(wǎng)電纜,,將 xAI Colossus 集群連接在一起,。多層過寬的電纜線路嵌入天花板中。(圖片來源:ServeTheHome)

15.jpg

△xAI 的 Colossus CPU 計算服務(wù)器,,看起來與該站點中也廣泛使用的 Supermicro 存儲服務(wù)器完全相同,。(圖片來源:ServeTheHome)

當然,像 xAI 旗下Grok 3 聊天機器人這樣基于訓(xùn)練 AI 模型的超級計算機需要的不僅僅是 GPU 才能運行,。Colossus集群當中的存儲和 CPU 計算機服務(wù)器的詳細信息仍未曝光,,不過這些服務(wù)器也大多采用 Supermicro 機箱。一波又一波的 NVMe 轉(zhuǎn)發(fā) 1U 服務(wù)器內(nèi)部帶有某種 x86 平臺 CPU,,可容納存儲和 CPU 計算,,還具有后入式液體冷卻功能。

另外,,在該超級計算機集群的外面,,還可以看到一些大量捆綁的特斯拉 Megapack 電池(每個最多可容納 3.9 MWh)。該電池陣列的是為了應(yīng)對突發(fā)停電的臨時備用電源,,其可以在毫秒之間快速提供供電,,相比柴油發(fā)電機反應(yīng)要快得多,可以使得有足夠時間去啟動其他備用電源,。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。