7月23日消息,特斯拉,、“X”,、xAI CEO 埃隆·馬斯克 (Elon Musk)近日在“X”平臺(tái)上宣布,自己已經(jīng)啟動(dòng)了“世界上最強(qiáng)大的 AI 集群”,,以在今年12 月之前創(chuàng)建“世界上最強(qiáng)大的AI”——該系統(tǒng)在單個(gè)結(jié)構(gòu)上將集成10萬個(gè)英偉達(dá)(Nvidia)H100 GPU,。
馬斯克表示,當(dāng)?shù)貢r(shí)間凌晨4:20左右開始,,在xAI團(tuán)隊(duì),、X團(tuán)隊(duì)、Nvidia和支持公司的努力下,,其孟菲斯超級(jí)計(jì)算工廠“Supercluster”開始正常運(yùn)行——它在一個(gè)RDMA結(jié)構(gòu)上有10萬個(gè)液冷H100,,是世界上最強(qiáng)大的人工智能訓(xùn)練集群!
今年 5 月,,馬斯克曾表示在 2025 年秋季之前開設(shè)超級(jí)計(jì)算工廠,,當(dāng)時(shí),,馬斯克匆匆忙忙地開始了Supercluster的工作,需要購買英偉達(dá)“Hopper”H100 GPU,。這似乎表明,,當(dāng)時(shí)這位科技大亨沒有耐心等待 H200 芯片推出,更不用說即將推出的基于 Blackwell 的 B100 和 B200 GPU,。盡管預(yù)計(jì)較新的 Nvidia Blackwell 數(shù)據(jù)中心 GPU 將在 2024 年底之前發(fā)貨,。
那么,根據(jù)最新的消息來看,,原本計(jì)劃在2025年秋季開業(yè)的超級(jí)計(jì)算工廠,,現(xiàn)在有望提前近一年的時(shí)間實(shí)現(xiàn)了。但目前下結(jié)論還為時(shí)尚早,。但今年早些時(shí)候,,路透社和The Information交談的消息人士似乎更有可能在項(xiàng)目時(shí)間上說錯(cuò)了時(shí)間節(jié)點(diǎn)。此外,,隨著 xAI Supercluster的啟動(dòng)和運(yùn)行,,關(guān)于為什么 xAI 沒有等待更強(qiáng)大或下一代 英偉達(dá)GPU 的問題也得到了解答。
Supermicro 為 xAI 提供了大部分硬件,,該公司的首席執(zhí)行官 Charles Liang 也對(duì)馬斯克的帖子發(fā)表了評(píng)論稱,,“與馬斯克的孟菲斯團(tuán)隊(duì)合作真是太棒了!為了實(shí)現(xiàn)目標(biāo),,我們的執(zhí)行必須盡可能完美,、盡可能快、盡可能高效,、盡可能環(huán)?!罅康钠D苦工作?!?/p>
在隨后的推文中,,馬斯克解釋說,新的Supercluster”將“從各個(gè)方面訓(xùn)練世界上最強(qiáng)大的人工智能”,。從之前的意向聲明來看,,xAI 的 100,000 個(gè) H100 GPU 安裝功能現(xiàn)在將針對(duì) Grok 3 模型進(jìn)行訓(xùn)練,。馬斯克表示,,改進(jìn)后的LLM應(yīng)該在“今年12月之前”完成訓(xùn)練階段。
從規(guī)模上看,,新的xAI的Supercluster在GPU算力上將會(huì)超越目前最強(qiáng)的超級(jí)計(jì)算機(jī),,比如Frontier(37,888個(gè)AMD GPU),Aurora(60,000個(gè)Intel GPU)和Microsoft Eagle(14,400個(gè)Nvidia H100 GPU),。