12月4消息,,亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)于當(dāng)?shù)貢r(shí)間周二在“re:Invent”大會(huì)上發(fā)布了其下一代人工智能加速器 Trainium3,,該加速器將于2025年年底上市,性能將比上一代產(chǎn)品高 4 倍,。
不過,,在 re:Invent 大會(huì)上,AWS官方卻并未公布關(guān)于該芯片的具體細(xì)節(jié),,但此前AWS 安納普爾納實(shí)驗(yàn)室團(tuán)隊(duì)的產(chǎn)品與客戶工程總監(jiān) Gadi Hutt 在接受The Register采訪時(shí)表示,,預(yù)計(jì) Trainium3 將成為第一款基于 3nm 工藝節(jié)點(diǎn)構(gòu)建的專用機(jī)器學(xué)習(xí)加速器,,與 Trainium2 相比,其效率將提高 40%,。
在性能方面,,亞馬遜對(duì)Trainium3 的實(shí)際性能數(shù)據(jù)也含糊其辭:Trainium3 基于完整的“UltraServer”配置可以帶來 4 倍性能提升,而該配置仍在開發(fā)中,。
資料顯示,Trainium2 UltraServer 總共配備了 64 個(gè)加速器,,可提供 83.2 petaFLOPS 的密集 FP8 性能,。因此,理論上,,Trainium3 UltraServer 應(yīng)該可以提供 332.8 petaFLOPS 的計(jì)算能力,,盡管目前尚不清楚其精度是多少。
考慮到稀疏性,,假設(shè) Trainium3 也支持與其處理器相同的 4 倍乘數(shù),,亞馬遜的下一代 UltraServer 可能會(huì)提供超過 1.3 exaFLOPS 的 AI 計(jì)算能力。
這些性能聲明指的是峰值計(jì)算性能(即 FLOPS),,而不是一些模糊的 AI 基準(zhǔn),。這是一個(gè)重要的細(xì)節(jié),因?yàn)楦鶕?jù) AI 工作負(fù)載,,性能取決于許多因素,,而不僅僅是 FLOPS。例如,,內(nèi)存帶寬的增加可以大大提高大型語(yǔ)言模型 (LLM) 推理性能,,之前在 Nvidia 帶寬增強(qiáng)的 H200 芯片上就看到過這種情況。
盡管亞馬遜愿意透露性能和效率指標(biāo),,但尚未透露該芯片內(nèi)存負(fù)載的詳細(xì)信息,。
Trainium2 蓄勢(shì)待發(fā)
在亞馬遜官方公布有關(guān) Trainium3 的更多細(xì)節(jié)之前,亞馬遜正在將其 Trainium2 計(jì)算服務(wù)推向大眾市場(chǎng),。
Trainium2 在去年的 re:Invent 大會(huì)上亮相,,它既是訓(xùn)練芯片又是推理芯片,具有 1.3 petaFLOPS 的密集 FP8 計(jì)算能力和 96 GB 的高帶寬內(nèi)存,,每個(gè)內(nèi)存可提供 2.9 TBps 的帶寬,。
作為參考,單個(gè)擁有H100擁有略低于 2 petaFLOPS 的密集 FP8 性能,、80GB 的 HBM 和 3.35 TBps 的帶寬,。
該芯片本身由一對(duì) 5nm 計(jì)算芯片組成,采用臺(tái)積電的晶圓基板上芯片 (CoWoS) 封裝技術(shù)與四個(gè) 24GB HBM 堆棧集成,。
與谷歌的張量處理單元 (TPU) 類似,,這些加速器被捆綁到機(jī)架級(jí)集群中。64 個(gè) Trainium2 部件分布在兩個(gè)互連的機(jī)架上。
正如我們前面提到的,,這種 Trn2 UltraServer 配置能夠產(chǎn)生 83.2 petaFLOPS 的密集 FP8 性能,,或者在啟用 4x 稀疏模式的情況下產(chǎn)生 332.8 petaFLOPS。
如果您需要更多的計(jì)算能力,,亞馬遜還提供配備 16 個(gè)加速器和約 20.8 petaFLOPS 密集計(jì)算能力的Trainium2 實(shí)例,。
據(jù)亞馬遜稱,這些實(shí)例比 EC2 上當(dāng)前一代基于 GPU 的實(shí)例(特別是基于英偉達(dá)H200 的 P5e 和 P5en 實(shí)例)的性價(jià)比高出 30% 到 40%,。
對(duì)于那些使用芯片訓(xùn)練模型的人來說,,Trainium2 可以擴(kuò)展到擁有 100,000 個(gè)或更多芯片的更大集群。這正是 AWS 和模型構(gòu)建者 Anthropic 在 Rainier 項(xiàng)目下計(jì)劃做的事情,,該項(xiàng)目將涉及將“數(shù)十萬”個(gè) Trainium2 芯片放入集群中進(jìn)行 AI 訓(xùn)練,。該超級(jí)計(jì)算系統(tǒng)將于 2025 年全面啟動(dòng),據(jù)說能夠產(chǎn)生“用于訓(xùn)練 [Anthropic] 最新一代 AI 模型的 5 倍 exaFLOPS 數(shù)量”,。
Trainium2 在實(shí)例現(xiàn)已在 AWS 美國(guó)東部(俄亥俄州)推出,,不久的將來還將在其他地區(qū)推出。同時(shí),,更大的Trainium2 UltraServer 配置目前已推出預(yù)覽版,。