亞馬遜AWS發(fā)布新一代AI芯片Trainium3-AET-電子技術(shù)應(yīng)用

亞馬遜AWS發(fā)布新一代AI芯片Trainium3

基于3nm制程，性能提升4倍，能效提升40%

日期： 2024-12-05

來源：芯智訊

關(guān)鍵詞： 亞馬遜 Trainium3 AI芯片 3nm

12月4消息，亞馬遜網(wǎng)絡(luò)服務(wù)（AWS）于當(dāng)?shù)貢r間周二在“re:Invent”大會上發(fā)布了其下一代人工智能加速器 Trainium3，該加速器將于2025年年底上市，性能將比上一代產(chǎn)品高 4 倍。

不過，在 re:Invent 大會上，AWS官方卻并未公布關(guān)于該芯片的具體細(xì)節(jié)，但此前AWS 安納普爾納實驗室團(tuán)隊的產(chǎn)品與客戶工程總監(jiān) Gadi Hutt 在接受The Register采訪時表示，預(yù)計 Trainium3 將成為第一款基于 3nm 工藝節(jié)點構(gòu)建的專用機器學(xué)習(xí)加速器，與 Trainium2 相比，其效率將提高 40%。

在性能方面，亞馬遜對Trainium3 的實際性能數(shù)據(jù)也含糊其辭：Trainium3 基于完整的“UltraServer”配置可以帶來 4 倍性能提升，而該配置仍在開發(fā)中。

資料顯示，Trainium2 UltraServer 總共配備了 64 個加速器，可提供 83.2 petaFLOPS 的密集 FP8 性能。因此，理論上，Trainium3 UltraServer 應(yīng)該可以提供 332.8 petaFLOPS 的計算能力，盡管目前尚不清楚其精度是多少。

考慮到稀疏性，假設(shè) Trainium3 也支持與其處理器相同的 4 倍乘數(shù)，亞馬遜的下一代 UltraServer 可能會提供超過 1.3 exaFLOPS 的 AI 計算能力。

這些性能聲明指的是峰值計算性能（即 FLOPS），而不是一些模糊的 AI 基準(zhǔn)。這是一個重要的細(xì)節(jié)，因為根據(jù) AI 工作負(fù)載，性能取決于許多因素，而不僅僅是 FLOPS。例如，內(nèi)存帶寬的增加可以大大提高大型語言模型 (LLM) 推理性能，之前在 Nvidia 帶寬增強的 H200 芯片上就看到過這種情況。

盡管亞馬遜愿意透露性能和效率指標(biāo)，但尚未透露該芯片內(nèi)存負(fù)載的詳細(xì)信息。

Trainium2 蓄勢待發(fā)

在亞馬遜官方公布有關(guān) Trainium3 的更多細(xì)節(jié)之前，亞馬遜正在將其 Trainium2 計算服務(wù)推向大眾市場。

Trainium2 在去年的 re:Invent 大會上亮相，它既是訓(xùn)練芯片又是推理芯片，具有 1.3 petaFLOPS 的密集 FP8 計算能力和 96 GB 的高帶寬內(nèi)存，每個內(nèi)存可提供 2.9 TBps 的帶寬。

作為參考，單個擁有H100擁有略低于 2 petaFLOPS 的密集 FP8 性能、80GB 的 HBM 和 3.35 TBps 的帶寬。

該芯片本身由一對 5nm 計算芯片組成，采用臺積電的晶圓基板上芯片 (CoWoS) 封裝技術(shù)與四個 24GB HBM 堆棧集成。

與谷歌的張量處理單元 (TPU) 類似，這些加速器被捆綁到機架級集群中。64 個 Trainium2 部件分布在兩個互連的機架上。

正如我們前面提到的，這種 Trn2 UltraServer 配置能夠產(chǎn)生 83.2 petaFLOPS 的密集 FP8 性能，或者在啟用 4x 稀疏模式的情況下產(chǎn)生 332.8 petaFLOPS。

如果您需要更多的計算能力，亞馬遜還提供配備 16 個加速器和約 20.8 petaFLOPS 密集計算能力的Trainium2 實例。

據(jù)亞馬遜稱，這些實例比 EC2 上當(dāng)前一代基于 GPU 的實例（特別是基于英偉達(dá)H200 的 P5e 和 P5en 實例）的性價比高出 30% 到 40%。

對于那些使用芯片訓(xùn)練模型的人來說，Trainium2 可以擴展到擁有 100,000 個或更多芯片的更大集群。這正是 AWS 和模型構(gòu)建者 Anthropic 在 Rainier 項目下計劃做的事情，該項目將涉及將“數(shù)十萬”個 Trainium2 芯片放入集群中進(jìn)行 AI 訓(xùn)練。該超級計算系統(tǒng)將于 2025 年全面啟動，據(jù)說能夠產(chǎn)生“用于訓(xùn)練 [Anthropic] 最新一代 AI 模型的 5 倍 exaFLOPS 數(shù)量”。

Trainium2 在實例現(xiàn)已在 AWS 美國東部（俄亥俄州）推出，不久的將來還將在其他地區(qū)推出。同時，更大的Trainium2 UltraServer 配置目前已推出預(yù)覽版。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

亞馬遜AWS發(fā)布新一代AI芯片Trainium3

日期： 2024-12-05

來源：芯智訊

相關(guān)內(nèi)容