在今天舉辦的Google I / O 2021上,Google正式宣布了其第四代張量處理單元(TPU),,該公司聲稱可以在接近記錄的時(shí)間內(nèi)完成AI和機(jī)器學(xué)習(xí)訓(xùn)練工作量,。谷歌表示,在對象檢測,,圖像分類,,自然語言處理,機(jī)器翻譯和推薦基準(zhǔn)等工作負(fù)載方面,,TPUv4集群可以超越上一代TPU,。
據(jù)介紹,,TPUv4芯片提供的矩陣乘法TFLOP是第三代TPU(TPUv3)的兩倍以上,其中一個(gè)TFLOP相當(dāng)于每秒1萬億個(gè)浮點(diǎn)運(yùn)算,。矩陣通常用于表示輸入到AI模型的數(shù)據(jù),。)。
它還提供了“顯著”的內(nèi)存帶寬提升,,同時(shí)受益于互連技術(shù)的未指定進(jìn)步,。谷歌表示,總體而言,,在相同的64芯片規(guī)模下,,不考慮軟件帶來的改善,TPUv4的性能平均要比TPUv3提升2.7倍,。
Google的TPU是專用于加速AI的專用集成電路(ASIC),。它們是液冷的,旨在插入服務(wù)器機(jī)架中,。交付多達(dá)100 petaflops的計(jì)算能力,;并增強(qiáng)Google產(chǎn)品的功能,例如Google搜索,,Google相冊,,Google翻譯,Google助手,,Gmail和Google Cloud AI API,。谷歌 在其年度I / O開發(fā)人員大會(huì)上宣布了2018年的 第三代產(chǎn)品,今天早晨揭開了繼任者的序幕,,后者處于研究階段,。
領(lǐng)先的表現(xiàn)
根據(jù)Google的說法,TPUv4集群(即“ pod”)共有4,096個(gè)芯片,,互連的帶寬是大多數(shù)其他網(wǎng)絡(luò)技術(shù)的10倍,。這使TPUv4 Pod可以提供超過exaflop的計(jì)算能力,這相當(dāng)于大約1000萬臺平均性能達(dá)到峰值的筆記本電腦處理器,。
Google首席執(zhí)行官Sundar Pichai在主題演講中說:“這對我們來說是一個(gè)歷史性的里程碑——以前要獲得exaflop的功能,,您需要制造定制的超級計(jì)算機(jī)?!?“但是我們今天已經(jīng)部署了許多這樣的設(shè)備,,并且很快將在我們的數(shù)據(jù)中心中安裝數(shù)十個(gè)TPUv4四個(gè)Pod,其中許多將以90%或接近90%的無碳能源運(yùn)行,?!?/p>
今年的MLPerf結(jié)果表明,谷歌的第四代TPU不容小覷,。在涉及使用ImageNet數(shù)據(jù)集對算法(ResNet-50 v1.5)進(jìn)行至少75.90%的準(zhǔn)確度訓(xùn)練的圖像分類任務(wù)中,,谷歌全新TPU在1.82分鐘內(nèi)完成了256個(gè),。這幾乎與768個(gè)Nvidia A100圖形卡,192個(gè)AMD Epyc 7742 CPU內(nèi)核(1.06分鐘)以及512個(gè)華為AI優(yōu)化的Ascend910芯片與128個(gè)Intel Xeon Platinum 8168內(nèi)核(1.56分鐘)組合在一起的速度一樣快,。
當(dāng)負(fù)責(zé)在大型維基百科語料庫上訓(xùn)練BERT模型時(shí),,第四代TPU的得分也 很高。使用256個(gè)第四代TPU進(jìn)行培訓(xùn)需要1.82分鐘,,僅比使用4,096個(gè)第三代TPU進(jìn)行培訓(xùn)所需的0.39分鐘稍慢,。同時(shí),使用Nvidia硬件要達(dá)到0.81分鐘的培訓(xùn)時(shí)間,,需要2,048張A100卡和512個(gè)AMD Epyc 7742 CPU內(nèi)核,。
谷歌表示,從今年晚些時(shí)候開始,,云客戶將可以使用TPUv4 pod,。