美東時(shí)間1月13日周一,,據(jù)《The Information》報(bào)道,,英偉達(dá)最新一代人工智能芯片Blackwell在部署至數(shù)據(jù)中心時(shí)遇到了技術(shù)問(wèn)題,主要包括服務(wù)器機(jī)架過(guò)熱和芯片連接異常。
這些問(wèn)題對(duì)數(shù)據(jù)中心的部署進(jìn)程造成阻礙,,英偉達(dá)多家客戶(hù)(包括微軟,、亞馬遜旗下AWS,、谷歌,、Meta)最近砍掉了部分Blackwell GB200機(jī)架的訂單。
因延遲交付,,微軟原本計(jì)劃安裝大量GB200的鳳凰城數(shù)據(jù)中心現(xiàn)在已經(jīng)裝滿(mǎn)了H200芯片,。有消息人士透露,如果英偉達(dá)無(wú)法解決這些問(wèn)題,,其性能可能會(huì)低于公司承諾的水平,。
消息公布后,英偉達(dá)美股早盤(pán)一度跌超4.7%,。
主要客戶(hù)削減訂單,尋求替代方案
Blackwell芯片以其卓越性能和高能效廣受期待。與上一代產(chǎn)品Hopper相比,,Blackwell的能源效率提高了四倍,,吸引了微軟、亞馬遜,、谷歌和Meta等科技巨頭,。每家公司為此下達(dá)了價(jià)值逾100億美元的訂單。
然而,,將多個(gè)高功耗芯片集成到一個(gè)服務(wù)器機(jī)架中比預(yù)期更具挑戰(zhàn),。每個(gè)Blackwell機(jī)架比家用冰箱還高,重量接近一輛本田思域汽車(chē),。由于計(jì)算密度極高,,機(jī)架必須采用水冷系統(tǒng),而非傳統(tǒng)的風(fēng)冷系統(tǒng),。對(duì)于多數(shù)AI開(kāi)發(fā)商和數(shù)據(jù)中心運(yùn)營(yíng)商而言,,部署這種特殊機(jī)架是全新且復(fù)雜的任務(wù)。此外,,并非所有數(shù)據(jù)中心都能滿(mǎn)足這些機(jī)架的環(huán)境需求,,客戶(hù)必須重新規(guī)劃部署方案。
因過(guò)熱和連接問(wèn)題,,部分客戶(hù)削減了Blackwell GB200機(jī)架的訂單,。例如,有客戶(hù)選擇等待可能在今年下半年推出的改進(jìn)版本,,另一些則計(jì)劃采購(gòu)英偉達(dá)的舊款AI芯片作為替代方案,。雖然英偉達(dá)推薦整機(jī)架方案,但部分客戶(hù)可能改為單獨(dú)購(gòu)買(mǎi)Blackwell芯片以便自行組裝,。
盡管面臨挑戰(zhàn),,英偉達(dá)仍有機(jī)會(huì)挽回局面。如果能夠及時(shí)解決這些技術(shù)問(wèn)題,,客戶(hù)或許會(huì)重新增加訂單,。此外,盡管機(jī)架存在問(wèn)題,,Blackwell芯片的性能仍然優(yōu)于上一代產(chǎn)品,,英偉達(dá)可能會(huì)為問(wèn)題機(jī)架找到其他買(mǎi)家。
英偉達(dá)去年11月曾預(yù)測(cè),,新一代AI芯片Blackwell將在今年第一季度為公司帶來(lái)數(shù)十億美元的收入,,并助推其全年數(shù)據(jù)中心芯片收入從475億美元增長(zhǎng)至1500億美元。Blackwell芯片的高能效本是吸引云服務(wù)提供商的關(guān)鍵因素,,這些供應(yīng)商希望在固定能源條件下實(shí)現(xiàn)更高的計(jì)算效率,。
芯片延遲影響數(shù)據(jù)中心部署計(jì)劃
據(jù)知情人士透露,,作為OpenAI的服務(wù)器提供商,微軟原計(jì)劃在其鳳凰城的一個(gè)設(shè)施中安裝至少包含5萬(wàn)枚Blackwell芯片的GB200機(jī)架,。然而,,由于Blackwell芯片從去年開(kāi)始延遲交付,OpenAI要求微軟盡早為其提供上一代英偉達(dá)H200芯片,。這一變化導(dǎo)致原本計(jì)劃安裝大量GB200的鳳凰城數(shù)據(jù)中心現(xiàn)在已經(jīng)裝滿(mǎn)了H200芯片,。
據(jù)知情人士透露,微軟現(xiàn)在計(jì)劃在今年3月在鳳凰城的一個(gè)設(shè)施中安裝包含12000枚Blackwell芯片的GB200機(jī)架,,這一數(shù)量約為最初計(jì)劃的四分之一,。另一位與微軟合作的人士表示,該公司還計(jì)劃在今年晚些時(shí)候GB300 Blackwell機(jī)架上市時(shí)進(jìn)行采購(gòu),。
英偉達(dá)原本計(jì)劃在去年年底開(kāi)始向客戶(hù)交付Blackwell機(jī)架,,但由于芯片設(shè)計(jì)缺陷導(dǎo)致初期延遲了三個(gè)月。盡管英偉達(dá)已經(jīng)修復(fù)了這一問(wèn)題,,但到11月份時(shí),,客戶(hù)開(kāi)始擔(dān)心機(jī)架的過(guò)熱問(wèn)題。為此,,英偉達(dá)多次要求供應(yīng)商更改設(shè)計(jì),。
然而,問(wèn)題并未得到完全解決,。據(jù)參與機(jī)架測(cè)試的三位人士透露,,客戶(hù)還發(fā)現(xiàn)芯片之間數(shù)據(jù)傳輸(即網(wǎng)絡(luò))存在不一致的情況。這些問(wèn)題可能導(dǎo)致Blackwell機(jī)架的設(shè)置時(shí)間比預(yù)期更長(zhǎng),,如果英偉達(dá)無(wú)法解決這些問(wèn)題,,其性能可能會(huì)低于公司承諾的水平。