英偉達(Nvidia) 超大規(guī)模和 HPC 業(yè)務副總裁兼總經(jīng)理 Ian Buck 近日在美國銀行證券 2024 年全球技術大會上表示,,客戶正在投資數(shù)十億美元購買新的英偉達硬件,,以跟上更新的 AI 大模型的需求,從而提高收入和生產(chǎn)力,。
Buck表示,,競相建設大型數(shù)據(jù)中心的公司將特別受益,并在數(shù)據(jù)中心四到五年的使用壽命內獲得豐厚的回報,。即“云提供商在購買 GPU 上花費的每一美元,,四年內(通過提供算力服務,GAAS)都能收回 5 美元,?!?/p>
“如果用于推理,則更有利可圖,,每花費 1 美元,,在同樣的時間段內就能產(chǎn)生 7 美元的營業(yè)額,并且這個數(shù)字還在增長,?!盉uck說道,。
英偉達創(chuàng)始人、總裁兼首席執(zhí)行官黃仁勛和執(zhí)行副總裁兼首席財務官Colette Kress此前也曾表達過同樣的觀點,。
他們此前曾表示,,借助CUDA算法創(chuàng)新,英偉達將H100的LLM推斷速度提升至原來的3倍,,這可以將Llama 3這類的模型的成本降低到原來的三分之一,。而H200在推理性能上較H100幾乎翻了一番,為生產(chǎn)部署帶來了巨大的價值,。例如,使用7000億參數(shù)的LLama 3,,單臺HGX H200服務器可以每秒輸出24000個Token,,同時支持超過2400名用戶。這意味著,,按照現(xiàn)有的定價來看,,托管Llama3的API供應商每花費1美元在英偉達HGX H200服務器上,未來四年內就可從Llama3 token計費中賺取7美元收入,。
圍繞 Llama,、Mistral 或 Gemma 的 AI 推理模型正在不斷發(fā)展,并由Token提供服務,。英偉達正在將開源 AI 模型打包到名為 Nvidia 推理微服務 (NIM) 的容器中,。
英偉達最新推出的Blackwell 針對推理進行了優(yōu)化。該 GPU 支持 FP4 和 FP6 數(shù)據(jù)類型,,在運行低強度 AI 工作負載時可進一步提高能效,。根據(jù)官方的數(shù)據(jù),與Hopper相比,,Blackwell 訓練速度比H100快4倍,,推斷速度快30倍,并且能夠實時運行萬億參數(shù)大語言模型生成式AI,??蛇M一步將成本和能耗降低到原來的25分之一。這似乎呼應了黃仁勛多次喊出的“買的越多,,省的越多”的口號,。但是不可忽視的是,英偉達GPU價格也在快速上漲,。
為 Rubin GPU做準備
很多云提供商提前兩年就已經(jīng)開始規(guī)劃新的數(shù)據(jù)中心,,并希望了解未來的AI GPU 架構會是什么樣子。
英偉達在6月初的Computex 2024展會上宣布,,Blackwell芯片現(xiàn)已開始投產(chǎn),,即將替代Hopper芯片。2025年將會推出Blackwell Ultra GPU芯片。英偉達還公布了下一代集成HBM4的名為“Rubin”的AI平臺,,該GPU將于2026年發(fā)布,,以替代Blackwell和Blackwell Ultra GPU。
“對我們來說,,做到這一點真的很重要——數(shù)據(jù)中心不是憑空而來的,,它們是大型建設項目。他們需要了解Blackwell 數(shù)據(jù)中心會是什么樣子,,它與Hopper數(shù)據(jù)中心有何不同,?”Buck說。
Blackwell 提供了一個轉向更密集的計算形式和使用液體冷卻等技術的機會,,因為空氣冷卻效率不高,。
英偉達已經(jīng)宣布每年都會推出一款新的 GPU的節(jié)奏,這有助于公司跟上 AI 發(fā)展的步伐,,進而幫助客戶規(guī)劃產(chǎn)品和 AI 戰(zhàn)略,。
Buck說:“英偉達已經(jīng)與那些最大的客戶針對Rubin GPU探討了一段時間——他們知道我們的目標和時間表?!?/p>
AI 的速度和能力與硬件直接相關,。在 GPU 上投入的資金越多,AI公司就能訓練出更大的模型,,從而帶來更多收入,。
微軟和谷歌將自己的未來寄托在人工智能上,并競相開發(fā)更強大的大型語言模型,。微軟嚴重依賴新的 GPU 來支撐其 GPT-4 后端,,而谷歌則依賴其 TPU 來運行其人工智能基礎設施。
Blackwell供不應求
英偉達目前正在生產(chǎn) Blackwell GPU,,樣品很快就會發(fā)布,。但客戶可以預料,首批 GPU(將于年底發(fā)貨)將供不應求,。
“每一項新技術的轉型都會帶來……供需方面的挑戰(zhàn),。我們在 Hopper 上就經(jīng)歷過這種情況,Blackwell 的產(chǎn)能提升也將面臨類似的供需限制……今年年底到明年,,”Buck 說道,。
Buck還表示,數(shù)據(jù)中心公司正在淘汰 CPU 基礎設施,,為更多 GPU 騰出空間,。Hopper GPU 可能會被保留,而基于舊 Ampere 和 Volta 架構的舊 GPU 則會被轉售,。
英偉達將保留多個級別的 GPU,,隨著 Blackwell 的不斷發(fā)展,,Hopper 將成為其主流 AI GPU。英偉達已經(jīng)進行了多項硬件和軟件改進,,以提高 Hopper 的性能,。
未來所有云提供商都將提供 Blackwell GPU 和服務器。
專家模型
Buck 表示,,GPT-4 模型大約有 1.8 萬億個參數(shù),,由于 AI 擴展尚未達到極限,參數(shù)數(shù)量還將繼續(xù)增長,。
“人類大腦的規(guī)模大概相當于 1000 億到 150 萬億個參數(shù),,具體數(shù)量取決于個人,取決于大腦中的神經(jīng)元和連接,。目前,,人工智能的參數(shù)規(guī)模約為 2 萬億……我們尚未進行推理?!盉uck說道。
未來將會有一個包含數(shù)萬億個參數(shù)的大型模型,,在此基礎上會構建更小,、更專業(yè)的模型。參數(shù)數(shù)量越多對英偉達越有利,,因為它有助于銷售更多 GPU,。
英偉達正在調整其 GPU 架構,從原來的基礎模型方法轉向混合專家模型,。專家混合涉及多個神經(jīng)網(wǎng)絡通過相互參考來驗證答案,。
Buck說:“1.8 萬億參數(shù)的 GPT 模型有 16 個不同的神經(jīng)網(wǎng)絡,它們都試圖回答各自層的部分問題,,然后商討,、會面并決定正確答案是什么?!?/p>
即將推出的 GB200 NVL72 機架式服務器配備 72 個 Blackwell GPU 和 36 個 Grace CPU,,專為混合專家模型而設計。多個 GPU 和 CPU 相互連接,,從而支持混合專家模型,。
“這些家伙都可以相互通信,而不會在 I/O 上受阻,。這種演變在模型架構中不斷發(fā)生,,”Buck 說。
鎖定客戶的技巧
英偉達首席執(zhí)行官黃仁勛本月在 HPE 的 Discover 大會上發(fā)表了一些激烈的言論,,呼吁人們購買更多該公司的硬件和軟件,。
英偉達和 HPE 宣布推出一系列新產(chǎn)品,,其名稱簡單明了,為“Nvidia AI Computing by HPE”,。
“我們設計了小號,、中號、大號和特大號,,你可以選擇,。而且正如你所知,你買得越多,,省得越多,,”黃在 Discover 的舞臺上說道。
黃仁勛今年早些時候還發(fā)表了另一條備受爭議的言論,,當時他說未來的程序員不需要學習如何編寫代碼,。但在 Nvidia GPU 上加載 AI 模型需要了解命令行和腳本,以創(chuàng)建和運行 AI 環(huán)境,。
英偉達的專有言論和在人工智能市場的完全主導地位使其成為反壟斷調查的目標,。
當 Buck 試圖淡化人們對 CUDA 的擔憂時,他必須小心謹慎,,他表示“護城河是一個復雜的詞”,。
英偉達兩位高管都表示,CUDA 是其 GPU 的必備軟件——要最大限度地發(fā)揮 GPU 的性能,,就需要 CUDA,。開源軟件可以與 Nvidia GPU 配合使用,但無法提供 CUDA 庫和運行時的強大功能,。
向下兼容性和連續(xù)性是英偉達的獨特優(yōu)勢,,英偉達對AI 模型和軟件的支持可以延續(xù)到下一代 GPU。但對于英特爾的 Gaudi 等 ASIC 則不然,,它們必須針對每個新模型重新進行調整,。