8月7日消息,隨著人工智能(AI)的繁榮,,英偉達(dá)(NVIDIA)的收入飆升,,以至于它一度成為世界上最有價值的公司,。這種增長主要是由于AI需求爆發(fā)下,,市場對其數(shù)據(jù)中心 GPU 的需求推動的,,這些 GPU 用于訓(xùn)練和運(yùn)行不斷增長的更好,、更智能,、更大的大語言模型。但是,,盡管投資者愿意相信英偉達(dá)CEO黃仁勛的GPU帝國將繼續(xù)增長,,一個季度又一個季度翻一番,但沒有什么是永恒的,。如果英偉達(dá)的未來只圍繞銷售GPU而展開,,那么這可能是一件大事。但正如黃仁勛經(jīng)常提醒人們的那樣,,英偉達(dá)既是一家硬件企業(yè),,也是一家軟件企業(yè)。
開拓新市場
從一開始,,英偉達(dá)就認(rèn)識到軟件在推動 GPU 采用方面的價值,。在上周SIGGRAPH活動上與記者勞倫·古德(Lauren Goode)的爐邊談話中,黃仁勛強(qiáng)也調(diào)了這一點(diǎn),。
他解釋說:“每次我們推出特定領(lǐng)域的庫時,它都會將加速計算暴露給新市場,?!斑@不僅僅是構(gòu)建加速器,你還必須構(gòu)建整個堆棧,?!?/p>
2007 年,英偉達(dá)的計算統(tǒng)一設(shè)備架構(gòu)CUDA的第一個版本發(fā)布,,它提供了一個 API 接口,,用于跨 GPU 并行處理非圖形工作負(fù)載。雖然這仍然需要開發(fā)人員和研究人員重構(gòu)代碼,,但對通用處理器的改進(jìn)是不容忽視的,。
對于 HPC 社區(qū)的人來說尤其如此——這是英偉達(dá)在其舊的游戲和專業(yè)圖形領(lǐng)域之外尋求的首批市場之一。2012 年末,,英偉達(dá)的軟件投資幫助橡樹嶺國家實(shí)驗(yàn)室的 Titan 超級計算機(jī)位居 Top500 榜首,。
在首次發(fā)布 17 年后,CUDA 只是為特定市場量身定制的不斷增長的計算框架之一——從深度學(xué)習(xí)到計算光刻和量子計算仿真,。
這些框架幫助英偉達(dá)為其加速器創(chuàng)造了市場,,而這些市場以前幾乎不存在,。
超越賦能
軟件是英偉達(dá)不那么秘密的武器,但直到最近,,這種“武器”還采取了新賦能的形式,。在過去的兩年中,我們看到加速器冠軍的軟件戰(zhàn)略以一種有意義的方式采用了訂閱定價模式,。
2022 年初,,在 OpenAI 的 ChatGPT 掀起 AI 淘金熱的幾個月前,英偉達(dá)首席財務(wù)官 Collete Kress 詳細(xì)介紹了這家 GPU 巨頭的訂閱推動路線圖——她認(rèn)為,,這最終將推動一萬億美元的收入,。
當(dāng)時,Kress 預(yù)測,,其中 1500 億美元的機(jī)會將由英偉達(dá)的 AI Enterprise 軟件套件推動,。即使現(xiàn)在它已經(jīng)公布了 260 億美元的季度業(yè)績,該業(yè)務(wù)仍遠(yuǎn)低于這一萬億美元的目標(biāo)——但我們開始更好地了解它的增長方式,。
從軟件的角度來看,,關(guān)于人工智能支持的大部分工作已經(jīng)完成。英偉達(dá)投入了大量資源來開發(fā) cuDNN,、TensorRT LLM 和 Triton 推理服務(wù)等工具,,以便在運(yùn)行 AI 模型時充分利用其硬件。
然而,,這些只是一個拼圖的一部分,,必須仔細(xì)組裝和調(diào)整才能提取這種性能,而且每個模型的調(diào)整都會有所不同,。它需要對模型,、軟件和底層硬件有一定程度的熟悉,而企業(yè)不太可能具備這些熟悉程度,。
構(gòu)建 AI 簡單按鈕
在去年春季的GTC活動中,,英偉達(dá)展示了一項(xiàng)新產(chǎn)品,旨在降低大規(guī)模采用和部署生成式AI的門檻,。該技術(shù)稱為 Nvidia Inference 微服務(wù),,簡稱 NIM,本質(zhì)上由容器化模型和工具組成,,這些模型和工具附帶了運(yùn)行它們所需的一切,,并已預(yù)先配置。
NIM 容器幾乎可以部署在任何支持 Nvidia GPU 的運(yùn)行時中,。這聽起來可能并不那么令人興奮——但這就是重點(diǎn),。容器編排并不是一個容易解決的問題——只需詢問 Kubernetes 開發(fā)人員即可。那么,當(dāng)您可以利用客戶已經(jīng)投資的現(xiàn)有工具和服務(wù)時,,為什么要重新發(fā)明輪子呢,?
NIM 的真正價值似乎來自 Nvidia 工程師針對特定模型或用例(如檢索增強(qiáng)生成 (RAG))調(diào)整 TensorRT LLM 或 Triton 推理服務(wù)器等內(nèi)容。如果你不熟悉,,你可以在這里找到我們關(guān)于RAG的實(shí)踐指南,,但要點(diǎn)是,Nvidia不僅在其硬件方面,,而且在其軟件方面都在扮演系統(tǒng)集成商的角色,。
NIM 不僅僅是巧妙的包裝。通過致力于構(gòu)建一個通用的 API,,用于模型和工具應(yīng)如何相互通信,,Nvidia 可以為客戶提供旨在解決特定用例的模板。
英偉達(dá)的定價階梯
降低采用和部署 AI 推理的門檻對軟件許可和硬件銷售都有好處,。在軟件方面,,在生產(chǎn)環(huán)境中部署 NIM 所需的 AI Enterprise 許可證將使您每年每個 GPU 花費(fèi) 4,500 美元,或每小時每個 GPU 1 美元,。
因此,,要使用 NIM 部署 Meta 的 Llama 3.1 405B 模型,您不僅需要租用或購買配備 8 臺 H100 或 H200 的系統(tǒng)——這是運(yùn)行模型所需的最低限度,,而無需采用更激進(jìn)的量化水平——但您還需要支付 36,000 美元/年或 8 美元/小時的許可費(fèi),。
假設(shè)使用壽命為六年,則每個系統(tǒng)的許可證收入在 180,000 美元到 420,480 美元之間,,具體取決于您是預(yù)先付款還是按小時付款,。實(shí)際上,希望部署人工智能的企業(yè)將需要多個系統(tǒng)來實(shí)現(xiàn)冗余和規(guī)模,。
這種價格差異可能會使承諾獲得年度許可證似乎是一個顯而易見的選擇,。但請記住,我們談?wù)摰氖俏⒎?wù),,如果實(shí)施得當(dāng),應(yīng)該能夠根據(jù)需求擴(kuò)大或縮小規(guī)模,。
但是,,假設(shè) Llama 3.1 405B 大模型對您的需求來說有點(diǎn)過頭了,運(yùn)行更小參數(shù)規(guī)模的大模型——采用成本低得多的NVIDIA L40S 甚至 L4S可能就足夠了,。英偉達(dá)的定價結(jié)構(gòu)的設(shè)置方式是推動客戶轉(zhuǎn)向更強(qiáng)大,、能力更強(qiáng)的加速器。
無論您使用的是 8 臺 L40S 還是 8 臺 H200,,AI Enterprise 許可證的費(fèi)用都是一樣的,。這就產(chǎn)生了一種情況,即購買或租用較少的高端 GPU 并在更大的批量大小或隊(duì)列下運(yùn)行模型可能更經(jīng)濟(jì),因?yàn)樵诓渴鸬恼麄€生命周期內(nèi),,您的許可費(fèi)用會更低,。
隨著單個 A100 和 H100 實(shí)例變得越來越普遍(例如,Oracle Cloud Infrastructure 上周宣布推出),,企業(yè)在評估此類部署的總成本時可能需要考慮這一點(diǎn),。
稍微回顧一下,如果 NIM 幫助英偉達(dá)在預(yù)計 2024 年出貨的 200 萬個 Hopper GPU 中的每一個都附加一個 AI Enterprise,,那么它的年度訂閱收入將再增加 9 至 175 億美元,。實(shí)際上,這不會發(fā)生——但即使它能實(shí)現(xiàn)其中的一小部分,,仍然可以帶來數(shù)十億美元的年收入,。
這并不是說NIM沒有挑戰(zhàn)。與 AI 訓(xùn)練相比,,推理并不是特別挑剔,。有幾個模型運(yùn)行器支持跨英偉達(dá)、AMD 甚至通用 CPU 進(jìn)行推理,。相比之下,,NIM 只能在 Nvidia 硬件上運(yùn)行——這對于希望利用 Kubernetes 等容器編排系統(tǒng)大規(guī)模部署和提供其模型的客戶來說可能會受到限制。
雖然英偉達(dá)仍然控制著人工智能基礎(chǔ)設(shè)施市場的大部分份額,,但這可能不會是一個大問題,,但對于擔(dān)心供應(yīng)商鎖定的客戶來說,這無疑是一個很大的危險信號,。
它不僅可能引起股東的注意,,還可能引起司法部的注意。據(jù)說美國司法部正在對這家GPU巨頭提起反壟斷訴訟,。
也就是說,,如果您只是想使模型更易于在各種云和本地基礎(chǔ)設(shè)施中部署,那么實(shí)際上沒有什么可以阻止任何人創(chuàng)建自己的 NIM 等效物,,并根據(jù)他們喜歡的硬件或軟件進(jìn)行調(diào)整,。事實(shí)上,令人驚訝的是,,更多的開發(fā)人員還沒有做過這樣的事情,。我們可以很容易地想象AMD和Intel將類似的服務(wù)推向市場 - 甚至可能通過免費(fèi)提供它們來削弱英偉達(dá)。
歸根結(jié)底,,英偉達(dá) NIM 的成功可能取決于它們的調(diào)優(yōu)效率或性能如何提高,,以及它們在多大程度上更容易拼接在一起。