隨著生成式 AI 技術(shù)加速演進,,算力需求急劇增長,,將促使2.8萬億元 AI 加速芯片市場迎來一場新競賽,。
近日,,芯片巨頭英特爾(Intel)發(fā)布基于Intel 7(10nm)制程的全新第五代英特爾至強可擴展CPU(中央處理器)芯片Emerald Rapids,,平均性能比上代提升21%,,可微調(diào)最高200億參數(shù) AI 大模型,,主要用于云數(shù)據(jù)中心和 AI 推理等場景,。
除了英特爾,,近期英偉達、AMD也在發(fā)布了多款數(shù)據(jù)中心GPU(圖形處理器),、CPU產(chǎn)品,,以應(yīng)對新一輪 AI 熱潮下算力暴增需求。其中,,英偉達于11月發(fā)布H200 GPU芯片,,大模型推理速度比H100提高近2倍;AMD則發(fā)布Instinct MI300X AI芯片,,稱MI300X在多項測試中均優(yōu)于英偉達H100,,運行8卡時AI性能提升60%。
然而近期,,英偉達團隊炮轟AMD,,稱其沒有用開源TensorRT-LLM大模型優(yōu)化軟件,如果用的話芯片速度會提高2倍多,,但H100仍比MI300X快47%,;對此,AMD“回懟”稱,,即便用了英偉達軟件,,MI300X也比H100快30%;英特爾CEO基辛格(Pat Gelsinger)也公開稱,,英偉達CUDA軟件護城河“太淺”,,其在AI領(lǐng)域的成功純屬偶然,、非常幸運。
如今,,面對 AI 加速計算的巨大需求,,美國芯片巨頭們正悄然展開著一場爭奪大戰(zhàn)。
英特爾數(shù)據(jù)中心與人工智能集團兼副總裁兼中國區(qū)總經(jīng)理陳葆立對鈦媒體App等表示,,“AI 芯片用于大模型推理還處于早期階段,,在當前一些加速芯片非常短缺的情況下,我們給了很多用戶另外一個選擇,。我們非??春脭?shù)據(jù)中心市場的蓬勃發(fā)展。2023年一些智算算力的需求是遠遠大于供給的,,這個情況會延續(xù)到明年,。”
據(jù)統(tǒng)計,,預計到2027年,,基于 AI 需求帶動,全球數(shù)據(jù)中心加速芯片市場規(guī)模將達到2.8萬億元,。
截至2023年12月29日美股收盤,,英特爾(NASDAQ: INTC)股價報收50.25美元/股。
過去12個月內(nèi),,英特爾股價累計漲幅達87.99%,;英偉達(NASDAQ: NVDA)、AMD公司(NASDAQ: AMD)累計漲幅分別為245.94%,、130.26%,。
超2000億美金將投向AI芯片推理,AIGC或無需昂貴的GPU
過去一年,,以ChatGPT為代表的生成式 AI 技術(shù),,推動了 AI 相關(guān)算力需求將不斷增長,并且可能成為 AI 芯片未來幾年內(nèi)非常重要的需求賽道,。
據(jù)艾瑞咨詢報告顯示,,2023年,AI 大模型相關(guān)行業(yè)需求占中國智能算力總需求的58.8%,,接近60%,,是智能算力的最大需求方。阿里,、騰訊,、百度等中國科技巨頭對GPU芯片需求強烈,英偉達也因此成為中國 AI 大模型領(lǐng)域關(guān)鍵“軍火商”。
另據(jù)世界半導體貿(mào)易統(tǒng)計協(xié)會(WSTS)預估,,2024年,,受益于 AI 芯片需求持續(xù)增長,全球半導體市場規(guī)模預計將達到5883.6億美元(接近6000億美元,,約合4.16萬億元),,同比增長13.1%。
阿里云創(chuàng)始人王堅曾預測,,未來云計算的算力都將會被這些在智能時代的電動機,、所謂的大模型給消耗掉。
實際上,,在生成式 AI(AIGC)時代下,,算力正成為核心生產(chǎn)力。
數(shù)據(jù)顯示,,2023年,,全球 AI 加速計算市場規(guī)模將達450億美元。預計到2027年,,全球數(shù)據(jù)中心AI加速芯片市場規(guī)模將達到4000億美元(約合人民幣2.8萬億元),,五年的年復合增長率(CAGR)高達70%。
具體到案例中,,生成式 AI 對算力的具體需求主要體現(xiàn)在搜索、辦公,、計算機和游戲等核心場景中,。
然而,在智能算力中心(服務(wù)器)環(huán)境下,,AIGC不止需要GPU進行訓練,,尤其隨著Llama 2這種超大參數(shù)規(guī)模的開源模型廣泛使用,未來大模型不一定需要重復性數(shù)據(jù)訓練,。因此,,大模型更大的算力工作負載或與 AI 推理計算有關(guān),所以無論是CPU,,還是GPU,、APU、IPU加速卡,,都將會發(fā)揮更大作用,。
字節(jié)跳動旗下的火山引擎IAAS產(chǎn)品負責人李越淵向鈦媒體App介紹,“從CPU角度來說,,在AI模型訓練前,,需要快速處理“臟數(shù)據(jù)”,變成為模型所用的高效數(shù)據(jù),這就要求高計算能力加持,。同時,,模型訓練涉及多種數(shù)據(jù)類型和多模態(tài)能力,那么對CPU的能力,、內(nèi)存和帶寬提出了高要求,。另外,隨著模型增大,,芯片間的互聯(lián)互通能力也變得關(guān)鍵,。”
據(jù)AMD首席執(zhí)行官蘇姿豐(Lisa Su)預估,,未來價值4000億美元規(guī)模的AI加速計算市場中,,其中超過一半的份額,即至少2000億美元將被專門用于 AI 推理計算場景的應(yīng)用,。這凸顯了AI 推理在整個AI加速計算市場中的重要地位,,以及 AI 推理計算在大模型發(fā)展中的關(guān)鍵作用。
12月14日,,英特爾發(fā)布了第五代至強可擴展處理器系列,,在性能和能效方面都有重要提升,重點強調(diào)在AI大模型推理方面的性能表現(xiàn),,內(nèi)置英特爾AMX(加速器),,無需添加獨立加速器即可為AI加速,包括對參數(shù)量多達200億的模型進行推理和調(diào)優(yōu),,并將其模型推理性能提高42%,。
英特爾表示,與上一代至強產(chǎn)品相比,,在相同的熱設(shè)計功率范圍內(nèi),,全新第五代英特爾至強處理器平均性能提升21%,并在一系列工作負載中將每瓦性能提升高達36%,。對于遵循典型的五年更新周期的客戶來說,,總體成本最多可降低77%。IBM表示,,相比此前測試數(shù)據(jù),,第五代至強處理器在其watsonx.data平臺上的網(wǎng)絡(luò)查詢吞吐量提高2.7倍。
英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立
陳葆立對鈦媒體App表示,,“近一,、兩年,英特爾一直在以穩(wěn)健的執(zhí)行力推動產(chǎn)品路線圖發(fā)展,,并按四年五個節(jié)點的節(jié)奏如期推進,。至強更新速度越來越快,其實也是響應(yīng)了客戶對于算力需求?!?/p>
陳葆立指出,,英特爾與中國企業(yè)合作非常緊密。例如,,美團采用英特爾第四代至強可擴展處理器支持目標識別,、計算機視覺等 AI 推理工作負載;京東云則利用第五代至強處理器,,使整機性能比上一代提升123%,,Llama 2模型推理性能提升151%。
據(jù)悉,,英特爾即將首次采用了“雙核并進”的路線圖設(shè)計,,明年將推出基于Intel 3(3nm)制程的性能核和能效核處理器,對應(yīng)著下一代至強Granite Rapids和全新能效核至強處理器Sierra Forest,,以滿足不同數(shù)據(jù)中心需求,。
阿里云服務(wù)器研發(fā)事業(yè)部高級總監(jiān)王偉表示,由于大模型是顯存帶寬密集型和顯存容量密集型的,,因此基于第五代至強可擴展處理器,,增加了內(nèi)存帶寬,在某種意義上來講,,是有利于未來通過CPU來做生成式AI推理應(yīng)用的,。“目前,,我們發(fā)現(xiàn)CPU可以輕松運行各種生成式 AI 模型,,如Stable Diffusion、通義千問7B/14B/72B等,,均可以在阿里云第八代ECS實例上進行推理運行?!?/p>
在陳葆立看來,,AI 已經(jīng)是當今生活不可或缺的一部分,AI 無處不在,,因此對于英特爾的 AI 芯片和解決方案需求在不斷增加,,而非只有GPU才能做到。
“很多企業(yè)目前采用最新的至強處理器已經(jīng)可以處理許多工作,。當然,,一些想要訓練模型的公司需要加速卡,不管是來自英特爾還是友商,,這確實是用戶需求,,但我并不認為所有公司都有這個需要,這超過了目前市場的實際需求?!标愝崃⒈硎?,“我們非常看好數(shù)據(jù)中心市場的蓬勃發(fā)展,。因為不管是CPU,、GPU還是IPU,過去幾年每年都有不同火的點,,但數(shù)據(jù)中心整體算力需求始終在增加,,需要去解決不同的問題?!?/p>
陳葆立對鈦媒體App表示,,他相信2024年,可能將會有更多 AI 大模型或AIGC應(yīng)用落地,,會有更多應(yīng)用于創(chuàng)新,,也會反哺到企業(yè)端。
“英特爾的策略是,,憑借全棧的產(chǎn)品和解決方案,,我們可以給客戶在不同的場景,不同的需求下,,提供不同的解決方案,,包括端、云,、邊緣側(cè)等,。”陳葆立強調(diào),,長遠來看,,未來更多 AI 應(yīng)用或?qū)⒉捎肅PU芯片進行推理計算。
算力競爭加速,,芯片巨頭攻“生態(tài)”
AI 大模型引發(fā)算力需求增長,,同時也帶來更大的競爭,尤其是英特爾這些芯片巨頭的競爭對手,、客戶,、下游供應(yīng)商等企業(yè)都在自研服務(wù)器芯片。
12月7日,,谷歌發(fā)布迄今為止功能最強大,、最通用的多模態(tài) AI 大模型Gemini 1.0(中文稱“雙子座”)系列。在30項性能基準測試中,,超大杯Gemini Ultra超越了目前最強模型GPT-4,,甚至在MMLU測試上得分高達90.0%,,成為第一個超越人類專家水平的 AI 模型。
但谷歌表示,,Gemini 1.0 并非用英偉達A100或者是AMD等產(chǎn)品進行訓練,,而是用自研設(shè)計的TPUs v4 和 v5e芯片上進行大規(guī)模 AI 訓練推理的,稱因此Gemini的運行速度明顯快于早期規(guī)模更小,、性能更弱的模型,。
更早之前,微軟也公布用于數(shù)據(jù)中心的兩款自研芯片,,一是專門用于云端訓練和推理的AI芯片(ASIC)Microsoft Azure Maia 100,;二是微軟自研的首款CPU(中央處理器)Microsoft Azure Cobalt 100。此外,,亞馬遜,、阿里、騰訊,、字節(jié)跳動等多家國內(nèi)外科技公司都開始自研芯片,,用于自家的數(shù)據(jù)中心或云計算服務(wù)當中。而加上目前芯片限制的影響,,中國市場的競爭就更加復雜,。
談及市場競爭,陳葆立向鈦媒體App坦言,,英特爾非常歡迎有很多的競爭對手來參與到整個市場中,,同時英特爾對于市場競爭力非常有信心。