今日,,英特爾數(shù)據(jù)中心業(yè)務顯露出東山再起的氣勢,,大膽更新其至強路線圖,并透露將更快轉向Intel 18A工藝節(jié)點,。連帶著英特爾股價收漲7.6%,,創(chuàng)去年11月以來其最大單日漲幅。
在英特爾數(shù)據(jù)中心和人工智能事業(yè)部投資者網(wǎng)絡研討會上,,英特爾稱其首款面向數(shù)據(jù)中心的高能效至強Sierra Forest已開始向客戶送樣,,將于明年上半年交付;該芯片有144個核心,,核心密度比128核AMD EPYC Bergamo芯片更高,。第五代至強處理器Emerald Rapids有望在今年第四季度交付??蛻粽跍y試的下一代Granite Rapids將在Sierra Forest發(fā)布后于明年交付,。
同時可以看到,英特爾至強路線圖增加了一個新成員——第二代高能效至強Clearwater Forest,。該芯片預計在2025年上市,,將采用Intel 18A。這個跳過Intel 20A,、直接用上Intel 18A的決定,,傳遞出英特爾對其未來節(jié)點順利推進的信心,。
英特爾還展示了第四代英特爾至強可擴展處理器與第四代AMD EPYC處理器的AI基準測試表現(xiàn)對比,同為48核的兩個芯片交鋒中,,至強展現(xiàn)出接近4倍的性能優(yōu)勢,。
此前,英特爾第四代至強Sapphire Rapids曾面臨延期問題,。另據(jù)知名市研機構IDC計算,,英特爾仍主導個人電腦(PC)和服務器芯片市場,市場份額超過70%,,但較2017年的90%以上有所下降,。
而在今日,英特爾執(zhí)行副總裁Sandra Rivera宣布英特爾“路線圖正在走上正軌”,,并稱Granite Rapids正在實現(xiàn)“所有的關鍵工程里程碑”,。
英特爾也在致力于構建英特爾開發(fā)者云,其中包含256顆至強芯片和512顆AI訓練芯片Gaudi,,可供AI開發(fā)者訓練和運行新模型,。Hugging Face和Stability AI等明星AI創(chuàng)企均在采用英特爾芯片。
01.英特爾數(shù)據(jù)中心路線圖更新:兩大路線,、五個新品,、挺進Intel 18A工藝
英特爾的數(shù)據(jù)中心路線圖分為兩條線:P-Core和E-Core。P-Core性能核,,專為實現(xiàn)最高的每核性能和AI工作負載性能而設計,;E-Core能效核專為高能效、高核心密度和高吞吐量而設計,。
外媒Tom’s Hardware對比了英特爾和AMD的數(shù)據(jù)中心路線圖,,AMD去年推出的EPYC Genoa和今年年初推出的英特爾Sapphire Rapids將展開高性能之戰(zhàn)。
在Sapphire Rapids推出后幾個月,,英特爾將于今年第四季度推出其配備更多內核和更快時鐘速率的第五代至強Emerald Rapids,,將提供比前代更多的核心,實現(xiàn)更高的性能和能效,。AMD的5nm Genoa-X定于今年晚些時候發(fā)布,。明年,英特爾Granite Rapids將與AMD的Turin展開較量,。高能效產(chǎn)品方面,,AMD的Bergamo將在今年上市,英特爾Sierra Forrest要到2024年上半年才會推出,。AMD尚未透露它的第二代E-Core產(chǎn)品何時交付,,而英特爾已經(jīng)在其路線圖中公布了Clearwater Forest。
英特爾的E-Core高能效路線圖從擁有144核的下一代至強Sierra Forest開始,。這是Intel 3工藝節(jié)點的主要載體,,目前進展順利,,已向客戶提供樣品。英特爾稱該芯片已通電,并在不到18小時內啟動了操作系統(tǒng)。
Sierra Forest將在單個雙路服務器中提供256個核心,。其單顆芯片的144個核心數(shù)超過了AMD EPYC Bergamo的128個核心數(shù),,但在線程數(shù)方面可能并不領先,。
▲英特爾演示了Sierra Forest所有144個核心的運行情況
英特爾面向消費市場的E-Core是單線程的,但尚未透露數(shù)據(jù)中心的高能效核是否支持超線程。而AMD稱128核Bergamo是超線程的,因此每個插槽總共提供256個線程,。
英特爾的E-core不支持其P-Core支持的一些指令集架構(ISA),通過省掉AVX-512和AMX來確保最大密度,。AMD Bergamo Zen 4c(“c”表示專為云原生工作負載而設計)核心則具有與其標準Zen 4核心相同的功能,。
緊隨Sierra Forest之后,Granite Rapids將于2024年交付,,已向客戶送樣,。這是采用Intel 3工藝的第一個P-Core至強,將擁有比Emerald Rapids更多的內核,、來自DDR5-8800內存的更高內存帶寬及I/O創(chuàng)新。
值得注意的是,,第一個搭配E-Core的系列Sierra Forest將與搭配P-Core的Granite Rapids插槽兼容,,兩者甚至共享相同的BIOS和軟件。英特爾通過將這些芯片轉移到基于塊的設計來實現(xiàn),,有點像AMD EPYC處理器的設計思路,,中央I/O塊處理內存和其他連接功能,將核心和非核心功能分開,。這樣就能用相同系統(tǒng)將更多將更多線程heft與E-Core打包,,且TDP范圍與P-Core樣品相同。
英特爾演示了雙路Granite Rapids,。它可提供1.5TB/s DDR5內存帶寬,,據(jù)稱比現(xiàn)有服務器內存提高了80%的峰值帶寬。Granite Rapids提供的吞吐量高于英偉達960GB/s Grace CPU超級芯片,,也高于理論峰值920GB/s的AMD雙路Genoa,。這一提升得益于英特爾研發(fā)的新型帶寬優(yōu)化內存DDR5-8800多路復用器組合列(MCR)DRAM。
▲英特爾展示了Granite Rapids在雙路服務器中提供1.5TB/s帶寬
英特爾還首次公布了Clearwater Forest,,預計在2025年發(fā)布,,將是首款采用Intel 18A工藝節(jié)點的至強芯片。為了重奪先進芯片制造的技術領導地位,,英特爾計劃四年交付5個節(jié)點,,其產(chǎn)品在2024年可選用Intel 20A和Intel 18A節(jié)點,。Intel 20A和Intel 18A節(jié)點分別是英特爾的第一代、第二代“Angstrom”節(jié)點,。Intel 18A工藝將比Intel 20A的每瓦性能提高10%,,基本上用上了所有芯片制程工藝的前沿技術。
02.下一代AI訓練芯片“taped in”更新GPU路線圖
除了至強外,,英特爾也公布了其面向數(shù)據(jù)中心和AI領域的其他產(chǎn)品更新,。英特爾計劃在今年推出15款新FPGA,這將創(chuàng)下其FPGA部分的記錄,。其AI訓練芯片Habana Gaudi2正在出貨,,Gaudi3已經(jīng)“taped in”。
英特爾還透露其Artic Sound和Ponte Vecchio GPU正在出貨,。英特爾最近更新了其GPU路線圖,,取消了即將推出的Rialto Bridge系列數(shù)據(jù)中心Max GPU,并將數(shù)據(jù)中心GPU版本的發(fā)布周期改為兩年,。
其下一款數(shù)據(jù)中心GPU產(chǎn)品將以基于Chiplet的混合芯片F(xiàn)alcon Shores的形式出現(xiàn),,預計到2025年才會交付。英特爾還降低了對Falcon Shores的期望,,稱它們將只支持GPU架構,,不包括最初計劃的CPU核心選項。
英特爾也分析了AI加速器的機會,,預測通用計算將占大約60%的工作負載,,涉及中小型AI模型,主要在CPU上運行,。包括大模型(超過1000億個參數(shù))在內的加速計算將占大約40%的工作負載,,在GPU和其他定制加速器上運行。
英特爾致力于為AI構建一個統(tǒng)一的軟件生態(tài)系統(tǒng),,包括采用端到端的方法,,在軟件棧的每個點都包含芯片、軟件,、安全性,、機密性和信任機制。
BLOOMZ模型是一款基于Transformer的多語言大型語言模型,,最大1760億個參數(shù)的BLOOMZ模型性能優(yōu)于類似大小的GPT-3模型,。頂級機器學習開源庫Hugging Face發(fā)布的結果顯示,在跑有70億個參數(shù)的BLOOMZ模型時,,第一代Gaudi性價比優(yōu)勢明顯,;Gaudi2對1760億個參數(shù)的BLOOMZ模型進行推理,速度比英偉達A100快20%,。
此外,,Hugging Face亦介紹了Stability AI的AI文生圖模型Stable Diffusion,。在不更改任何代碼的情況下,Stable Diffusion在內置英特爾高級矩陣擴展(英特爾AMX)的第四代英特爾至強可擴展處理器上平均運行速度提高了3.8倍,。
Stability AI創(chuàng)始人兼首席執(zhí)行官Emad Mostaque說,,Stable Diffusion模型已能高效運行在英特爾的異構產(chǎn)品上,從第四代Sapphire Rapids CPU到像Gaudi這樣的加速器,,是實現(xiàn)AI民主化的一個絕佳合作伙伴,,期待在下一代語言、視頻和代碼模型等方面與英特爾合作,。
OpenVINO進一步加速了Stable Diffusion推理,。結合使用第四代至強CPU,速度幾乎比第三代英特爾至強可擴展CPU提高了2.7倍,。Optimum Intel是OpenVINO支持的一個用于加速英特爾架構上的端到端管道的工具,,它將平均延遲再降低為之前的1/3.5,總共降低到原來的近1/10,。
03.結語:進入AI新時代能效成推動生產(chǎn)力的關鍵
英特爾幾年前就開始轉向“以數(shù)據(jù)為中心”的戰(zhàn)略,。如今隨著ChatGPT爆火,以大型語言模型(LLM)為代表的先進AI技術進入公眾視野,,這類模型所需的數(shù)據(jù)量和計算量,,亦使性能、成本和能效成為眾多企業(yè)關注的焦點,,其中能效尤其是推動生產(chǎn)力的關鍵因素,。
這證明了英特爾賭注的前瞻性。AI算法迭代如此之快,,CPU憑借極強的通用性至今仍是運行AI推理工作負載的主力,。英特爾正通過至強P-Core和E-Core雙路并行的策略,,為前景可觀的AI市場做好準備,。
但挑戰(zhàn)也是前所未有的,英特爾面臨著愈發(fā)強勁的競爭對手,。憑借高能效橫掃移動芯片市場的Arm架構,,如今正在數(shù)據(jù)中心快速擴張其生態(tài)系統(tǒng),并成為越來越多云計算巨頭和芯片初創(chuàng)公司的“座上賓”,。應對接踵而至的壓力,,英特爾和AMD都更加注重優(yōu)化芯片的能效和核心密度。這一背景下,,將采用Intel 18A工藝的Clearwater Forest相當令人期待,,可能在2025年展開新一輪有趣的競爭。
英特爾顯然不愿將其在數(shù)據(jù)中心的領先優(yōu)勢拱手讓人,,正試圖通過奪回技術領先地位來扭轉近年來服務器市場份額的損失,。如今,,它聲稱已經(jīng)解決了其工藝節(jié)點技術中的根本問題,并改進了其芯片設計方法,,以防止其下一代產(chǎn)品的延遲,。結合近兩次路線圖來看,英特爾正按照計劃穩(wěn)步推進其至強系列的研發(fā)與交付,,并加速Intel 18A工藝節(jié)點進入產(chǎn)品,,為英特爾贏得更大優(yōu)勢。
文章來源:芯東西
作者 | ZeR0
編輯 | 漠影
更多精彩內容歡迎點擊==>>電子技術應用-AET<<