2020年對(duì)Intel而言實(shí)在不是友好的一年。雖然Intel的財(cái)報(bào)仍未表現(xiàn)出大問(wèn)題,但I(xiàn)ntel在很多領(lǐng)域的前景是不樂(lè)觀的,。在《2021年十大熱點(diǎn)應(yīng)用趨勢(shì)展望》中,,我們提到了在PC處理器領(lǐng)域,,“AMD將吃下‘半壁江山’”,,這源自AMD Zen架構(gòu)處理器的強(qiáng)勢(shì);蘋果M1的問(wèn)世則為這個(gè)趨勢(shì)火上澆了一勺油,;與此同時(shí),,數(shù)據(jù)中心市場(chǎng)顯現(xiàn)出的市場(chǎng)趨勢(shì)是,CPU逐漸被邊緣化,,英偉達(dá)DPU在這方面顯現(xiàn)出的野心是相當(dāng)顯著的,。
PassMark的CPU市場(chǎng)份額數(shù)據(jù)雖然有幸存者偏差,但在截至今年1月12日的數(shù)據(jù)更新中,,AMD的桌面CPU市場(chǎng)份額已經(jīng)達(dá)成自2006年以來(lái),,首次對(duì)Intel的超越——當(dāng)然兩者的筆記本市場(chǎng)份額仍然相差較大,畢竟OEM客戶是Intel的基本盤,。在整個(gè)x86 CPU市場(chǎng),,AMD的份額總體剛剛突破了40%(PassMark),。
來(lái)源:PassMark,,注意這組數(shù)據(jù)帶有明顯的幸存者偏差,僅供參考[1]
Intel十多年來(lái),,在PC處理器技術(shù)上的碾壓級(jí)優(yōu)勢(shì),,似乎在這短短2年內(nèi)便徹底喪失——不僅是Skylake這種年邁架構(gòu)表現(xiàn)的弊端,,而且在10nm工藝遲遲無(wú)法大規(guī)模量產(chǎn)的情況下,7nm又雙叒叕延后了半年,。
AMD Zen架構(gòu)進(jìn)步在我以往的不少文章里,,都有比較詳細(xì)的闡述,Zen 3已經(jīng)事實(shí)上在單核和多核性能上實(shí)現(xiàn)了對(duì)Intel處理器的全面趕超——雖然Intel的marketing仍然相當(dāng)頑強(qiáng),。而蘋果Mac系列在拋棄Intel處理器之后,,自研的M1芯片則可以說(shuō)幾乎讓整個(gè)x86陣營(yíng)汗顏,僅3.2GHz的主頻,、低很多的功耗,,就能將Intel最高端的Core i9踩在腳下,并徹底無(wú)視Intel最新的Tiger Lake(十一代酷睿),。
所以美國(guó)西部時(shí)間1月13日,,英特爾宣布新任CEO Pat Gelsinger的即將上任,換下Bob Swan,。事實(shí)上在此之前,,Intel首席工程官Dr. Venkata (Murthy)的離職就能夠從公司管理層面,顯現(xiàn)Intel對(duì)現(xiàn)狀的反思,。
本文篇幅較長(zhǎng),,這里給出導(dǎo)讀,讀者可根據(jù)自己的興趣,,做選擇性閱讀,。
● x86處理器做大小核設(shè)計(jì)的背景
● 大小核設(shè)計(jì)的意義
● Intel的初代大小核處理器Lakefield實(shí)際表現(xiàn)
● Lakefield的小核心Tremont(可選讀)
● Lakefield的封裝技術(shù)(可選讀)
● Intel大小核處理器面臨的問(wèn)題和展望
x86陣營(yíng)也開(kāi)始做大小核
有關(guān)M1芯片為何能達(dá)到這個(gè)程度,我會(huì)另外撰文詳述,。M1的逆天表現(xiàn)雖然不是本文要談的重點(diǎn),,不過(guò)M1的出現(xiàn)卻已經(jīng)向市場(chǎng)證明,Arm在PC高性能領(lǐng)域是大有可為的,,與此同時(shí)還能兼顧低功耗,。從極客灣測(cè)試的數(shù)據(jù)來(lái)看,日常工作中,,M1版MacBook Pro的功耗之低,,與整個(gè)x86陣營(yíng)都是有量級(jí)差距的:B站看個(gè)視頻,M1功耗在0.5-0.7W,,而Intel Tiger Lake需要4-4.5W;待機(jī)功耗,,M1達(dá)到了震驚PC處理器市場(chǎng)的0.02W,而Tiger Lake是1.1W,。MacBook如今的續(xù)航因此可以達(dá)到20小時(shí)甚至更高,。
這其實(shí)并不讓人意外,畢竟Arm平臺(tái)的大小核(big.LITTLE)設(shè)計(jì)早已是Arm芯片參與者做慣了的事,。Arm過(guò)去始終在移動(dòng)平臺(tái)活躍,,而手機(jī)之類移動(dòng)設(shè)備對(duì)功耗是非常敏感的,,所以處理器采用大小核心搭配是必須的。
而x86陣營(yíng)的參與者,,如Intel就是自PC處理器起家的,,PC對(duì)功耗更不敏感(尤其是桌面PC)。所以PC處理器也更傾向于通過(guò)提升頻率(而不是增加更多專用單元)來(lái)提升性能,,自然也不存在“小核”設(shè)計(jì),。兩者功耗上的差距顯得相當(dāng)順理成章。
但在持續(xù)提頻的道路上,,移動(dòng)辦公逐漸風(fēng)行的當(dāng)下,,Intel也一早就意識(shí)到了功耗需要有越來(lái)越高的優(yōu)先級(jí)。這兩天在美國(guó)進(jìn)行的CES大會(huì)上,,Intel再度提到了規(guī)劃中的“混合x(chóng)86產(chǎn)品”Alder Lake,,也就是x86版的大小核設(shè)計(jì)。去年Intel的Architecture Day 2020上,,Intel正式宣布Alder Lake路線圖:未來(lái)的Alder Lake處理器,,會(huì)將高性能計(jì)算核心(Golden Cove)與“高效率”核心(Gracemont)放到一起。
將其比作Intel版的M1芯片并不合理,,畢竟Intel要做此類處理器的意愿也不是M1出現(xiàn)后才有的,,不過(guò)兩者大方向總算是趨同的。Alder Lake會(huì)面向桌面和移動(dòng)兩個(gè)平臺(tái)推出(這里的移動(dòng)主要只是筆記本或同類設(shè)備),,這顆規(guī)劃中的芯片也事實(shí)上成為x86陣營(yíng)針對(duì)Arm大小核設(shè)計(jì)思路的反擊(主要是驍龍8cx和蘋果M1這類芯片),。不過(guò)在規(guī)劃上,Alder Lake需要等到今年下半年,。而且Intel在這種大小核設(shè)計(jì)方案上,,也還處在試探期。
在Alder Lake之前,,Intel在Architecture Day 2018上展示了其初代“混合x(chóng)86處理器”產(chǎn)品:Lakefield,,也是將Core(酷睿)和Atom(靈動(dòng))架構(gòu)處理器核心放到一起,作為Intel版本的大小核,。
如今Alder Lake相關(guān)消息仍然很少,,本文嘗試以Lakefield為依據(jù),從技術(shù)角度談?wù)剎86陣營(yíng)推行這種混合處理器,,能否在Intel最艱難的歷史時(shí)期,,幫助Intel重回PC處理器市場(chǎng)巔峰——以及這種“混合”“大小核”設(shè)計(jì)究竟有多大價(jià)值。
另一方面,,Lakefield處理器雖然目前的出貨還非常少,,而且由于規(guī)格定義并不面向高端PC(與筆記本)市場(chǎng),但它幾乎可以認(rèn)為濃縮了Intel當(dāng)下最先進(jìn)的一批技術(shù)。所以對(duì)Lakefield剖析,,也能更全面地了解Intel如今在PC處理器市場(chǎng)的處境和底牌。
而且Lakefield不僅標(biāo)志著Intel PC處理器的未來(lái)規(guī)劃,,也預(yù)示了PC處理器整個(gè)市場(chǎng)的未來(lái),,即便它本身只是x86指令處理器的試水之作。(要知道AMD這邊到現(xiàn)在其實(shí)都還沒(méi)有自家的“小”核心設(shè)計(jì),,雖然早期架構(gòu)的改款還是可以考慮)
大小核有意義嗎,?
從蘋果開(kāi)始為MacBook采用M1芯片,以及微軟積極擁抱Arm推類似Surface Pro X這樣的Arm筆記本設(shè)備(和Window on Arm)就不難發(fā)現(xiàn),,x86在筆記本這樣注重移動(dòng)性的設(shè)備上顯得不夠高效,。拋開(kāi)兼容性問(wèn)題不談,Surface Pro X在采用高通處理器以后,,續(xù)航就遠(yuǎn)高于x86版本的Surface;新版MacBook就更不用說(shuō)了,。
如前文所述,Arm的低功耗與其很早就推big.LITTLE(以及DynamiQ靈活搭配)設(shè)計(jì)是有很大關(guān)系的(更多原因我將在M1架構(gòu)分析中闡述),。這種大小核設(shè)計(jì),,在面對(duì)輕度工作負(fù)載時(shí)選擇小核心,而在需求高性能時(shí)則用大核心去跑任務(wù),。這種方案基于一個(gè)事實(shí):兩種核心在不同的性能區(qū)間,,其功耗表現(xiàn)是大不一樣的。
Lakefield“大小核”的整體設(shè)計(jì)大致上可以反映這個(gè)思路,。Lakefield搭配的大小核分別是Sunny Cove(十代酷睿上的核心)和Tremont(最新的Atom核心),,具體是1顆Sunny Cove搭配4顆Tremont。Arm陣營(yíng)如今頗為常見(jiàn)的搭配方法是4+4,,或者1+3+4/2+2+4,,越來(lái)越多的手機(jī)芯片傾向于大中小三簇核心的搭配方法。
用一張圖大致能夠說(shuō)明,,大小核設(shè)計(jì)帶來(lái)效率提升的價(jià)值:
這張圖是Intel官方提供解釋Lakefield兩種核心,,在不同性能下的功耗情況的:橫軸代表相對(duì)性能,縱軸代表相對(duì)功耗,,隨性能提升,,功耗也在提升。
左邊這張展示的是單線程下,,兩種核心的性能與功耗關(guān)系(橙色代表Sunny Cove-SNC,,藍(lán)色代表Tremont-TNT);右邊這張圖標(biāo)識(shí)的則是多線程性能與功耗關(guān)系,。比較顯然的一個(gè)結(jié)論是,,僅看單線程情況,在較低性能狀態(tài)下,小核心能夠達(dá)成更低的功耗,;但到了高性能區(qū)間,,小核心的功耗反而會(huì)崩,此時(shí)大核心的效率會(huì)更好,。
更具體地說(shuō),,在相對(duì)性能低于58%時(shí),Tremont核心效率高很多,,而在性能高于58%時(shí),,Sunny Cove顯然是更好的選擇。當(dāng)然多線程性能又是不同的,,畢竟Sunny Cove核心在Lakefield中就只有一個(gè),。Intel提供的數(shù)字是,Tremont在能效上打敗Sunny Cove時(shí),,最高可以達(dá)成Sunny Cove 70%的性能,;性能水平介于Sandy Bridge(2-3代酷睿)和Haswell(4代酷睿,2013-2014年)之間——整數(shù)性能與Haswell相近,,同時(shí)效率會(huì)高很多,。
事實(shí)上,Lakefield并不通過(guò)任務(wù)負(fù)載性能需求高低來(lái)決定用哪種核心工作,。在Intel的定義中,,Sunny Cove針對(duì)需要快速響應(yīng),以及與用戶體驗(yàn)切身相關(guān)的線程,;而Tremont則針對(duì)要求多線程性能的相關(guān)任務(wù),,以及需要在較高效模式下跑的非用戶相關(guān)后臺(tái)任務(wù)。比如視頻編碼工作,,通??紤]用四個(gè)Tremont核心來(lái)跑,Windows后臺(tái)任務(wù)也交由Tremont完成,;類似用戶點(diǎn)擊開(kāi)始菜單,、滾動(dòng)網(wǎng)頁(yè)這種操作,要求快速響應(yīng),,則交給Sunny Cove,。
x86初代大小核處理器的性能怎么樣?
Lakefield(酷睿i5-L16G7)的其他參數(shù)還包括CPU基頻1.4GHz,,大核心的最高睿頻3.0GHz(全核最高1.8GHz),,不支持超線程,TDP 7W;核顯為Gen11(GT2 64EU,,500MHz,,頻率遠(yuǎn)低于Ice Lake),;堆疊了8GB LPDDR4-4267內(nèi)存;計(jì)算die部分的工藝為10nm,。
從這些配置來(lái)看,,就知Lakefield在性能表現(xiàn)上可能并不怎么樣,定位的就是低功耗便攜式或者一些二合一設(shè)備,。尤其多線程工作基本全部交給Tremont去完成——這讓Lakefield在很多情況下變身Atom處理器——對(duì)不起酷睿的名頭,。
即便有一顆Sunny Cove大核,也不支持超線程,。另外比較重要的一點(diǎn)是,,原本Sunny Cove是支持AVX-512指令的,,但因?yàn)門remont小核不支持,,所以為了達(dá)成“混合CPU”的這種大小核設(shè)計(jì),唯有令兩者對(duì)支持的指令完全達(dá)成一致,,所以Sunny Cove也就閹割了對(duì)AVX-512指令的支持,,另外閹割的還包括了AVX、AVX2,,以及Tremont小核心的GFNI,、ENCLV、CLDEMOTE等指令,。
像這樣異構(gòu)核心方案,,在指令方面需要滿足木桶最低板的原則(或者跨所有核心的ISA兼容性),在Arm世界也同樣適用,。否則線程在大小核之間遷移時(shí)就會(huì)出問(wèn)題,。所以Cortex-A55作為Arm處理器的小核心被用了這么多年不動(dòng)搖,也是這個(gè)道理,。
來(lái)源:AnandTech[2],,四顆Tremont核心簇的面積和一顆Sunny Cove相差無(wú)幾
無(wú)論AnandTech還是WikiChip,都認(rèn)為從Lakefield的die shot來(lái)看,,Sunny Cove核心部分的AVX-512相關(guān)的單元并未被實(shí)際移除,,雖然Intel宣稱是“移除”了的。
Intel宣傳的數(shù)字是,,相比Amber Lake i7-8500Y(Intel的超低壓處理器,,TDP 5W),Lakefield的多線程性能高24%,,單線程則快12%,,圖形性能提升70%——這些變化實(shí)則都在預(yù)期內(nèi)。以及有大核心的加持,,web性能高出33%,,效率提升17%——這一點(diǎn)對(duì)比的顯然就是單純的四核Atom了,。可預(yù)期的是看B站會(huì)比以前省電……
另外比較重要的是每瓦性能提升24%(相比Amber Lake),,待機(jī)功耗“大幅降低”,,達(dá)到2.5mW左右——這就和前文列出M1的待機(jī)功耗數(shù)字差不多了。達(dá)成最高的效率原本就是這種設(shè)計(jì)的重要目的,。蘋果在發(fā)布會(huì)上最愛(ài)談的就是每瓦性能以表現(xiàn)芯片的高效率,。在Architecture Day 2020上,Intel就宣稱Alder Lake將能夠達(dá)成Intel有史以來(lái)最高每瓦性能——當(dāng)然這是Lakefield后續(xù)產(chǎn)品了,,也是Intel的預(yù)期,。
當(dāng)前針對(duì)Lakefield尚無(wú)十分系統(tǒng)的性能測(cè)試。已經(jīng)上市的Lakefield產(chǎn)品主要包括了聯(lián)想ThinkPad X1 Fold,、三星Galaxy Book S以及微軟Surface Book Neo,。NotebookCheck的實(shí)測(cè)數(shù)據(jù)是,Lakefield(i5-L16G7)綜合性能(也包括了核顯性能)弱于超低壓的酷睿i5-8210Y和四代酷睿42 85U,。
來(lái)源:NotebookCheck[3]
這個(gè)數(shù)據(jù)可能并不是很合理,,一方面在于NotebookCheck用于跑分測(cè)試的Cinebench版本(R15與R20)在多線程性能測(cè)試中甚至都無(wú)法用上Lakefield的Sunny Cove大核(但卻的確能反映其實(shí)際使用情況,因?yàn)槿缜拔乃?,Lakefield中的Sunny Cove并不像很多人理解的那樣,,是簡(jiǎn)單用于“高負(fù)載”任務(wù)),另一方面和OEM廠商的具體實(shí)施方案有關(guān),。
Cinebench R23似乎是目前唯一能夠?qū)崿F(xiàn)5核全開(kāi)的測(cè)試,,但網(wǎng)上找不到R23的Lakefield跑分??傊甃akefield大致上也就用來(lái)做word或者ppt文檔以及看看網(wǎng)頁(yè)和愛(ài)奇藝了,。
有關(guān)Tremont小核心(選讀)
很多同學(xué)抱怨我文章寫太長(zhǎng),所以更全面的微架構(gòu)分析文章,,后續(xù)我會(huì)發(fā)到我的面包板專欄,,感興趣的同學(xué)可以前往關(guān)注。本文我只簡(jiǎn)單聊聊Lakefield中的小核心Tremont,,畢竟大核心的Sunny Cove其實(shí)算是非常知名了,,Intel十代酷睿的Ice Lake用的就是這個(gè)核心。而且Lakefield也實(shí)在談不上“高性能”,,它本身更重在“低功耗”上,。
Tremont相比前代(Goldmont Plus,2017年)主要是提升單線程性能,,IPC有超過(guò)30%的提升,。作為Atom處理器中的一款產(chǎn)品,它重在考量每核功耗與每核面積,。所以前文給出的die shot就能看出,,Lakefield中的Tremont四核心簇整體尺寸才相當(dāng)于一個(gè)Sunny Cove,。
來(lái)源:WikiChip[4]
從“小”核心的角度來(lái)說(shuō),Tremont與知名的Arm Cortex-A55小核心并不是一個(gè)量級(jí),。Tremont首先是個(gè)亂序核心,,前端解碼寬度6-wide(雖然是分兩組),這就決定了它比A55這樣的選手還是壯實(shí)多了,。這一點(diǎn)和蘋果的思路就很像(2019年蘋果A12的Tempest小核心,,在性能上幾乎達(dá)到了Cortex-A72的程度)。
其余具體的微架構(gòu)可參見(jiàn)上圖,,包括allocation 4-wide,,re-order buffer增加至208條(+119%),后端有10個(gè)執(zhí)行端口,,雙load/store管線,;L2 cache最高可配置4.5MB,L1-D cache增加33%,,L2 TLB(頁(yè)表緩存)增加到1024-entry;另外還有新指令引入——不過(guò)對(duì)Lakefield而言,,這一點(diǎn)就不存在了,,前文已經(jīng)提到,。感覺(jué)整體看起來(lái),這都不像是個(gè)“小”核心,。
其最大的變化在前端,,包括分支預(yù)測(cè)單元升級(jí)——接近于“大”核心級(jí)別的精度(兩級(jí)結(jié)構(gòu));以及最重要的解碼寬度變化,。不過(guò)這個(gè)所謂的“6-wide”寬度并不是類似酷睿5-wide那類方案(1個(gè)復(fù)雜decoder,,4個(gè)簡(jiǎn)單decoder,再加μop cache),,實(shí)際上是兩組3-way對(duì)稱解碼,。每一組都有自己的指令流。配合分支預(yù)測(cè)器,,預(yù)測(cè)指令流可以進(jìn)第二組(上圖的Cluster 1),,不打斷第一組(Cluster 0)的工作,兩組并行預(yù)測(cè),、讀取,、解碼。
這種實(shí)際上的3-wide設(shè)計(jì),,相比真正的6-wide解碼要節(jié)省面積和功耗,,沒(méi)有μop cache。Intel宣稱這種設(shè)計(jì)能夠平衡資源,。Tremont也支持僅開(kāi)其中一組的模式,,預(yù)期實(shí)現(xiàn)更低的每核峰值功耗,。更多包括re-order buffer加深、執(zhí)行引擎和存儲(chǔ)子系統(tǒng)拓寬等,,本文皆不再贅述,。還有一些額外的特性,比如RDT技術(shù)支持,,可實(shí)現(xiàn)帶寬分配,、QoS、優(yōu)先級(jí)之類的操作(服務(wù)器芯片中常見(jiàn)),;Speed Shift技術(shù),;信任安全啟動(dòng);內(nèi)存加密等,。
當(dāng)大小核遇上3D封裝(選讀)
拋開(kāi)更微觀的層面不談,,Lakefield整體看來(lái)還是比較草率的,包括1+4的這種組合方式,,及其表現(xiàn)出的實(shí)際性能,。Lakefield之所以沒(méi)有加入更多的Sunny Cove大核心,很大程度應(yīng)該也是受限于Sunny Cove核心的體積和功耗,。以Lakefield如今計(jì)算die占據(jù)的82mm?來(lái)看,,及其預(yù)定義的尺寸,它很難再塞入更多CPU核心,,何況Sunny Cove的功耗也實(shí)在不算低,。
所以我們才說(shuō),Lakefield很像Intel針對(duì)“混合”或者大小核設(shè)計(jì)的一個(gè)試水,,和打怪升級(jí)的必經(jīng)之路,。而作為一款實(shí)驗(yàn)性質(zhì)的作品,Lakefield不僅有Intel最新的大小核,,而且在封裝上也算是集Intel芯片制造廠的大成了,。它用上了傳說(shuō)中的Foveros 3D芯片堆疊技術(shù),也是Intel首款采用這種封裝方案的芯片,。
前面談的這些CPU大小核,、GPU等都是Lakefield的計(jì)算die(計(jì)算die上另外還包括了圖像處理單元IPU、LPDDR4X內(nèi)存控制器,、Gen11 Display engines等),,采用的是Intel的10nm工藝(與Ice Lake一致,理論上屬于Intel的二代10nm工藝),;有關(guān)Intel 10nm工藝本文不再詳述,,詳情參見(jiàn)我的面包板專欄文章。
而在計(jì)算die之下,,還有個(gè)base die,。下面的這片base die主要是處理器外設(shè)的active interposer(主動(dòng)中介層),。Active interposer相比傳統(tǒng)passive interposer,不只是用于連接的中介層,,本身也發(fā)揮功能邏輯的作用,,其上包含各種PCIe 3.0、各種I/O控制,、音頻codec,、安全等。Base die所用的制造工藝是22FFL——22FFL并不是早期的22nm工藝,,而是14nm的功耗優(yōu)化版(更稀疏的版本),,針對(duì)的就是更高效的IO。22FFL則必然又在成本上顯著低于10nm了,,這也屬于典型的chiplet設(shè)計(jì)和制造思路,。
計(jì)算die和base die之間采用50μm間距bump的die-to-die互聯(lián)(Foveros Die to Die Interface),承載信號(hào)(數(shù)據(jù))和供電的連接,。這種互聯(lián)應(yīng)該是3D堆疊方案上的絕對(duì)難點(diǎn),。Intel宣稱其最大傳輸速率是500MT/s(mega-transfers per second),而且每bit數(shù)據(jù)傳輸耗能0.2pJ(皮焦),。0.2pJ在die間數(shù)據(jù)傳輸?shù)暮哪芰考?jí)上可以認(rèn)為是非常小的,,這應(yīng)該也是實(shí)現(xiàn)低功耗的一部分。
值得一提的是,,IO部分Lakefield僅給到了PCIe 3.0六條通道支持,,這就決定了其IO連接會(huì)相當(dāng)捉襟見(jiàn)肘,。ThinkPad X1 Fold為L(zhǎng)akefield配套的SSD,,僅拿到PCIe 3.0 x2的通道,帶寬因此大受限制,;配獨(dú)立GPU什么的,,那也是想都不用想的了。[5]從這樣的小細(xì)節(jié)也能看出Lakefield試水的本質(zhì),。
最后在Lakefield整個(gè)封裝的最上層是內(nèi)存(Package on Package),,有4GB和8GB兩種規(guī)格可選,應(yīng)該是來(lái)自其他內(nèi)存制造商的定制方案,。值得一提的是,,內(nèi)存與中間的計(jì)算die之間并沒(méi)有采用什么黑科技連接方式,與CPU的通訊是需要經(jīng)由最底層的package轉(zhuǎn)道再經(jīng)過(guò)base die之后,,再到compute die的,。它也沒(méi)有M1芯片那樣的Unified Memory Architecture特性。
這樣的堆疊方案下,,散熱會(huì)成為一個(gè)大問(wèn)題,,Intel為此似乎還是頗費(fèi)了一番功夫的,,不過(guò)現(xiàn)階段主要在不同IP模塊的設(shè)計(jì)上做到減少局部的高溫聚集點(diǎn)、互聯(lián)金屬層厚度控制等,,所以散熱在設(shè)計(jì)上有更高的優(yōu)先級(jí),;另外Intel還探討過(guò)在兩個(gè)die之間采用“流體通道(fluidic channes)”的可行性——這就屬于未來(lái)的方向了。有關(guān)Lakefield封裝細(xì)節(jié),,AnandTech的文章中有比較詳細(xì)的闡述[2],,我也會(huì)在面包板專欄再行刊文。
經(jīng)過(guò)這種Foveros 3D堆疊后,,Lakefield芯片整體達(dá)成了12x12x1mm的三圍尺寸,。板級(jí)設(shè)計(jì)也就可以更為緊湊,相比之前的低功耗CPU實(shí)施方案,,主板可以減少60%的尺寸,。加上LTE modem的話,整體主板尺寸總算是可以和高通的設(shè)計(jì)比一比了,。
Lakefield真的能成嗎,?
最后來(lái)稍稍總結(jié)一下Intel在Lakefield處理器上現(xiàn)存的問(wèn)題。首先Lakefield基本上是很難獲得市場(chǎng)大范圍的肯定的,,即便它塞入了Intel這么多最尖端的研究成果,。不過(guò)Lakefield作為Intel首款涉足大小核設(shè)計(jì)的處理器產(chǎn)品,其積累經(jīng)驗(yàn)的作用也明顯大于市場(chǎng)本身,。下一代的Alder Lake才是值得觀察的關(guān)鍵,。
所以這個(gè)問(wèn)題應(yīng)當(dāng)換成Intel的大小核設(shè)計(jì)能成嗎?
事實(shí)上Intel在這種非其傳統(tǒng)強(qiáng)項(xiàng)的處理器產(chǎn)品中,,遭遇的問(wèn)題可能是形形色色的,。從具體到抽象總結(jié)這種處理器“能成嗎”的關(guān)鍵:
其一是scheduler(調(diào)度)。Intel此前并沒(méi)有設(shè)計(jì)大小核處理器的經(jīng)驗(yàn),,Windows也始終不曾有不同類型的核心間做線程(進(jìn)程)遷移的scheduler(微軟和高通勾搭上之后,,必然有密切合作在不同CPU設(shè)計(jì)間管理負(fù)載的scheduler,但至少x86是沒(méi)有的,;不過(guò)從Wikichip的介紹來(lái)看,,Intel似乎也提交過(guò)非一致指令集的異構(gòu)核心一起工作,針對(duì)操作系統(tǒng)的算法和加強(qiáng)[6][7]),。要知道Android和Arm在這方面可是有著比較長(zhǎng)期的演進(jìn)的,,包括線程遷移對(duì)實(shí)際體驗(yàn)造成的影響;蘋果就更不用說(shuō)了,。
Cinebench更早版本在做Lakefield多核性能測(cè)試時(shí),,并不會(huì)啟用Sunny Cove大核可能就能說(shuō)明一些問(wèn)題(但AnandTech猜測(cè)這可能是功耗或者熱聚集考量所致)。
傳言未來(lái)的Alder Lake預(yù)計(jì)會(huì)包含8+8的設(shè)計(jì),這其中的線程調(diào)度就不只是Intel如今列出,、如上圖這樣Lakefield簡(jiǎn)單的網(wǎng)頁(yè)瀏覽場(chǎng)景了,。那將更考驗(yàn)Intel的功力。
第二是處理器本身的性能,。Lakefield宣傳中似乎的確有著不錯(cuò)的功耗表現(xiàn),,但性能實(shí)在是不大夠看。這應(yīng)該并不是什么大問(wèn)題,,一方面在于Lakefield本身就不定位在高性能,,另一方面則是這款產(chǎn)品試水和積累經(jīng)驗(yàn)的成分居多。在Architecture Day 2020之上,,Raja Koduri表示Intel從Lakefield身上學(xué)到了很多東西,,Alder Lake未來(lái)會(huì)聚焦到性能上。
終極問(wèn)題大概是,,在性能和效率上Intel能否做到蘋果M1那樣的程度,。M1芯片表現(xiàn)出的性能和效率,我個(gè)人看來(lái)是基于三個(gè)要素共同構(gòu)成的:其一是超寬的處理器架構(gòu),,其二是有針對(duì)性地添加一些專用單元,,其三則是對(duì)自家封閉生態(tài)超乎尋常的掌控力(令其能夠很隨意地做出同一內(nèi)存架構(gòu)這樣的東西)。
這將在未來(lái)M1的文章中做詳述,。這三要素可認(rèn)為是僅有蘋果這種掌控從芯片設(shè)計(jì)到開(kāi)發(fā)生態(tài),,到消費(fèi)終端產(chǎn)品銷售全環(huán)節(jié)的企業(yè)才有的資源。比如前兩者,,超寬處理器架構(gòu)和專用單元是需要以die面積(即成本)為代價(jià)的,,蘋果可以這么玩是基于其終端產(chǎn)品的高利潤(rùn)與高銷量;對(duì)于Intel,、高通這種單純賺取處理器利潤(rùn)的廠商,,這種玩法非常不經(jīng)濟(jì)(x86還存在變長(zhǎng)指令不利于解碼寬度拓寬這樣的現(xiàn)實(shí)問(wèn)題)。要達(dá)到M1的性能水平不難,,但效率就沒(méi)那么簡(jiǎn)單了,。
還有其他的一些妥協(xié),比如說(shuō)前文提到的為實(shí)現(xiàn)指令的對(duì)稱性,,Lakefield不支持AVX指令——這原本可是Sunny Cove主打的升級(jí)特性;再比如3D堆疊的兩層die分別用了兩個(gè)PMIC(電源管理IC),。這些其實(shí)都表明Lakefield的不成熟,,不過(guò)這些問(wèn)題未來(lái)都有解決的辦法。
最后更抽象的是,,是Intel的速度問(wèn)題,。這里的速度是指Intel行事與決策的響應(yīng)速度。不說(shuō)Skylake縫縫補(bǔ)補(bǔ)新三年舊三年,,最典型的是芯片制造工藝已經(jīng)落后于臺(tái)積電,,且可預(yù)期的未來(lái),,行進(jìn)速度還將非常緩慢。比如下半年大小核處理器Alder Lake要用上10nm Enhanced SuperFin(應(yīng)該是第四代10nm工藝),,這還是預(yù)期中的,。屆時(shí)的市場(chǎng)格局或許都不好說(shuō)了,以及7nm工藝遙遙無(wú)期(最早一批7nm要等到2022年下半年或2023年上半年),。
若以多年前Intel在PC處理器市場(chǎng)的地位,,這些問(wèn)題或許都不足多慮。AMD推土機(jī)推了那么多年,,蘋果也還偏安在iPhone上,,Intel有的是時(shí)間;但在如今這般光景下,,情況就相當(dāng)不樂(lè)觀了,。
好在2021年下半年也還不算遙遠(yuǎn)。Intel即將上任的CEO Pat Gelsinger也有多年技術(shù)背景,,這預(yù)計(jì)也會(huì)加快Intel技術(shù)推進(jìn)速度,,這正是目前Intel最需要的。Intel在去年的ISA Extensions Reference手冊(cè)上確認(rèn),,Alder Lake還將加入新指令支持[8],,包括LBR、HLAT,、SERIALIZE,,其中LBR可用于分支提速,對(duì)性能還有價(jià)值,。從多方面來(lái)看,,傳說(shuō)中擁有最高每瓦性能表現(xiàn)的Alder Lake都成為Intel規(guī)劃的產(chǎn)品線中讓人最為期待的處理器,并且真正讓我們看到Intel在大小核設(shè)計(jì)上的實(shí)力,。