過去的一年,,我們在處理器市場看到了AMD的崛起和Intel的頹勢,。Intel的7nm工藝遲遲沒有進(jìn)展,,而AMD卻搶先發(fā)布了第一款基于7nm的處理器,。當(dāng)然,,Intel也不會坐以待斃,,最近發(fā)布了基于3D堆疊芯片的新架構(gòu)Foveros,在采訪中更是坦言摩爾定律還有很多空間值得挖掘,。本文將分析3D堆疊架構(gòu)對于Intel以及未來處理器市場的重要影響。
More Moore與More than Moore
隨著摩爾定律經(jīng)過數(shù)十載的發(fā)展,,目前片上晶體管的尺寸已經(jīng)離技術(shù)極限不遠(yuǎn),。這意味著按照摩爾定律進(jìn)一步縮減晶體管特征尺寸的難度越來越大。于是,,半導(dǎo)體工藝下一步發(fā)展走到了十字路口,。
在過去摩爾定律的黃金時期,其背后的邏輯是:半導(dǎo)體行業(yè)需要以一個合適的速度增長以實(shí)現(xiàn)利潤的最大化,。隨著制程的進(jìn)化,,同樣的芯片的制造成本會更低,因?yàn)閱挝幻娣e晶體管數(shù)量提升導(dǎo)致相同的芯片所需要的面積縮小,。所以制程發(fā)展速度如果過慢,,則意味著芯片制作成本居高不下,導(dǎo)致利潤無法擴(kuò)大,。因此,,摩爾定律背后的終極推動力其實(shí)是經(jīng)濟(jì)因素,。同時,隨著半導(dǎo)體特征尺寸下降,,芯片的性能也會上升,,因此縮小晶體管的特征尺寸可謂是一舉兩得。
然而,,隨著半導(dǎo)體工藝接近極限,,進(jìn)一步做小特征尺寸越來越貴,在16nm節(jié)點(diǎn)時半導(dǎo)體廠商紛紛引入了FinFET和multi-pattern技術(shù),,在減小特征尺寸的同時卻也大大增加了半導(dǎo)體工藝的成本,;到了7nm又要開始引入EUV,甚至到了5nm以下的節(jié)點(diǎn)FinFET也不夠用了有可能需要使用更新一代的Gate-all-around器件,,這又回進(jìn)一步提升成本,。因此,現(xiàn)在的新半導(dǎo)體工藝僅僅是在出貨量足夠大的時候才能賺回高昂的成本,,這也是現(xiàn)在只有少部分公司有能力和決心使用最新半導(dǎo)體工藝的原因,。換句話說,特征尺寸繼續(xù)縮小的經(jīng)濟(jì)推動力在目前7nm的節(jié)點(diǎn)已經(jīng)較小,。
另一方面,,甚至性能上的推動力也不如以往。之前晶體管特征尺寸每縮小一次,,性能都會有接近50%的提升,,而現(xiàn)在特征尺寸在7nm附近每次縮小帶來的性能提升已經(jīng)所剩無幾,其主要改善主要來自于能效比的提升(每次晶體管特征尺寸縮小仍然能帶來40%左右的顯著能效比提升),。
在這樣的情況下,,是否要進(jìn)一步通過縮小晶體管特征尺寸來繼續(xù)半導(dǎo)體行業(yè)的發(fā)展成為了一個問題。一個方向當(dāng)然是延續(xù)摩爾定律的路子繼續(xù)縮小特征尺寸(即More Moore),,引入新的光刻技術(shù),,引入新的器件等等,例如三星就發(fā)布了用于3nm的Gate All-Around FET路線圖,,然而隨著性能和經(jīng)濟(jì)學(xué)推動力變?nèi)?,這樣的路徑還能走多遠(yuǎn)不好說。另一個方向就是用其他的路徑來代替摩爾定律通過縮小晶體管特征尺寸實(shí)現(xiàn)的經(jīng)濟(jì)學(xué)和性能推動力,,來延續(xù)半導(dǎo)體行業(yè)的發(fā)展,。這樣的路線就是More than Moore路線。
More than Moore目前的一種主流模式是通過高級封裝技術(shù)來實(shí)現(xiàn),。首先改變之前SoC單芯片越做越大越做越復(fù)雜的傳統(tǒng)思維,,在More than Moore中把芯片劃分成多個不同的模塊,每個模塊分別用合適的半導(dǎo)體工藝實(shí)現(xiàn)(成為芯片粒chiplet),,最后不同的chiplet再用高級封裝技術(shù)集成在同一個封裝內(nèi),。Marvell提出的Mochi架構(gòu)就是典型的More than Moore思路,,使用不同半導(dǎo)體工藝的芯片粒分別實(shí)現(xiàn)CPU、GPU,、Modem,、WiFi等不同模組,不同芯片粒之間使用標(biāo)準(zhǔn)的高速接口進(jìn)行通信,,并封裝在同一封裝內(nèi),。
在More than Moore中,經(jīng)濟(jì)學(xué)的推動要素來自于使用最適合的工藝來實(shí)現(xiàn)不同的模塊,。例如,,使用成熟的28nm甚至65nm來實(shí)現(xiàn)模擬電路,而使用最新的7nm來實(shí)現(xiàn)高性能數(shù)字邏輯,,其成本比起全部使用最新半導(dǎo)體工藝來實(shí)現(xiàn)所有模塊要便宜得多,。而在性能方面,More than Moore的推動力則來自于新的體系架構(gòu),,例如在高級封裝中可以為處理器和存儲器之間提供遠(yuǎn)高于傳統(tǒng)方案的內(nèi)存帶寬(HBM和HBM2),,內(nèi)存帶寬的提升一方面改善了系統(tǒng)性能,另一方面也為新的計(jì)算機(jī)體系架構(gòu)設(shè)計(jì)打開了大門,??偠灾贛ore Moore方向中,,晶體管縮小同時是成本降低和性能提高的驅(qū)動力,;在More than Moore方案中,成本降低來自于芯片中不同模塊各自使用最合適的工藝,,而性能提升則來自于新的電路設(shè)計(jì),。
More than Moore的高級封裝技術(shù)傳統(tǒng)方案主要有2.5D和3D兩種。2.5D技術(shù)是指將多塊芯片粒在硅載片(silicon interposer)上使用互聯(lián)線連接在一起,,由于硅載片上的互聯(lián)線密度可以遠(yuǎn)高于傳統(tǒng)PCB上的互聯(lián)線密度,,因此可以實(shí)現(xiàn)高性能互聯(lián)。其典型的技術(shù)即TSMC推出的CoWoS,,InFO以及Intel的EMIB等技術(shù)。而傳統(tǒng)的3DIC技術(shù)則是將多塊芯片堆疊在一起,,并使用TSV技術(shù)將不同的芯片做互聯(lián),。目前,3DIC主要用在內(nèi)存芯片之間的堆疊架構(gòu)和傳感器的堆疊,,而2.5D技術(shù)則已經(jīng)廣泛應(yīng)用在多款高端芯片組中,。另外3D和2.5D之間也不是完全對立,例如在HBM內(nèi)存中,,多塊內(nèi)存之間使用3DIC集成,,而內(nèi)存與主芯片之間則使用2.5D技術(shù)集成在一起,。
Intel的3D堆疊技術(shù):
More than Moore的新發(fā)展
Intel在高級封裝領(lǐng)域一直處于領(lǐng)先地位,之前的EMIB技術(shù)就有其獨(dú)到的優(yōu)勢,,而這次Intel發(fā)布的Foveros架構(gòu)則是3DIC方面一個長足的進(jìn)步,。
Foveros架構(gòu)中,芯片3D堆疊在硅載片上,,并通過硅載片做互聯(lián),。Foveros進(jìn)步在于其硅載片從原來的無源硅載片變成了有源硅載片。在之前的典型2.5D封裝中,,硅載片上只是做互聯(lián)線供芯片之間做互聯(lián),,因此是無源硅載片。而在Foveros架構(gòu)中,,硅載片是有源的,,即硅載片上除了互聯(lián)線(無源)之外,還包含了有源電路 ,。如果說傳統(tǒng)的2.5D封裝中的硅載片只是一種載片,,那么載Foveros中的有源硅載片實(shí)際上就是一塊真正的芯片了,而這次的計(jì)算和存儲芯片是堆疊在一塊真正的芯片上,,因此可以說是名副其實(shí)的3DIC,。相比2.5D封裝,使用Foveros的3D封裝大大提升了集成密度,,同時芯片與有源硅載片之間的IO帶寬也有潛力能做更大,,從而獲得更大的性能提升。
在2019年即將發(fā)布的Foveros芯片組中,,Intel計(jì)劃將一塊使用10nm工藝的高性能計(jì)算芯片粒(P1274)堆疊在一塊使用22nm工藝的有源硅載片SoC(P1222)上,。22nm的硅載片上具體擁有哪些模塊還不清楚,但是預(yù)計(jì)主要的IO接口(如DDR)電路將會在這塊有源硅載片上實(shí)現(xiàn),,因?yàn)镮O電路并不需要10nm這樣的尖端工藝,,使用22nm無論是對于成本、良率還是混合電路設(shè)計(jì)難度來說都是最適合的,。事實(shí)上,,這也符合了More than Moore的精神,即使用最合適的半導(dǎo)體工藝去實(shí)現(xiàn)相應(yīng)的模塊,,從而實(shí)現(xiàn)成本的降低,,成為半導(dǎo)體行業(yè)繼續(xù)演化的經(jīng)濟(jì)學(xué)動力。Intel在發(fā)布會上暗示,,未來可能會把混合信號電路和存儲器做在這塊有源硅載片上,,這也為3DIC有源硅載片技術(shù)帶來了很大的想象空間。
事實(shí)上,,Intel在12月發(fā)布的Foveros多少也是對AMD于11月發(fā)布的Rome架構(gòu)處理器的回應(yīng),。11月,,AMD發(fā)布的Rome架構(gòu)處理器也是基于高級封裝,由多塊7nm Zen2處理器芯片粒和一塊14nm 互聯(lián)和IO芯片使用2.5D技術(shù)封裝而成,,其中每塊7nm Zen2芯片粒都含有8個核,,而多塊芯片粒經(jīng)過組合最多可以實(shí)現(xiàn)64核,芯片粒之間則通過14nm互聯(lián)芯片進(jìn)行芯片間通信,。AMD Rome和Intel Foveros使用芯片粒加高級封裝的基本思路如出一轍,,但是Intel Foveros使用了3D封裝而AMD Rome使用的是2.5D,因此在封裝技術(shù)上Intel更勝一步,,至于Intel 3D封裝帶來的性能提升是否能抵消AMD使用7nm領(lǐng)先半導(dǎo)體工藝的優(yōu)勢,,我們不妨拭目以待。從另一個角度來看,,事實(shí)上使用More than Moore高級封裝技術(shù)已經(jīng)成為了半導(dǎo)體行業(yè)旗艦公司的共識,,未來可望從高端處理器芯片慢慢普及到更多芯片品類。
More than Moore能走多遠(yuǎn)
Intel的Foveros是More than Moore高級封裝技術(shù)的最新發(fā)展,,其使用的3D堆疊技術(shù)相較于之前的2.5D技術(shù)可謂是一大進(jìn)步,。然而,在把2.5D變?yōu)?D之后,,More than Moore接下來的路又該怎么走,?在之前的摩爾定律時代,只要縮小特征尺寸即可,;而在More than Moore時代,,又該如何繼續(xù)挖掘潛力以延續(xù)摩爾定律的輝煌呢?
我們認(rèn)為,, 現(xiàn)在半導(dǎo)體行業(yè)采用More than Moore的主要目的首先是為了提升性能,,而非提高集成度以降低成本。芯片行業(yè)經(jīng)過了數(shù)十年的發(fā)展,,已經(jīng)早已成為了大量新技術(shù)的基石:移動通信,、多媒體、人工智能,、區(qū)塊鏈等等對于社會擁有強(qiáng)大驅(qū)動力的技術(shù)無一不以高性能芯片為基礎(chǔ),。這些新技術(shù)應(yīng)用對于芯片性能提升的需求遠(yuǎn)遠(yuǎn)大于芯片成本降低的需求。這也是為什么去年AMD搶先使用7nm對Intel造成巨大影響的原因,,因?yàn)?nm新工藝意味著更強(qiáng)大的性能(而非更低的成本),。事實(shí)上,這次Intel推出的Foveros的部分原因也是希望其高性能10nm處理器能盡快量產(chǎn),,而僅僅把核心邏輯電路部分用10nm工藝實(shí)現(xiàn)而其他部分用成熟的22nm工藝做顯然能改善整體芯片組的良率,從而讓高性能芯片組早日進(jìn)入商用,??傊?,將來半導(dǎo)體先進(jìn)工藝的進(jìn)化動力將主要來自于性能提升而非成本降低。
那么,,More than Moore對于性能的提升主要來自于哪里呢,?除了之前說的可以降低使用最先進(jìn)半導(dǎo)體工藝芯片粒的面積以提升良率,從而加快新工藝芯片上市速度間接提升性能之外,,更主要的性能提升空間來自于封裝技術(shù)本身的性能提升以及芯片新架構(gòu)帶來的性能提升,。
從高級封裝技術(shù)本身來說,其主要的性能提升主要是指更高密度,、支持更高頻率信號的互聯(lián)線,,以及更復(fù)雜的堆疊模式?;ヂ?lián)線方面的提升帶來的最直觀性能改善來自于更高芯片之間(包括處理器與內(nèi)存)的通信帶寬,。在高級封裝出現(xiàn)之前,芯片間通信的帶寬往往取決于PCB板上走線的密度以及其走線支持的信號頻率,,而PCB板這里是摩爾定律管不到的地方,。2000年第一代DDR推出時的接口頻率是100MHz,而到2015年未使用高級封裝的DDR4 的接口頻率是1200MHz,,內(nèi)存帶寬在15年間僅上升12倍,,這遠(yuǎn)遠(yuǎn)小于處理器的性能提升速度,因此內(nèi)存帶寬事實(shí)上成為了系統(tǒng)性能的瓶頸,,即所謂的“內(nèi)存墻”,。而當(dāng)基于高級封裝的HBM出現(xiàn)時,一下將內(nèi)存帶寬由DDR4時代的19.2GB/s提升到了128GB/s,,HBM2更是提升到了256GB/s,,可謂是質(zhì)的提升。HBM帶來的性能提升主要來自于高級封裝優(yōu)質(zhì)的互聯(lián)線,,一方面走線密度大大提升,,之前DDR系列的借口寬度為64,而HBM則提升到了1024,;
另一方面由于高級封裝走線對于高頻信號的支持遠(yuǎn)好于傳統(tǒng)PCB,,因此未來有更大的潛力能繼續(xù)提升芯片間的通信速度,從而讓“內(nèi)存墻”問題不復(fù)存在,。在堆疊模式方面,,我們看到了Foveros從2.5D進(jìn)化到了3D,未來可望還能實(shí)現(xiàn)更多層次的堆疊等,。然而,,新的堆疊工藝開發(fā)難度遠(yuǎn)高于高級封裝內(nèi)走線密度的提升,因此我們在未來幾年內(nèi)更有希望看到的是使用高級封裝技術(shù)帶來的更方便靈活同時也速度更高的芯片間通信。
除了高級封裝本身帶來的直接性能提升,,More than Moore在未來對于芯片的性能提升潛力來自于新的處理器架構(gòu)設(shè)計(jì),。事實(shí)上,學(xué)術(shù)界和業(yè)界在新的處理器架構(gòu)上的研究已經(jīng)有非常多的積累,,但是由于標(biāo)準(zhǔn)CMOS工藝的各種考量一直沒有商業(yè)化,,而隨著More than Moore高級封裝技術(shù)的到來,這些研究都可望能實(shí)用化,,從而成為半導(dǎo)體行業(yè)的重要驅(qū)動力,。例如,眾核架構(gòu)之前已經(jīng)研究了很久,,但是以往的技術(shù)在實(shí)施眾核架構(gòu)時會遇到各種實(shí)際的問題,。如果把眾核集成在一塊芯片上,則芯片面積可能過大而導(dǎo)致良率問題,;如果把眾核封裝成不同的芯片,,則芯片間通信的開銷會過大。現(xiàn)在隨著高級封裝技術(shù)的來臨,,可以把眾核做成多個芯片粒,,并用硅載片上的高速總線進(jìn)行芯片間通信,從而充分發(fā)揮眾核架構(gòu)的設(shè)計(jì)優(yōu)勢,。
事實(shí)上,,我們看到AMD Rome使用多個芯片粒組合成64核處理器正是一個印證。除了眾核芯片之外,,各種新存儲器也將從More than Moore路線中獲益,。新存儲器,如MRAM,,ReRAM等,,能提供很高的存儲密度和很低的訪問延遲,但是因?yàn)樾枰厥夤に囈虼撕茈y直接集成到使用最新半導(dǎo)體工藝的SoC上,,這也是之前新存儲器商用化較慢的一個原因?,F(xiàn)在有了高級封裝則無需再擔(dān)心工藝的兼容性問題,而是完全可以把SoC和存儲器做成不同的芯片粒,,然后用硅載片連接到一起,。這樣同一封裝內(nèi)的新存儲器可以作為新的大容量緩存單元,從而提升處理器的性能,。最后,,More than Moore和目前流行的異構(gòu)計(jì)算相結(jié)合也能獲得良好的效果:異構(gòu)計(jì)算主張把不同的計(jì)算使用專用化的計(jì)算處理單元來完成以實(shí)現(xiàn)高性能高效率計(jì)算,而More than Moore路線則可以把異構(gòu)計(jì)算中使用到的專用計(jì)算處理單元用合適工藝的芯片粒實(shí)現(xiàn),,然后用高級封裝技術(shù)實(shí)現(xiàn)互聯(lián)和封裝,。這樣通過類似樂高積木一樣組合不同的專用化處理模組芯片粒,,就可以快速而高效地設(shè)計(jì)出高性能專用芯片模組。
綜上,,結(jié)合高級封裝技術(shù)本身的技術(shù)提升,,More than Moore路線開啟的新架構(gòu)設(shè)計(jì)以及異構(gòu)計(jì)算的新設(shè)計(jì)理念和設(shè)計(jì)生態(tài),我們預(yù)計(jì)在未來處理器至少還能實(shí)現(xiàn)10倍以上性能提升,。而且,在More than Moore時代,,芯片性能提升中,,設(shè)計(jì)師的重要性大大提升,因此未來將是芯片設(shè)計(jì)的好時代,。