由于處理器與存儲(chǔ)器的工藝,、封裝,、需求的不同,從1980年開始至今二者之間的性能差距越來(lái)越大,。有數(shù)據(jù)顯示,,處理器和存儲(chǔ)器的速度失配以每年50%的速率增加。
存儲(chǔ)器數(shù)據(jù)訪問(wèn)速度跟不上處理器的數(shù)據(jù)處理速度,,數(shù)據(jù)傳輸就像處在一個(gè)巨大的漏斗之中,,不管處理器灌進(jìn)去多少,存儲(chǔ)器都只能“細(xì)水長(zhǎng)流”,。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,,在存儲(chǔ)與運(yùn)算之間筑起了一道“內(nèi)存墻”。
隨著數(shù)據(jù)的爆炸勢(shì)增長(zhǎng),,內(nèi)存墻對(duì)于計(jì)算速度的影響愈發(fā)顯現(xiàn),。為了減小內(nèi)存墻的影響,提升內(nèi)存帶寬一直是存儲(chǔ)芯片聚焦的關(guān)鍵問(wèn)題,。
長(zhǎng)期以來(lái),,內(nèi)存行業(yè)的價(jià)值主張?jiān)诤艽蟪潭壬鲜冀K以系統(tǒng)級(jí)需求為導(dǎo)向,已經(jīng)突破了系統(tǒng)性能的當(dāng)前極限,。很明顯的一點(diǎn)是,,內(nèi)存性能的提升將出現(xiàn)拐點(diǎn),,因?yàn)樵絹?lái)越多人開始質(zhì)疑是否能一直通過(guò)內(nèi)存級(jí)的取舍(如功耗、散熱,、占板空間等)來(lái)提高系統(tǒng)性能,。
基于對(duì)先進(jìn)技術(shù)和解決方案開展的研究,內(nèi)存行業(yè)在新領(lǐng)域進(jìn)行了更深入的探索,。作為存儲(chǔ)器市場(chǎng)的重要組成部分,,DRAM技術(shù)不斷地升級(jí)衍生。DRAM從2D向3D技術(shù)發(fā)展,,其中HBM是主要代表產(chǎn)品,。
HBM(High Bandwidth Memory,高帶寬內(nèi)存)是一款新型的CPU/GPU 內(nèi)存芯片,,其實(shí)就是將很多個(gè)DDR芯片堆疊在一起后和GPU封裝在一起,,實(shí)現(xiàn)大容量,高位寬的DDR組合陣列,。
通過(guò)增加帶寬,,擴(kuò)展內(nèi)存容量,讓更大的模型,,更多的參數(shù)留在離核心計(jì)算更近的地方,從而減少內(nèi)存和存儲(chǔ)解決方案帶來(lái)的延遲,。
從技術(shù)角度看,,HBM使DRAM從傳統(tǒng)2D轉(zhuǎn)變?yōu)榱Ⅲw3D,充分利用空間,、縮小面積,,契合半導(dǎo)體行業(yè)小型化、集成化的發(fā)展趨勢(shì),。HBM突破了內(nèi)存容量與帶寬瓶頸,,被視為新一代DRAM解決方案,業(yè)界認(rèn)為這是DRAM通過(guò)存儲(chǔ)器層次結(jié)構(gòu)的多樣化開辟一條新的道路,,革命性提升DRAM的性能,。
在內(nèi)存領(lǐng)域,一場(chǎng)關(guān)于HBM的競(jìng)賽已悄然打響,。
巨頭領(lǐng)跑,,HBM3時(shí)代來(lái)臨
據(jù)了解,HBM主要是通過(guò)硅通孔(Through Silicon Via, 簡(jiǎn)稱“TSV”)技術(shù)進(jìn)行芯片堆疊,,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制,,將數(shù)個(gè)DRAM裸片像樓層一樣垂直堆疊。
SK海力士表示,,TSV是在DRAM芯片上搭上數(shù)千個(gè)細(xì)微孔并通過(guò)垂直貫通的電極連接上下芯片的技術(shù),。該技術(shù)在緩沖芯片上將數(shù)個(gè)DRAM芯片堆疊起來(lái),并通過(guò)貫通所有芯片層的柱狀通道傳輸信號(hào)、指令,、電流,。相較傳統(tǒng)封裝方式,該技術(shù)能夠縮減30%體積,,并降低50%能耗,。
憑借TSV方式,HBM大幅提高了容量和數(shù)據(jù)傳輸速率,。與傳統(tǒng)內(nèi)存技術(shù)相比,,HBM具有更高帶寬、更多I/O數(shù)量,、更低功耗,、更小尺寸。隨著存儲(chǔ)數(shù)據(jù)量激增,,市場(chǎng)對(duì)于HBM的需求將有望大幅提升,。
HBM的高帶寬離不開各種基礎(chǔ)技術(shù)和先進(jìn)設(shè)計(jì)工藝的支持。由于HBM是在3D結(jié)構(gòu)中將一個(gè)邏輯die與4-16個(gè)DRAM die堆疊在一起,,因此開發(fā)過(guò)程極為復(fù)雜,。鑒于技術(shù)上的復(fù)雜性,HBM是公認(rèn)最能夠展示廠商技術(shù)實(shí)力的旗艦產(chǎn)品,。
2013年,,SK海力士將TSV技術(shù)應(yīng)用于DRAM,在業(yè)界首次成功研發(fā)出HBM,。
HBM1的工作頻率約為1600 Mbps,,漏極電源電壓為1.2V,芯片密度為2Gb(4-hi),。HBM1的帶寬高于DDR4和GDDR5產(chǎn)品,,同時(shí)以較小的外形尺寸消耗較低的功率,更能滿足GPU等帶寬需求較高的處理器,。
隨后,,SK海力士、三星,、美光等存儲(chǔ)巨頭在HBM領(lǐng)域展開了升級(jí)競(jìng)賽,。
2016年1月,三星宣布開始量產(chǎn)4GB HBM2 DRAM,,并在同一年內(nèi)生產(chǎn)8GB HBM2 DRAM,;2017年下半年,被三星趕超的SK海力士開始量產(chǎn)HBM2,;2018年1月,,三星宣布開始量產(chǎn)第二代8GB HBM2“Aquabolt”,。
2018年末,JEDEC推出HBM2E規(guī)范,,以支持增加的帶寬和容量,。當(dāng)傳輸速率上升到每管腳3.6Gbps時(shí),HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬,。此外,,HBM2E支持最多12個(gè)DRAM的堆棧,內(nèi)存容量高達(dá)每堆棧24GB,。與HBM2相比,,HBM2E具有技術(shù)更先進(jìn)、應(yīng)用范圍更廣泛,、速度更快,、容量更大等特點(diǎn)。
2019年8月,,SK海力士宣布成功研發(fā)出新一代“HBM2E”,;2020年2月,三星也正式宣布推出其16GB HBM2E產(chǎn)品“Flashbolt”,,于2020年上半年開始量產(chǎn),。
據(jù)三星介紹,其16GB HBM2E Flashbolt通過(guò)垂直堆疊8層10納米級(jí)16GB DRAM晶片,,能夠提供高達(dá)410GB/s的內(nèi)存帶寬級(jí)別和每引腳3.2 GB/s的數(shù)據(jù)傳輸速度,。
SK海力士的HBM2E以每個(gè)引腳3.6Gbps的處理速度,每秒能處理超過(guò)460GB的數(shù)據(jù),,包含1024個(gè)數(shù)據(jù)I/O。通過(guò)TSV技術(shù)垂直堆疊8個(gè)16GB芯片,,其HBM2E單顆容量16GB,。
2020年,另一家存儲(chǔ)巨頭美光宣布加入到這一賽場(chǎng)中來(lái),。
美光在當(dāng)時(shí)的財(cái)報(bào)會(huì)議上表示,,將開始提供HBM2內(nèi)存/顯存,用于高性能顯卡,,服務(wù)器處理器產(chǎn)品,,并預(yù)計(jì)下一代HBMNext將在2022年底面世。但截止目前尚未看到美光相關(guān)產(chǎn)品動(dòng)態(tài),。
2022年1月,,JEDEC組織正式發(fā)布了新一代高帶寬內(nèi)存HBM3的標(biāo)準(zhǔn)規(guī)范,繼續(xù)在存儲(chǔ)密度,、帶寬,、通道,、可靠性、能效等各個(gè)層面進(jìn)行擴(kuò)充升級(jí),,具體包括:
主接口使用0.4V低擺幅調(diào)制,,運(yùn)行電壓降低至1.1V,進(jìn)一步提升能效表現(xiàn),。
傳輸數(shù)據(jù)率在HBM2基礎(chǔ)上再次翻番,,每個(gè)引腳的傳輸率為6.4Gbps,配合1024-bit位寬,,單顆最高帶寬可達(dá)819GB/s,。
如果使用四顆,總帶寬就是3.2TB/s,,六顆則可達(dá)4.8TB/s,。
獨(dú)立通道數(shù)從8個(gè)翻番到16個(gè),再加上虛擬通道,,單顆支持32通道,。
支持4層、8層和12層TSV堆棧,,并為未來(lái)擴(kuò)展至16層TSV堆棧做好準(zhǔn)備,。
每個(gè)存儲(chǔ)層容量8/16/32Gb,單顆容量起步4GB(8Gb 4-high),、最大容量64GB(32Gb 16-high),。
支持平臺(tái)級(jí)RAS可靠性,集成ECC校驗(yàn)糾錯(cuò),,支持實(shí)時(shí)錯(cuò)誤報(bào)告與透明度,。
JEDEC表示,HBM3是一種創(chuàng)新的方法,,是更高帶寬,、更低功耗和單位面積容量的解決方案,對(duì)于高數(shù)據(jù)處理速率要求的應(yīng)用場(chǎng)景來(lái)說(shuō)至關(guān)重要,,比如圖形處理和高性能計(jì)算的服務(wù)器,。
SK海力士早在2021年10月就開發(fā)出全球首款HBM3,2022年6月量產(chǎn)了HBM3 DRAM芯片,,并將供貨英偉達(dá),,持續(xù)鞏固其市場(chǎng)領(lǐng)先地位。隨著英偉達(dá)使用HBM3 DRAM,,數(shù)據(jù)中心或?qū)⒂瓉?lái)新一輪的性能革命,。
根據(jù)此前的資料介紹,SK海力士提供了兩種容量產(chǎn)品,,一個(gè)是12層硅通孔技術(shù)垂直堆疊的24GB(196Gb),,另一個(gè)則是8層堆疊的16GB(128Gb),,均提供819 GB/s的帶寬,前者的芯片高度也僅為30微米,。相比上一代HBM2E的460 GB/s帶寬,,HBM3的帶寬提高了78%。此外,,HBM3內(nèi)存還內(nèi)置了片上糾錯(cuò)技術(shù),,提高了產(chǎn)品的可靠性。
SK海力士對(duì)于HBM的研發(fā)一直非常積極,,為了滿足客戶不斷增加的期望,,打破現(xiàn)有框架進(jìn)行新技術(shù)開發(fā)勢(shì)在必行。SK海力士還在與HBM生態(tài)系統(tǒng)中的參與者(客戶,、代工廠和IP公司等)通力合作,,以提升生態(tài)系統(tǒng)等級(jí)。商業(yè)模式的轉(zhuǎn)變同樣是大勢(shì)所趨,。作為HBM領(lǐng)軍企業(yè),,SK海力士將致力于在計(jì)算技術(shù)領(lǐng)域不斷取得進(jìn)步,全力實(shí)現(xiàn)HBM的長(zhǎng)期發(fā)展,。
三星也在積極跟進(jìn),,在2022年技術(shù)發(fā)布會(huì)上發(fā)布的內(nèi)存技術(shù)發(fā)展路線圖中,三星展示了涵蓋不同領(lǐng)域的內(nèi)存接口演進(jìn)的速度,。首先,,在云端高性能服務(wù)器領(lǐng)域,HBM已經(jīng)成為了高端GPU的標(biāo)配,,這也是三星在重點(diǎn)投資的領(lǐng)域之一,。HBM的特點(diǎn)是使用高級(jí)封裝技術(shù),使用多層堆疊實(shí)現(xiàn)超高IO接口寬度,,同時(shí)配合較高速的接口傳輸速率,,從而實(shí)現(xiàn)高能效比的超高帶寬。
在三星發(fā)布的路線圖中,,2022年HBM3技術(shù)已經(jīng)量產(chǎn),其單芯片接口寬度可達(dá)1024bit,,接口傳輸速率可達(dá)6.4Gbps,,相比上一代提升1.8倍,從而實(shí)現(xiàn)單芯片接口帶寬819GB/s,,如果使用6層堆疊可以實(shí)現(xiàn)4.8TB/s的總帶寬,。
2024年預(yù)計(jì)將實(shí)現(xiàn)接口速度高達(dá)7.2Gbps的HBM3p,從而將數(shù)據(jù)傳輸率相比這一代進(jìn)一步提升10%,,從而將堆疊的總帶寬提升到5TB/s以上,。另外,,這里的計(jì)算還沒(méi)有考慮到高級(jí)封裝技術(shù)帶來(lái)的高多層堆疊和內(nèi)存寬度提升,預(yù)計(jì)2024年HBM3p單芯片和堆疊芯片都將實(shí)現(xiàn)更多的總帶寬提升,。而這也將會(huì)成為人工智能應(yīng)用的重要推動(dòng)力,,預(yù)計(jì)在2025年之后的新一代云端旗艦GPU中看到HBM3p的使用,從而進(jìn)一步加強(qiáng)云端人工智能的算力,。
從HBM1到HBM3,,SK海力士和三星一直是HBM行業(yè)的領(lǐng)軍企業(yè)。
HBM未來(lái)潛力與演進(jìn)方向
對(duì)于接下來(lái)的規(guī)劃策略和技術(shù)進(jìn)步,,業(yè)界旨在突破目前HBM在速度,、密度、功耗,、占板空間等方面的極限,。
首先,為了打破速度極限,,SK海力士正在評(píng)估提高引腳數(shù)據(jù)速率的傳統(tǒng)方法的利弊,,以及超過(guò)1024個(gè)數(shù)據(jù)的I/O總線位寬,以實(shí)現(xiàn)更好的數(shù)據(jù)并行性和向后設(shè)計(jì)兼容性,。簡(jiǎn)單來(lái)講,,即用最少的取舍獲得更高的帶寬性能。
針對(duì)更大數(shù)據(jù)集,、訓(xùn)練工作負(fù)載所需的更高內(nèi)存密度要求,,存儲(chǔ)廠商開始著手研究擴(kuò)展Die堆疊層數(shù)和物理堆疊高度,以及增加核心Die密度以優(yōu)化堆疊密度,。
另一方面也在致力于提高功耗效率,,通過(guò)評(píng)估從最低微結(jié)構(gòu)級(jí)別到最高Die堆疊概念的內(nèi)存結(jié)構(gòu)和操作方案,最大限度地降低每帶寬擴(kuò)展的絕對(duì)功耗,。由于現(xiàn)有中介層光罩尺寸的物理限制以及支持處理單元和HBM Cube的其他相關(guān)技術(shù),,實(shí)現(xiàn)總內(nèi)存Die尺寸最小化尤為重要。因此,,行業(yè)廠商需要在不擴(kuò)大現(xiàn)有物理尺寸的情況下增加存儲(chǔ)單元數(shù)量和功能,,從而實(shí)現(xiàn)整體性能的飛躍。
但從產(chǎn)業(yè)發(fā)展歷程來(lái)看,,完成上述任務(wù)的前提是:存儲(chǔ)廠商要與上下游生態(tài)系統(tǒng)合作伙伴攜手合作和開放協(xié)同,,將HBM的使用范圍從現(xiàn)有系統(tǒng)擴(kuò)展到潛在的下一代應(yīng)用。
此外,,新型HBM-PIM(存內(nèi)計(jì)算)芯片將AI引擎引入每個(gè)存儲(chǔ)庫(kù),,從而將處理操作轉(zhuǎn)移到HBM。
在傳統(tǒng)架構(gòu)下,,數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍,,數(shù)據(jù)的搬運(yùn)耗費(fèi)的功耗遠(yuǎn)大于計(jì)算,,因此真正用于計(jì)算的能耗和時(shí)間占比很低,數(shù)據(jù)在存儲(chǔ)器與處理器之間的頻繁遷移帶來(lái)嚴(yán)重的傳輸功耗問(wèn)題,,稱為“功耗墻”,。新型的內(nèi)存旨在減輕在內(nèi)存和處理器之間搬運(yùn)數(shù)據(jù)的負(fù)擔(dān)。
寫在最后
過(guò)去幾年來(lái),,HBM產(chǎn)品帶寬增加了數(shù)倍,,目前已接近或達(dá)到1TB/秒的里程碑節(jié)點(diǎn)。相較于同期內(nèi)其他產(chǎn)品僅增加兩三倍的帶寬增速,,HBM的快速發(fā)展歸功于存儲(chǔ)器制造商之間的競(jìng)爭(zhēng)和比拼,。
存儲(chǔ)器帶寬指單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,,最簡(jiǎn)單的方法是增加數(shù)據(jù)傳輸線路的數(shù)量,。事實(shí)上,每個(gè)HBM由多達(dá)1024個(gè)數(shù)據(jù)引腳組成,,HBM內(nèi)部的數(shù)據(jù)傳輸路徑隨著每一代產(chǎn)品的發(fā)展而顯著增長(zhǎng),。
各代HBM產(chǎn)品的數(shù)據(jù)傳輸路徑配置
回顧HBM的演進(jìn)歷程,第一代HBM數(shù)據(jù)傳輸速率大概可達(dá)1Gbps,;2016年推出的第二代產(chǎn)品HBM2,,最高數(shù)據(jù)傳輸速率可達(dá)2Gbps;2018年,,第三代產(chǎn)品HBM2E的最高數(shù)據(jù)傳輸速率已經(jīng)可達(dá)3.6Gbps,。如今,SK海力士和三星已研發(fā)出第四代產(chǎn)品HBM3,,此后HBM3預(yù)計(jì)仍將持續(xù)發(fā)力,,在數(shù)據(jù)傳輸速率上有更大的提升。
從性能來(lái)看,,HBM無(wú)疑是出色的,,其在數(shù)據(jù)傳輸?shù)乃俾省捯约懊芏壬隙加兄薮蟮膬?yōu)勢(shì),。不過(guò),,目前HBM仍主要應(yīng)用于服務(wù)器、數(shù)據(jù)中心等應(yīng)用領(lǐng)域,,其最大的限制條件在于成本,,對(duì)成本比較敏感的消費(fèi)領(lǐng)域而言,HBM的使用門檻仍較高,。
盡管HBM已更迭到了第四代,但HBM現(xiàn)在依舊處于相對(duì)早期的階段,,其未來(lái)還有很長(zhǎng)的一段路要走,。
而可預(yù)見的是,,隨著人工智能、機(jī)器學(xué)習(xí),、高性能計(jì)算,、數(shù)據(jù)中心等應(yīng)用市場(chǎng)的興起,內(nèi)存產(chǎn)品設(shè)計(jì)的復(fù)雜性正在快速上升,,并對(duì)帶寬提出了更高的要求,,不斷上升的寬帶需求持續(xù)驅(qū)動(dòng)HBM發(fā)展。市場(chǎng)調(diào)研機(jī)構(gòu)Omdia預(yù)測(cè),,2025年HBM市場(chǎng)的總收入將達(dá)到25億美元,。
在這個(gè)過(guò)程中,存儲(chǔ)巨頭持續(xù)發(fā)力,、上下游廠商相繼入局,,HBM將受到越來(lái)越多的關(guān)注與青睞。
更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<