經(jīng)歷了幾年的高速發(fā)展之后,,人工智能(簡稱AI)不再是新鮮的名詞,它已經(jīng)作為一個重要的生產(chǎn)工具,,被引入到我們工作和生活的多個領(lǐng)域。但在AI爆發(fā)的背后,隨之而來的是對AI算力需求的暴增。
據(jù)OpenAI的一份報(bào)告顯示,,從2012年到2019年,人工智能訓(xùn)練集增長了30萬倍,,每3.43個月翻一番,但如果是以摩爾定律的速度,,只會有 12 倍的增長,。為了滿足AI算力的需求,從業(yè)人員通過設(shè)計(jì)專用的AI芯片,、重配置硬件和算法創(chuàng)新等多方面入手來達(dá)成目標(biāo),。
AI算力需求增長
然而在此過程中,我們除了看到AI對算力的要求以外,,內(nèi)存帶寬也是限制AI芯片發(fā)展的另一個關(guān)鍵要素,。這就需要從傳統(tǒng)的馮諾依曼架構(gòu)談起。作為當(dāng)前芯片的主流架構(gòu),,馮諾依曼架構(gòu)的一大特征就是計(jì)算和內(nèi)存分離的,。那就意味著每進(jìn)行一次計(jì)算,計(jì)算單元都要從內(nèi)存中讀取數(shù)據(jù)然后計(jì)算,,再把計(jì)算結(jié)構(gòu)存回到內(nèi)存當(dāng)中,。
經(jīng)典的馮諾依曼架構(gòu)
在過往,這個架構(gòu)的短板并不是很明顯,,因?yàn)樘幚砥骱蛢?nèi)存的速度都都非常接近,。但眾所周知的是,,在摩爾定律指導(dǎo)下的處理器在過去幾十年里發(fā)生了翻天覆地的變化,但常用的DRAM方案與之相比,,提升幅度不值一提,。
再者,在AI時代,,數(shù)據(jù)傳輸量越來越大,。先進(jìn)的駕駛員輔助系統(tǒng)(ADAS)為例。第3級及更高級別系統(tǒng)的復(fù)雜數(shù)據(jù)處理需要超過200 GB/s的內(nèi)存帶寬,。這些高帶寬是復(fù)雜的AI/ML算法的基本需求,,在道路上自駕過程中這些算法需要快速執(zhí)行大量計(jì)算并安全地執(zhí)行實(shí)時決策。在第5級,,即完全自主駕駛,,車輛能夠獨(dú)立地對交通標(biāo)志和信號的動態(tài)環(huán)境作出反應(yīng),以及準(zhǔn)確地預(yù)測汽車,、卡車,、自行車和行人的移動,將需要巨大的內(nèi)存帶寬,。
因此,,AI芯片尋找新的內(nèi)存方案迫在眉睫,其中HBM和GDDR SDRAM(簡稱GDDR)就成為了行業(yè)的選擇,。
為什么是HBM和GDDR ,?
HBM就是High Bandwidth Memory的縮寫,也就是高帶寬內(nèi)存,,這是一項(xiàng)在2013年10月被JEDEC采納為業(yè)界標(biāo)準(zhǔn)的內(nèi)存技術(shù),。按照AMD的介紹,這種新型的 CPU/GPU 內(nèi)存芯片(即 “RAM”),,就像摩天大廈中的樓層一樣可以垂直堆疊,。基于這種設(shè)計(jì),,信息交換的時間將會縮短,。這些堆疊的芯片通過稱為“中介層 (Interposer)”的超快速互聯(lián)方式連接至 CPU 或 GPU。將HBM的堆棧插入到中介層中,,放置于 CPU 或 GPU 旁邊,,然后將組裝后的模塊連接至電路板。
盡管這些 HBM 堆棧沒有以物理方式與 CPU 或 GPU 集成,,但通過中介層緊湊而快速地連接后,,HBM 具備的特性幾乎和芯片集成的 RAM 一樣。更重要的是,,這些獨(dú)特的設(shè)計(jì)能給開發(fā)者帶來功耗,、性能和尺寸等多個方面的優(yōu)勢,。
從第一代HBM與2013年面世后,JEDEC又分別在2016年和2018把HBM2和HBM2E納為行業(yè)標(biāo)準(zhǔn),。據(jù)了解,,在HBM2E規(guī)范下,當(dāng)傳輸速率上升到每管腳3.6Gbps時,,HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬,。此外,HBM2E支持12個DRAM的堆棧,,內(nèi)存容量高達(dá)每堆棧24 GB,。
具體而言,就是說每一個運(yùn)行速度高達(dá)3.6Gbps的HBM2E堆棧通過1024個數(shù)據(jù)“線”的接口連接到它的相關(guān)處理器,。通過命令和地址,,線的數(shù)量增加到大約1700條。這遠(yuǎn)遠(yuǎn)超出了標(biāo)準(zhǔn)PCB所能支持的范圍,。因此,,硅中介層被采用作為連接內(nèi)存堆棧和處理器的中介。與SoC一樣,,精細(xì)數(shù)據(jù)走線可以在硅中介層中以蝕刻間隔的方式實(shí)現(xiàn),,以獲得HBM接口所需數(shù)量的數(shù)據(jù)線數(shù)。
得益于其巨大內(nèi)存帶寬的能力,,使得連接到一個處理器的四塊HBM2E內(nèi)存堆棧將提供超過1.8 TB/s的帶寬,。通過3D堆疊內(nèi)存,可以以極小的空間實(shí)現(xiàn)高帶寬和高容量需求,。進(jìn)一步,,通過保持相對較低的數(shù)據(jù)傳輸速率,并使內(nèi)存靠近處理器,,總體系統(tǒng)功率得以維持在較低水位。
根據(jù)Rambus的介紹,,HBM2E的性能非常出色,,所增加的采用和制造成本可以透過節(jié)省的電路板空間和電力相互的緩解 。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中,,HBM2E緊湊的體系結(jié)構(gòu)提供了切實(shí)的好處,。它的低功率意味著它的熱負(fù)荷較低,在這種環(huán)境中,,冷卻成本通常是幾個最大的運(yùn)營成本之一,。
正因?yàn)槿绱耍琀BM2E成為了AI芯片的一個優(yōu)先選擇,,這也是英偉達(dá)在Tesla A100和谷歌在二代TPU上選擇這個內(nèi)存方案的原因,。但如前面所說,,因?yàn)镠BM獨(dú)特的設(shè)計(jì),其復(fù)雜性,、成本都高于其他方案,,這時候,GDDR就發(fā)揮了重大的作用,。
據(jù)了解,,圖形DDR SDRAM(GDDR SDRAM)最初是20多年前為游戲和顯卡市場設(shè)計(jì)的。在這段時間內(nèi),,GDDR經(jīng)歷了幾次重大變革,,最新一代GDDR6的數(shù)據(jù)傳輸速率為16Gbps。GDDR6提供了令人印象深刻的帶寬,、容量,、延遲和功率。它將工作電壓從1.5V降低到1.35V以獲得更高的功率效率,,并使GDDR5內(nèi)存的數(shù)據(jù)傳輸速率(16比8 Gbps)和容量(16比8 GB)翻了一番,。Rambus已經(jīng)演示了一個運(yùn)行速度為18 Gbps的GDDR6接口,顯示這種內(nèi)存架構(gòu)還有額外的增長空間,。
與HBM2E不同,,GDDR6 DRAM采用與生產(chǎn)標(biāo)準(zhǔn)DDR式DRAM的大批量制造和組裝一樣的技術(shù)。更具體地說,,GDDR6采用傳統(tǒng)的方法,,通過標(biāo)準(zhǔn)PCB將封裝和測試的DRAMs與SoC連接在一起。利用現(xiàn)有的基礎(chǔ)架構(gòu)和流程為系統(tǒng)設(shè)計(jì)者提供了熟悉度,,從而降低了成本和實(shí)現(xiàn)的復(fù)雜性,。
與HBM2E寬而慢的內(nèi)存接口不同,GDDR6接口窄而快,。兩個16位寬通道(32條數(shù)據(jù)線)將GDDR6 PHY連接到相關(guān)的SDRAM,。GDDR6接口以每針16 Gbps的速度運(yùn)行,可以提供64 GB/s的帶寬,?;氐轿覀冎暗腖3汽車示例,GDDR6內(nèi)存系統(tǒng)以連接四個DRAM設(shè)備為例,,帶寬可以達(dá)到200 GB/s,。
采用GDDR6的主要設(shè)計(jì)挑戰(zhàn)也來自于它最強(qiáng)大的特性之一:速度。在較低的電壓條件,,16 Gbps的信號速度下,,保持信號完整性需要大量的專業(yè)經(jīng)驗(yàn)知識。設(shè)計(jì)人員面臨更緊的時序和電壓裕度量損失,,這些損失來源與影響都在迅速增加,。系統(tǒng)的接口行為,、封裝和電路板需要相互影響,需要采用協(xié)同設(shè)計(jì)方法來保證系統(tǒng)的信號完整性,。
總的來說,,GDDR6內(nèi)存的優(yōu)異性能特性建立久經(jīng)考驗(yàn)的基礎(chǔ)制造過程之上,是人工智能推理的理想內(nèi)存解決方案,。其出色的性價比使其適合在廣泛的邊緣網(wǎng)絡(luò)和物聯(lián)網(wǎng)終端設(shè)備上大量采用,。
Rambus將扮演重要角色
從上文的介紹中,我們看到了HBM2E和GDDR 6在AI中的重要作用,,而要真正將其落實(shí)到AI芯片中,,相應(yīng)的IP供應(yīng)商將是很關(guān)鍵的一環(huán),而Rambus將扮演這個重要角色,。
據(jù)Rambus大中華區(qū)總經(jīng)理Raymond Su介紹,,Rambus成立于上個世紀(jì)90年代,是一家領(lǐng)先的Silicon IP和芯片提供商,,公司主要致力于讓數(shù)據(jù)傳輸?shù)酶?、更安全。而從產(chǎn)品上看,,Rambus的產(chǎn)品主要聚焦于三大塊:分別是基礎(chǔ)架構(gòu)許可,、Silicon IP授權(quán),還有buffer chip芯片業(yè)務(wù),。
“得益于這些深厚的積累,,我們能提供友商所不具備的差異性服務(wù)”,Raymond Su補(bǔ)充說,。他指出:
首先,,在內(nèi)存IP層面,Rambus提供一站式的采購和“turn key”服務(wù),。而公司在去年完成的對全球知名的IP控制器公司Northwest Logic和對Verimatrix安全I(xiàn)P業(yè)務(wù)部,,可以讓Rambus能夠提供更好的一站式的服務(wù)。
“通過這樣的服務(wù),,Rambus IP可以很好地幫助客戶盡早地把產(chǎn)品推向市場”,,Raymond Su表示。
其次,,作為全球領(lǐng)先的HBM IP供應(yīng)商,Rambus在全球已經(jīng)有50多個成功項(xiàng)目案例,,積累了大量的經(jīng)驗(yàn),;而在DDR5 Buffer Chip(緩沖芯片)方面,Rambus也是全球首發(fā),。這讓他們在DDR5時代有信心改變整個市場,。而在AI芯片迫切需要的HBM2E和GDDR 6 IP方面,,Rambus也都做好了準(zhǔn)備。
從Rambus IP核產(chǎn)品營銷高級總監(jiān)Frank Ferro的介紹我們得知,,他們將HBM2E的性能提升到了4Gbps,。在他看來,這個速度是一個全新的行業(yè)標(biāo)桿,,而此次Rambus發(fā)布我們?nèi)碌腍BM2E產(chǎn)品也正是實(shí)現(xiàn)了這一行業(yè)最高標(biāo)準(zhǔn),。
根據(jù)Rambus發(fā)布的白皮書介紹,他們HBM2E接口完全符合JEDEC JESD235B標(biāo)準(zhǔn),。支持每個數(shù)據(jù)引腳高達(dá)3.6 Gbps的數(shù)據(jù)傳輸速率,。該接口具有8個獨(dú)立的通道,每個通道包含128位,,總數(shù)據(jù)寬度為1024位,。由此每個堆棧支持的帶寬是461GB/s,每個堆棧由2,、4,、8或12個DRAMs組成。
作為一個為2.5D系統(tǒng)設(shè)計(jì)的IP,,它有一個用于在3D-DRAM堆棧和SoC上的PHY之間的中介層由提供信號繞線,。這種信號密度和堆積尺寸的組合需要特殊的設(shè)計(jì)考慮。為了便于實(shí)施和提高了設(shè)計(jì)的靈活性,,Rambus對整個2.5D系統(tǒng)進(jìn)行完整的信號和功率完整性分析,,以確保所有信號、功率和散熱要求都得到滿足,。而在于其他競爭對手相比,,Rambus的HBM IP則有著大多數(shù)廠商布局的幾點(diǎn)核心優(yōu)勢:
第一,Rambus提供的是完全集成而且經(jīng)過驗(yàn)證的PHY以及內(nèi)存控制器IP解決方案,,在物理層面實(shí)現(xiàn)完整的集成互聯(lián),。除了完整的內(nèi)存子系統(tǒng)之外,他們的PHY也經(jīng)過了硬核化處理,,同時也完成了timing closed也就是時序收斂的工作,。
“我們給客戶提供的并不僅僅是自己的IP授權(quán)、IP產(chǎn)品,,我們也會向客戶提供系統(tǒng)級的全面的集成支持,,以及相關(guān)的工具套件,以及我們的技術(shù)服務(wù),。同時,,我們也可以幫助客戶更加進(jìn)一步地減少設(shè)計(jì)實(shí)現(xiàn)的難度。” Frank Ferro補(bǔ)充說,。他進(jìn)一步指出,,在發(fā)布了這個IP之后,Rambus將會為人工智能以及機(jī)器學(xué)習(xí)的應(yīng)用客戶提供更加完整的解決方案,,幫助他們進(jìn)一步地提高帶寬,,滿足他們在帶寬上的需求。
第二,,Rambus擁有非常強(qiáng)大的HBM生產(chǎn)經(jīng)驗(yàn),,在這方面,公司已經(jīng)擁有了全球超過50家成功的客戶案例,,這在全球是名列前茅的,。更重要的一點(diǎn),Rambus所有合作客戶的芯片從設(shè)計(jì)到原型再到投產(chǎn),,并不需要任何的設(shè)計(jì)返工,,基本上所有的芯片都會實(shí)現(xiàn)一次的成功。這足以體現(xiàn)他們的實(shí)力,。
第三,,Rambus為客戶提供非常完整的參考設(shè)計(jì)框架,其中最重要的一點(diǎn)就是如何更好地對中介層進(jìn)行完整的設(shè)計(jì)和表征化的處理,。“因?yàn)閷τ谥薪閷觼?,講它是PHY層和DRAM層之間溝通的重要環(huán)節(jié),在這個過程中,,因?yàn)樗俣确浅,?欤哉f如何保證信號完整性也是必須要去考慮的,?!?Frank Ferro表示。
他進(jìn)一步指出,,Rambus與客戶非常緊密地進(jìn)行合作,,并為他們提供非常完整的參考設(shè)計(jì)框架,然后幫助他們更好地去設(shè)計(jì)自己的中介層以及產(chǎn)品的封裝,。除此之外,,Rambus也幫助客戶做仿真分析,讓他們對自己每個信號的通道進(jìn)行完整的分析,,來實(shí)現(xiàn)整個產(chǎn)品的最高性能,。
第四,這也是非常重要的一點(diǎn),,那就是Rambus有一套非常重要的工具——Lab Station,。借助這個工具,,Rambus會與客戶進(jìn)行合作,讓他們將其HBM2E解決方案直接插入到他們的終端系統(tǒng)當(dāng)中,,來構(gòu)建一個非常獨(dú)立的內(nèi)存子系統(tǒng)。
能在HBM2E IP獲得這樣的成就,,一方面,,Rambus的研發(fā)投入功不可沒;另一方面,,他們與SK海力士,、AIChip和臺積電多方人員的通力合作,也是他們能提供快速服務(wù)的原因之一,。例如在SK海力士方面,,它為Rambus提供的HBM2E內(nèi)存達(dá)到了3.6G的數(shù)據(jù)傳輸速率,而在和合作過程中,,兩者又將HBM2E的速率進(jìn)一步地推進(jìn)到了4.0 Gbps,;AIchip則為Rambus提供了ASIC的相關(guān)解決方案以及產(chǎn)品,幫助其設(shè)計(jì)了相關(guān)中介層以及封裝,;此外,,臺積電提供了一個交鑰匙的2.5D Cowos封裝以及解決方案,來更好地為Rambus打造一個晶圓上的基本架構(gòu),。
“我們的解決方案適用于人工智能以及機(jī)器學(xué)習(xí)的訓(xùn)練,,同時也非常適用于高性能計(jì)算系統(tǒng)和5G網(wǎng)絡(luò)的基礎(chǔ)設(shè)施建設(shè)”,F(xiàn)rank Ferro最后說,。
除了面向AI訓(xùn)練的HMB2E IP,,Rambus還推出了面向AI推理的GDDR 6產(chǎn)品。
據(jù)Rambus的白皮書介紹,,公司的GDDR6接口專為性能和功率效率而設(shè)計(jì),,支持AI/ML和ADAS推理高帶寬與低延遲要求。它由一個經(jīng)共同驗(yàn)證的PHY和數(shù)字控制器組成,,提供一個完整的GDDR6內(nèi)存子系統(tǒng),。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250標(biāo)準(zhǔn),每個引腳支持高達(dá)16 Gbps,。GDDR6接口支持2個通道,,每個通道有16位,
總數(shù)據(jù)寬度為32位,。Rambus GDDR6接口每針16 Gbps,,提供帶寬為64 GB/s。
通過直接與客戶合作,,Rambus能提供完整的系統(tǒng)信號和電源完整性(SI/PI)分析,,創(chuàng)建優(yōu)化的芯片布線版圖,。客戶收到一個硬核解決方案與全套測試軟件可以快速啟動,,定性和調(diào)試,。
在“內(nèi)存墻”的限制下,為了滿足AI應(yīng)用的數(shù)據(jù)搬運(yùn)需求,,產(chǎn)業(yè)界正在探索不同的方法來解決問題,。例如英國AI芯片初創(chuàng)企業(yè)Graphcore就希望通過分布式內(nèi)存設(shè)計(jì)的方法解決這個問題。
而Rambus的這兩個方案出現(xiàn)那就給開發(fā)者們提供了在傳統(tǒng)架構(gòu)設(shè)計(jì)上獲得性能大提升的可能,。