AI芯片需要怎樣的內(nèi)存？-AET-電子技術(shù)應(yīng)用

AI芯片需要怎樣的內(nèi)存？

日期： 2020-10-23

來(lái)源：半導(dǎo)體行業(yè)觀(guān)察

關(guān)鍵詞： 人工智能算力芯片

　　經(jīng)歷了幾年的高速發(fā)展之后，人工智能（簡(jiǎn)稱(chēng)AI）不再是新鮮的名詞，它已經(jīng)作為一個(gè)重要的生產(chǎn)工具，被引入到我們工作和生活的多個(gè)領(lǐng)域。但在A(yíng)I爆發(fā)的背后，隨之而來(lái)的是對(duì)AI算力需求的暴增。

　　據(jù)OpenAI的一份報(bào)告顯示，從2012年到2019年，人工智能訓(xùn)練集增長(zhǎng)了30萬(wàn)倍，每3.43個(gè)月翻一番，但如果是以摩爾定律的速度，只會(huì)有 12 倍的增長(zhǎng)。為了滿(mǎn)足AI算力的需求，從業(yè)人員通過(guò)設(shè)計(jì)專(zhuān)用的AI芯片、重配置硬件和算法創(chuàng)新等多方面入手來(lái)達(dá)成目標(biāo)。

微信圖片_20201023112128.jpg

　　AI算力需求增長(zhǎng)

　　然而在此過(guò)程中，我們除了看到AI對(duì)算力的要求以外，內(nèi)存帶寬也是限制AI芯片發(fā)展的另一個(gè)關(guān)鍵要素。這就需要從傳統(tǒng)的馮諾依曼架構(gòu)談起。作為當(dāng)前芯片的主流架構(gòu)，馮諾依曼架構(gòu)的一大特征就是計(jì)算和內(nèi)存分離的。那就意味著每進(jìn)行一次計(jì)算，計(jì)算單元都要從內(nèi)存中讀取數(shù)據(jù)然后計(jì)算，再把計(jì)算結(jié)構(gòu)存回到內(nèi)存當(dāng)中。

微信圖片_20201023112132.png

　　經(jīng)典的馮諾依曼架構(gòu)

　　在過(guò)往，這個(gè)架構(gòu)的短板并不是很明顯，因?yàn)樘幚砥骱蛢?nèi)存的速度都都非常接近。但眾所周知的是，在摩爾定律指導(dǎo)下的處理器在過(guò)去幾十年里發(fā)生了翻天覆地的變化，但常用的DRAM方案與之相比，提升幅度不值一提。

　　再者，在A(yíng)I時(shí)代，數(shù)據(jù)傳輸量越來(lái)越大。先進(jìn)的駕駛員輔助系統(tǒng)（ADAS）為例。第3級(jí)及更高級(jí)別系統(tǒng)的復(fù)雜數(shù)據(jù)處理需要超過(guò)200 GB/s的內(nèi)存帶寬。這些高帶寬是復(fù)雜的AI/ML算法的基本需求，在道路上自駕過(guò)程中這些算法需要快速執(zhí)行大量計(jì)算并安全地執(zhí)行實(shí)時(shí)決策。在第5級(jí)，即完全自主駕駛，車(chē)輛能夠獨(dú)立地對(duì)交通標(biāo)志和信號(hào)的動(dòng)態(tài)環(huán)境作出反應(yīng)，以及準(zhǔn)確地預(yù)測(cè)汽車(chē)、卡車(chē)、自行車(chē)和行人的移動(dòng)，將需要巨大的內(nèi)存帶寬。

　　因此，AI芯片尋找新的內(nèi)存方案迫在眉睫，其中HBM和GDDR SDRAM（簡(jiǎn)稱(chēng)GDDR）就成為了行業(yè)的選擇。

　　為什么是HBM和GDDR ？

　　HBM就是High Bandwidth Memory的縮寫(xiě)，也就是高帶寬內(nèi)存，這是一項(xiàng)在2013年10月被JEDEC采納為業(yè)界標(biāo)準(zhǔn)的內(nèi)存技術(shù)。按照AMD的介紹，這種新型的 CPU/GPU 內(nèi)存芯片（即 “RAM”），就像摩天大廈中的樓層一樣可以垂直堆疊。基于這種設(shè)計(jì)，信息交換的時(shí)間將會(huì)縮短。這些堆疊的芯片通過(guò)稱(chēng)為“中介層（Interposer）”的超快速互聯(lián)方式連接至 CPU 或 GPU。將HBM的堆棧插入到中介層中，放置于 CPU 或 GPU 旁邊，然后將組裝后的模塊連接至電路板。

　　盡管這些 HBM 堆棧沒(méi)有以物理方式與 CPU 或 GPU 集成，但通過(guò)中介層緊湊而快速地連接后，HBM 具備的特性幾乎和芯片集成的 RAM 一樣。更重要的是，這些獨(dú)特的設(shè)計(jì)能給開(kāi)發(fā)者帶來(lái)功耗、性能和尺寸等多個(gè)方面的優(yōu)勢(shì)。

微信圖片_20201023112135.jpg

　　從第一代HBM與2013年面世后，JEDEC又分別在2016年和2018把HBM2和HBM2E納為行業(yè)標(biāo)準(zhǔn)。據(jù)了解，在HBM2E規(guī)范下，當(dāng)傳輸速率上升到每管腳3.6Gbps時(shí)，HBM2E可以實(shí)現(xiàn)每堆棧461GB/s的內(nèi)存帶寬。此外，HBM2E支持12個(gè)DRAM的堆棧，內(nèi)存容量高達(dá)每堆棧24 GB。

微信圖片_20201023112139.png

微信圖片_20201023112143.png

　　具體而言，就是說(shuō)每一個(gè)運(yùn)行速度高達(dá)3.6Gbps的HBM2E堆棧通過(guò)1024個(gè)數(shù)據(jù)“線(xiàn)”的接口連接到它的相關(guān)處理器。通過(guò)命令和地址，線(xiàn)的數(shù)量增加到大約1700條。這遠(yuǎn)遠(yuǎn)超出了標(biāo)準(zhǔn)PCB所能支持的范圍。因此，硅中介層被采用作為連接內(nèi)存堆棧和處理器的中介。與SoC一樣，精細(xì)數(shù)據(jù)走線(xiàn)可以在硅中介層中以蝕刻間隔的方式實(shí)現(xiàn)，以獲得HBM接口所需數(shù)量的數(shù)據(jù)線(xiàn)數(shù)。

　　得益于其巨大內(nèi)存帶寬的能力，使得連接到一個(gè)處理器的四塊HBM2E內(nèi)存堆棧將提供超過(guò)1.8 TB/s的帶寬。通過(guò)3D堆疊內(nèi)存，可以以極小的空間實(shí)現(xiàn)高帶寬和高容量需求。進(jìn)一步，通過(guò)保持相對(duì)較低的數(shù)據(jù)傳輸速率，并使內(nèi)存靠近處理器，總體系統(tǒng)功率得以維持在較低水位。

　　根據(jù)Rambus的介紹，HBM2E的性能非常出色，所增加的采用和制造成本可以透過(guò)節(jié)省的電路板空間和電力相互的緩解。在物理空間日益受限的數(shù)據(jù)中心環(huán)境中，HBM2E緊湊的體系結(jié)構(gòu)提供了切實(shí)的好處。它的低功率意味著它的熱負(fù)荷較低，在這種環(huán)境中，冷卻成本通常是幾個(gè)最大的運(yùn)營(yíng)成本之一。

　　正因?yàn)槿绱耍琀BM2E成為了AI芯片的一個(gè)優(yōu)先選擇，這也是英偉達(dá)在Tesla A100和谷歌在二代TPU上選擇這個(gè)內(nèi)存方案的原因。但如前面所說(shuō)，因?yàn)镠BM獨(dú)特的設(shè)計(jì)，其復(fù)雜性、成本都高于其他方案，這時(shí)候，GDDR就發(fā)揮了重大的作用。

　　據(jù)了解，圖形DDR SDRAM（GDDR SDRAM）最初是20多年前為游戲和顯卡市場(chǎng)設(shè)計(jì)的。在這段時(shí)間內(nèi)，GDDR經(jīng)歷了幾次重大變革，最新一代GDDR6的數(shù)據(jù)傳輸速率為16Gbps。GDDR6提供了令人印象深刻的帶寬、容量、延遲和功率。它將工作電壓從1.5V降低到1.35V以獲得更高的功率效率，并使GDDR5內(nèi)存的數(shù)據(jù)傳輸速率（16比8 Gbps）和容量（16比8 GB）翻了一番。Rambus已經(jīng)演示了一個(gè)運(yùn)行速度為18 Gbps的GDDR6接口，顯示這種內(nèi)存架構(gòu)還有額外的增長(zhǎng)空間。

微信圖片_20201023112146.jpg

　　與HBM2E不同，GDDR6 DRAM采用與生產(chǎn)標(biāo)準(zhǔn)DDR式DRAM的大批量制造和組裝一樣的技術(shù)。更具體地說(shuō)，GDDR6采用傳統(tǒng)的方法，通過(guò)標(biāo)準(zhǔn)PCB將封裝和測(cè)試的DRAMs與SoC連接在一起。利用現(xiàn)有的基礎(chǔ)架構(gòu)和流程為系統(tǒng)設(shè)計(jì)者提供了熟悉度，從而降低了成本和實(shí)現(xiàn)的復(fù)雜性。

　　與HBM2E寬而慢的內(nèi)存接口不同，GDDR6接口窄而快。兩個(gè)16位寬通道（32條數(shù)據(jù)線(xiàn)）將GDDR6 PHY連接到相關(guān)的SDRAM。GDDR6接口以每針16 Gbps的速度運(yùn)行，可以提供64 GB/s的帶寬。回到我們之前的L3汽車(chē)示例，GDDR6內(nèi)存系統(tǒng)以連接四個(gè)DRAM設(shè)備為例，帶寬可以達(dá)到200 GB/s。

　　采用GDDR6的主要設(shè)計(jì)挑戰(zhàn)也來(lái)自于它最強(qiáng)大的特性之一：速度。在較低的電壓條件，16 Gbps的信號(hào)速度下，保持信號(hào)完整性需要大量的專(zhuān)業(yè)經(jīng)驗(yàn)知識(shí)。設(shè)計(jì)人員面臨更緊的時(shí)序和電壓裕度量損失，這些損失來(lái)源與影響都在迅速增加。系統(tǒng)的接口行為、封裝和電路板需要相互影響，需要采用協(xié)同設(shè)計(jì)方法來(lái)保證系統(tǒng)的信號(hào)完整性。

　　總的來(lái)說(shuō)，GDDR6內(nèi)存的優(yōu)異性能特性建立久經(jīng)考驗(yàn)的基礎(chǔ)制造過(guò)程之上，是人工智能推理的理想內(nèi)存解決方案。其出色的性?xún)r(jià)比使其適合在廣泛的邊緣網(wǎng)絡(luò)和物聯(lián)網(wǎng)終端設(shè)備上大量采用。

　　Rambus將扮演重要角色

　　從上文的介紹中，我們看到了HBM2E和GDDR 6在A(yíng)I中的重要作用，而要真正將其落實(shí)到AI芯片中，相應(yīng)的IP供應(yīng)商將是很關(guān)鍵的一環(huán)，而Rambus將扮演這個(gè)重要角色。

　　據(jù)Rambus大中華區(qū)總經(jīng)理Raymond Su介紹，Rambus成立于上個(gè)世紀(jì)90年代，是一家領(lǐng)先的Silicon IP和芯片提供商，公司主要致力于讓數(shù)據(jù)傳輸?shù)酶臁⒏踩６鴱漠a(chǎn)品上看，Rambus的產(chǎn)品主要聚焦于三大塊：分別是基礎(chǔ)架構(gòu)許可、Silicon IP授權(quán)，還有buffer chip芯片業(yè)務(wù)。

微信圖片_20201023112150.jpg

　　“得益于這些深厚的積累，我們能提供友商所不具備的差異性服務(wù)”，Raymond Su補(bǔ)充說(shuō)。他指出：

　　首先，在內(nèi)存IP層面，Rambus提供一站式的采購(gòu)和“turn key”服務(wù)。而公司在去年完成的對(duì)全球知名的IP控制器公司Northwest Logic和對(duì)Verimatrix安全I(xiàn)P業(yè)務(wù)部，可以讓Rambus能夠提供更好的一站式的服務(wù)。

　　“通過(guò)這樣的服務(wù)，Rambus IP可以很好地幫助客戶(hù)盡早地把產(chǎn)品推向市場(chǎng)”，Raymond Su表示。

　　其次，作為全球領(lǐng)先的HBM IP供應(yīng)商，Rambus在全球已經(jīng)有50多個(gè)成功項(xiàng)目案例，積累了大量的經(jīng)驗(yàn)；而在DDR5 Buffer Chip（緩沖芯片）方面，Rambus也是全球首發(fā)。這讓他們?cè)贒DR5時(shí)代有信心改變整個(gè)市場(chǎng)。而在A(yíng)I芯片迫切需要的HBM2E和GDDR 6 IP方面，Rambus也都做好了準(zhǔn)備。

　　從Rambus IP核產(chǎn)品營(yíng)銷(xiāo)高級(jí)總監(jiān)Frank Ferro的介紹我們得知，他們將HBM2E的性能提升到了4Gbps。在他看來(lái)，這個(gè)速度是一個(gè)全新的行業(yè)標(biāo)桿，而此次Rambus發(fā)布我們?nèi)碌腍BM2E產(chǎn)品也正是實(shí)現(xiàn)了這一行業(yè)最高標(biāo)準(zhǔn)。

微信圖片_20201023112153.png

　　根據(jù)Rambus發(fā)布的白皮書(shū)介紹，他們HBM2E接口完全符合JEDEC JESD235B標(biāo)準(zhǔn)。支持每個(gè)數(shù)據(jù)引腳高達(dá)3.6 Gbps的數(shù)據(jù)傳輸速率。該接口具有8個(gè)獨(dú)立的通道，每個(gè)通道包含128位，總數(shù)據(jù)寬度為1024位。由此每個(gè)堆棧支持的帶寬是461GB/s，每個(gè)堆棧由2、4、8或12個(gè)DRAMs組成。

微信圖片_20201023112156.jpg

　　作為一個(gè)為2.5D系統(tǒng)設(shè)計(jì)的IP，它有一個(gè)用于在3D-DRAM堆棧和SoC上的PHY之間的中介層由提供信號(hào)繞線(xiàn)。這種信號(hào)密度和堆積尺寸的組合需要特殊的設(shè)計(jì)考慮。為了便于實(shí)施和提高了設(shè)計(jì)的靈活性，Rambus對(duì)整個(gè)2.5D系統(tǒng)進(jìn)行完整的信號(hào)和功率完整性分析，以確保所有信號(hào)、功率和散熱要求都得到滿(mǎn)足。而在于其他競(jìng)爭(zhēng)對(duì)手相比，Rambus的HBM IP則有著大多數(shù)廠(chǎng)商布局的幾點(diǎn)核心優(yōu)勢(shì)：

　　第一，Rambus提供的是完全集成而且經(jīng)過(guò)驗(yàn)證的PHY以及內(nèi)存控制器IP解決方案，在物理層面實(shí)現(xiàn)完整的集成互聯(lián)。除了完整的內(nèi)存子系統(tǒng)之外，他們的PHY也經(jīng)過(guò)了硬核化處理，同時(shí)也完成了timing closed也就是時(shí)序收斂的工作。

　　“我們給客戶(hù)提供的并不僅僅是自己的IP授權(quán)、IP產(chǎn)品，我們也會(huì)向客戶(hù)提供系統(tǒng)級(jí)的全面的集成支持，以及相關(guān)的工具套件，以及我們的技術(shù)服務(wù)。同時(shí)，我們也可以幫助客戶(hù)更加進(jìn)一步地減少設(shè)計(jì)實(shí)現(xiàn)的難度。” Frank Ferro補(bǔ)充說(shuō)。他進(jìn)一步指出，在發(fā)布了這個(gè)IP之后，Rambus將會(huì)為人工智能以及機(jī)器學(xué)習(xí)的應(yīng)用客戶(hù)提供更加完整的解決方案，幫助他們進(jìn)一步地提高帶寬，滿(mǎn)足他們?cè)趲捝系男枨蟆?/p>

　　第二，Rambus擁有非常強(qiáng)大的HBM生產(chǎn)經(jīng)驗(yàn)，在這方面，公司已經(jīng)擁有了全球超過(guò)50家成功的客戶(hù)案例，這在全球是名列前茅的。更重要的一點(diǎn)，Rambus所有合作客戶(hù)的芯片從設(shè)計(jì)到原型再到投產(chǎn)，并不需要任何的設(shè)計(jì)返工，基本上所有的芯片都會(huì)實(shí)現(xiàn)一次的成功。這足以體現(xiàn)他們的實(shí)力。

微信圖片_20201023112200.png

　　第三，Rambus為客戶(hù)提供非常完整的參考設(shè)計(jì)框架，其中最重要的一點(diǎn)就是如何更好地對(duì)中介層進(jìn)行完整的設(shè)計(jì)和表征化的處理。“因?yàn)閷?duì)于中介層來(lái)，講它是PHY層和DRAM層之間溝通的重要環(huán)節(jié)，在這個(gè)過(guò)程中，因?yàn)樗俣确浅？欤哉f(shuō)如何保證信號(hào)完整性也是必須要去考慮的。” Frank Ferro表示。

　　他進(jìn)一步指出，Rambus與客戶(hù)非常緊密地進(jìn)行合作，并為他們提供非常完整的參考設(shè)計(jì)框架，然后幫助他們更好地去設(shè)計(jì)自己的中介層以及產(chǎn)品的封裝。除此之外，Rambus也幫助客戶(hù)做仿真分析，讓他們對(duì)自己每個(gè)信號(hào)的通道進(jìn)行完整的分析，來(lái)實(shí)現(xiàn)整個(gè)產(chǎn)品的最高性能。

　　第四，這也是非常重要的一點(diǎn)，那就是Rambus有一套非常重要的工具——Lab Station。借助這個(gè)工具，Rambus會(huì)與客戶(hù)進(jìn)行合作，讓他們將其HBM2E解決方案直接插入到他們的終端系統(tǒng)當(dāng)中，來(lái)構(gòu)建一個(gè)非常獨(dú)立的內(nèi)存子系統(tǒng)。

　　能在HBM2E IP獲得這樣的成就，一方面，Rambus的研發(fā)投入功不可沒(méi)；另一方面，他們與SK海力士、AIChip和臺(tái)積電多方人員的通力合作，也是他們能提供快速服務(wù)的原因之一。例如在SK海力士方面，它為Rambus提供的HBM2E內(nèi)存達(dá)到了3.6G的數(shù)據(jù)傳輸速率，而在和合作過(guò)程中，兩者又將HBM2E的速率進(jìn)一步地推進(jìn)到了4.0 Gbps；AIchip則為Rambus提供了ASIC的相關(guān)解決方案以及產(chǎn)品，幫助其設(shè)計(jì)了相關(guān)中介層以及封裝；此外，臺(tái)積電提供了一個(gè)交鑰匙的2.5D Cowos封裝以及解決方案，來(lái)更好地為Rambus打造一個(gè)晶圓上的基本架構(gòu)。

　　“我們的解決方案適用于人工智能以及機(jī)器學(xué)習(xí)的訓(xùn)練，同時(shí)也非常適用于高性能計(jì)算系統(tǒng)和5G網(wǎng)絡(luò)的基礎(chǔ)設(shè)施建設(shè)”，F(xiàn)rank Ferro最后說(shuō)。

　　除了面向AI訓(xùn)練的HMB2E IP，Rambus還推出了面向AI推理的GDDR 6產(chǎn)品。

　　據(jù)Rambus的白皮書(shū)介紹，公司的GDDR6接口專(zhuān)為性能和功率效率而設(shè)計(jì)，支持AI/ML和ADAS推理高帶寬與低延遲要求。它由一個(gè)經(jīng)共同驗(yàn)證的PHY和數(shù)字控制器組成，提供一個(gè)完整的GDDR6內(nèi)存子系統(tǒng)。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250標(biāo)準(zhǔn)，每個(gè)引腳支持高達(dá)16 Gbps。GDDR6接口支持2個(gè)通道，每個(gè)通道有16位，

　　總數(shù)據(jù)寬度為32位。Rambus GDDR6接口每針16 Gbps，提供帶寬為64 GB/s。

　　通過(guò)直接與客戶(hù)合作，Rambus能提供完整的系統(tǒng)信號(hào)和電源完整性（SI/PI）分析，創(chuàng)建優(yōu)化的芯片布線(xiàn)版圖。客戶(hù)收到一個(gè)硬核解決方案與全套測(cè)試軟件可以快速啟動(dòng)，定性和調(diào)試。

微信圖片_20201023112211.jpg

　　在“內(nèi)存墻”的限制下，為了滿(mǎn)足AI應(yīng)用的數(shù)據(jù)搬運(yùn)需求，產(chǎn)業(yè)界正在探索不同的方法來(lái)解決問(wèn)題。例如英國(guó)AI芯片初創(chuàng)企業(yè)Graphcore就希望通過(guò)分布式內(nèi)存設(shè)計(jì)的方法解決這個(gè)問(wèn)題。

　　而Rambus的這兩個(gè)方案出現(xiàn)那就給開(kāi)發(fā)者們提供了在傳統(tǒng)架構(gòu)設(shè)計(jì)上獲得性能大提升的可能。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀(guān)點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：[email protected]。

AI芯片需要怎樣的內(nèi)存？

日期： 2020-10-23

來(lái)源：半導(dǎo)體行業(yè)觀(guān)察

相關(guān)內(nèi)容