隨著人工智能應(yīng)用的普及,云端相關(guān)的計算需求也在相應(yīng)上升,。對于基于神經(jīng)網(wǎng)絡(luò)的人工智能來說,,算力是實現(xiàn)高性能模型的關(guān)鍵資源,。
在云端的人工智能計算中,“內(nèi)存墻”是一個重要的性能瓶頸,。在目前的主流計算機架構(gòu)中,,處理和存儲是兩個截然不同的部分,而隨著摩爾定律幾十年來的發(fā)展,,事實上存儲器(尤其是主存DRAM)的性能發(fā)展是要遠(yuǎn)遠(yuǎn)落后于處理器的計算邏輯性能發(fā)展的,,因此DRAM速度(包括存取和接口)就成為了限制云端算力發(fā)展的一個瓶頸。另一方面,,云端人工智能模型的發(fā)展潮流是模型參數(shù)越來越多,,例如在推薦系統(tǒng)這樣的云端人工智能傳統(tǒng)項目中,,典型模型的尺寸達(dá)到GB數(shù)量級;而在語音識別,、自然語言處理,、計算機視覺這樣的領(lǐng)域中,最近隨著transformer類模型逐漸占據(jù)主流,,模型的參數(shù)量也在上升,。這兩者相結(jié)合,就是一方面人工智能計算對于內(nèi)存的需求越來越高,,而另一方面?zhèn)鹘y(tǒng)的DRAM方案并不能滿足云端人工智能的需求,。
在這樣的情況下,存算一體的方案正在獲得越來越多的關(guān)注,,并且正在慢慢由研究領(lǐng)域進(jìn)入商用化,。存算一體是指將內(nèi)存和計算以相比傳統(tǒng)計算機架構(gòu)更緊密地結(jié)合在一起,從而減少內(nèi)存訪問帶來地開銷,,并且解決“內(nèi)存墻”問題,。在云端計算的應(yīng)用場景,存算一體方案主要是圍繞DRAM去做創(chuàng)新,,希望能將計算和DRAM能集成到一起,并以此降低內(nèi)存訪問的能量和延遲,。對于具體的做法,,實際上有兩條主流技術(shù)路線:即近內(nèi)存計算(near-memory computing)和存內(nèi)計算(in-memory computing)。
業(yè)內(nèi)巨頭在相關(guān)領(lǐng)域有所動作,,往往是一項技術(shù)走向成熟和商用的標(biāo)志,。對于云端存算一體來說,我們最近看到三星和阿里巴巴在這個領(lǐng)域都有相關(guān)技術(shù)發(fā)表,。三星在今年下半年的頂級商用芯片會議HotChips上發(fā)表了HBM2-PIM相關(guān)的技術(shù),,而阿里巴巴在基于3D封裝實現(xiàn)存算一體的論文則收錄在明年二月即將召開的國際固態(tài)半導(dǎo)體電路會議(ISSCC)上。從技術(shù)路線上來說,,三星主要是走存內(nèi)計算的路線,,同時也兼顧近內(nèi)存計算;而阿里巴巴目前則主要是針對近內(nèi)存計算做開發(fā),。
三星的存內(nèi)計算路線
三星的存內(nèi)計算技術(shù)稱為“Aquabolt-XL”,,主要是基于其HBM2 DRAM技術(shù)做了存內(nèi)計算(HBM2-PIM)。具體來說,,Aquabolt-XL在HBM2 DRAM內(nèi)部集成了計算邏輯,,因此擁有HBM2-PIM技術(shù)的DRAM既可以當(dāng)作一塊普通的HBM2 DRAM來用(即直接寫入讀出,而繞開計算邏輯),;也可以在寫入和讀出的時候同時讓計算邏輯去做計算,。當(dāng)需要使用存內(nèi)計算的時候,,CPU只需要給HBM2-PIM寫入數(shù)據(jù)以及相應(yīng)的計算指令,而下次讀出數(shù)據(jù)的時候可以直接讀出已經(jīng)計算好的結(jié)果,。
存內(nèi)計算的技術(shù)路線中,,計算邏輯和存儲單元都是使用相同的DRAM工藝,因此通常存內(nèi)計算邏輯的性能比較有限,,時鐘頻率無法到達(dá)很高,,做到高性能計算邏輯則需要依靠對于DRAM工藝的深厚積累和優(yōu)化。另一方面,,由于計算邏輯和存儲單元是深度集成,,因此計算邏輯可以以較小的開銷最大化地調(diào)用存儲單元,并且可以做協(xié)同設(shè)計和優(yōu)化,。最后,,存內(nèi)計算在HBM2 DRAM中實現(xiàn)之后,可以較快地應(yīng)用到其他規(guī)格地存儲器中,,包括用于桌面地DDR/GDDR以及使用于移動端的LPDDR等,。除了HBM2-PIM之外,三星還公布了近內(nèi)存計算方案AxDIMM,,實現(xiàn)了在每個DRAM芯片旁邊都集成了一塊單獨的加速器邏輯并可以同時訪問,,從而等效地大大增加了訪存帶寬。
對于三星來說,,主要走存內(nèi)計算技術(shù)路線非常符合其技術(shù)背景以及商業(yè)模式,。HBM2-PIM技術(shù)實際上是一塊帶有計算功能且在人工智能應(yīng)用中能提升系統(tǒng)性能地內(nèi)存芯片,所以三星最終還是希望能通過這個技術(shù)來確保其存儲器業(yè)務(wù)在人工智能時代能繼續(xù)保持領(lǐng)先,。此外,,三星在DRAM工藝領(lǐng)域地積累也確保它能做到使用DRAM實現(xiàn)存內(nèi)邏輯計算的最優(yōu)化,以及集成的成本可以控制到較好,。
阿里的近內(nèi)存計算路線
與三星相對,,目前阿里巴巴在存算一體領(lǐng)域走的是近內(nèi)存計算的方案。根據(jù)目前公布的資料,,阿里巴巴的存算一體方案是把計算邏輯芯片和DRAM使用3D封裝技術(shù)封裝到一起,,從而利用封裝帶來的高IO密度來實現(xiàn)高內(nèi)存帶寬以及較低的訪問開銷。從發(fā)表在明年ISSCC論文中,,我們也可以看到這項技術(shù)是由阿里巴巴達(dá)摩院和紫光共同開發(fā)而成,。
使用近內(nèi)存計算可以讓計算邏輯使用和存儲器DRAM單元不同的工藝來實現(xiàn),這樣計算邏輯可以實現(xiàn)較高地性能和能效比,。另一方面,,這可能也是阿里巴巴這樣并不掌握DRAM工藝的廠商入場存算一體最合理的方式了。同時,該技術(shù)使用的3D封裝技術(shù)加上定制化的額外計算邏輯將會使整體成本較高,,必須要找到合適的應(yīng)用場景才能體現(xiàn)其價值,。目前,該技術(shù)主要還是處于研發(fā)階段,,未來還有一些重要的工程化里程碑尚待解決,,包括量產(chǎn)、良率等,。
在商業(yè)模式方面,,阿里巴巴顯然是以自用為首要目標(biāo),因此其存算一體研發(fā)主要的目標(biāo)是能針對目標(biāo)應(yīng)用提供不受內(nèi)存墻限制的計算解決方案,,而不像三星一樣是開發(fā)下一代存儲芯片,。從這個角度來說,只要阿里能確保這樣的近內(nèi)存計算存算一體解決方案在推薦系統(tǒng)等高價值應(yīng)用中能提供足夠的性價比(例如,,比起采購GPU來說更便宜),,就有進(jìn)一步推動下去的動力。
中國云端存算一體的未來
目前,,我們看到存算一體已經(jīng)成為巨頭爭相研發(fā)的目標(biāo),,未來有機會成為云端高性能計算領(lǐng)域的關(guān)鍵技術(shù)。我們同時很高興看到中國的阿里巴巴在這個領(lǐng)域的成果,。展望未來,,我們認(rèn)為存算一體的兩個技術(shù)方向?qū)^續(xù)共存,其中近內(nèi)存計算憑借其使用先進(jìn)工藝節(jié)點的計算邏輯可以針對高價值應(yīng)用場景做極致的加速優(yōu)化,,而存內(nèi)計算則可能會成為下一代應(yīng)用在高性能計算的存儲器技術(shù)廣泛應(yīng)用在通用的計算場景中,。
中國在存算一體領(lǐng)域和三星這樣的國際巨頭的差距主要體現(xiàn)在存內(nèi)計算領(lǐng)域。中國在DRAM領(lǐng)域的技術(shù)仍然相對落后,,而如果要讓存算一體真正進(jìn)入大量部署,則必須要在DRAM中集成計算邏輯的方向也有突破,。目前,,我國在DRAM領(lǐng)域有大量投入,希望能在補足差距的同時,,也能兼顧存內(nèi)計算這樣的前瞻性技術(shù),,從而能賦能中國的高性能計算和人工智能計算需求。