隨著人工智能應(yīng)用的普及,云端相關(guān)的計(jì)算需求也在相應(yīng)上升,。對(duì)于基于神經(jīng)網(wǎng)絡(luò)的人工智能來(lái)說(shuō),,算力是實(shí)現(xiàn)高性能模型的關(guān)鍵資源。
在云端的人工智能計(jì)算中,,“內(nèi)存墻”是一個(gè)重要的性能瓶頸,。在目前的主流計(jì)算機(jī)架構(gòu)中,處理和存儲(chǔ)是兩個(gè)截然不同的部分,,而隨著摩爾定律幾十年來(lái)的發(fā)展,,事實(shí)上存儲(chǔ)器(尤其是主存DRAM)的性能發(fā)展是要遠(yuǎn)遠(yuǎn)落后于處理器的計(jì)算邏輯性能發(fā)展的,因此DRAM速度(包括存取和接口)就成為了限制云端算力發(fā)展的一個(gè)瓶頸。另一方面,,云端人工智能模型的發(fā)展潮流是模型參數(shù)越來(lái)越多,,例如在推薦系統(tǒng)這樣的云端人工智能傳統(tǒng)項(xiàng)目中,典型模型的尺寸達(dá)到GB數(shù)量級(jí),;而在語(yǔ)音識(shí)別,、自然語(yǔ)言處理、計(jì)算機(jī)視覺這樣的領(lǐng)域中,,最近隨著transformer類模型逐漸占據(jù)主流,,模型的參數(shù)量也在上升。這兩者相結(jié)合,,就是一方面人工智能計(jì)算對(duì)于內(nèi)存的需求越來(lái)越高,,而另一方面?zhèn)鹘y(tǒng)的DRAM方案并不能滿足云端人工智能的需求。
在這樣的情況下,,存算一體的方案正在獲得越來(lái)越多的關(guān)注,,并且正在慢慢由研究領(lǐng)域進(jìn)入商用化。存算一體是指將內(nèi)存和計(jì)算以相比傳統(tǒng)計(jì)算機(jī)架構(gòu)更緊密地結(jié)合在一起,,從而減少內(nèi)存訪問(wèn)帶來(lái)地開銷,,并且解決“內(nèi)存墻”問(wèn)題。在云端計(jì)算的應(yīng)用場(chǎng)景,,存算一體方案主要是圍繞DRAM去做創(chuàng)新,,希望能將計(jì)算和DRAM能集成到一起,并以此降低內(nèi)存訪問(wèn)的能量和延遲,。對(duì)于具體的做法,,實(shí)際上有兩條主流技術(shù)路線:即近內(nèi)存計(jì)算(near-memory computing)和存內(nèi)計(jì)算(in-memory computing)。
業(yè)內(nèi)巨頭在相關(guān)領(lǐng)域有所動(dòng)作,,往往是一項(xiàng)技術(shù)走向成熟和商用的標(biāo)志,。對(duì)于云端存算一體來(lái)說(shuō),我們最近看到三星和阿里巴巴在這個(gè)領(lǐng)域都有相關(guān)技術(shù)發(fā)表,。三星在今年下半年的頂級(jí)商用芯片會(huì)議HotChips上發(fā)表了HBM2-PIM相關(guān)的技術(shù),,而阿里巴巴在基于3D封裝實(shí)現(xiàn)存算一體的論文則收錄在明年二月即將召開的國(guó)際固態(tài)半導(dǎo)體電路會(huì)議(ISSCC)上。從技術(shù)路線上來(lái)說(shuō),,三星主要是走存內(nèi)計(jì)算的路線,,同時(shí)也兼顧近內(nèi)存計(jì)算;而阿里巴巴目前則主要是針對(duì)近內(nèi)存計(jì)算做開發(fā),。
三星的存內(nèi)計(jì)算路線
三星的存內(nèi)計(jì)算技術(shù)稱為“Aquabolt-XL”,,主要是基于其HBM2 DRAM技術(shù)做了存內(nèi)計(jì)算(HBM2-PIM)。具體來(lái)說(shuō),,Aquabolt-XL在HBM2 DRAM內(nèi)部集成了計(jì)算邏輯,,因此擁有HBM2-PIM技術(shù)的DRAM既可以當(dāng)作一塊普通的HBM2 DRAM來(lái)用(即直接寫入讀出,,而繞開計(jì)算邏輯);也可以在寫入和讀出的時(shí)候同時(shí)讓計(jì)算邏輯去做計(jì)算,。當(dāng)需要使用存內(nèi)計(jì)算的時(shí)候,,CPU只需要給HBM2-PIM寫入數(shù)據(jù)以及相應(yīng)的計(jì)算指令,而下次讀出數(shù)據(jù)的時(shí)候可以直接讀出已經(jīng)計(jì)算好的結(jié)果,。
存內(nèi)計(jì)算的技術(shù)路線中,,計(jì)算邏輯和存儲(chǔ)單元都是使用相同的DRAM工藝,因此通常存內(nèi)計(jì)算邏輯的性能比較有限,,時(shí)鐘頻率無(wú)法到達(dá)很高,,做到高性能計(jì)算邏輯則需要依靠對(duì)于DRAM工藝的深厚積累和優(yōu)化。另一方面,,由于計(jì)算邏輯和存儲(chǔ)單元是深度集成,,因此計(jì)算邏輯可以以較小的開銷最大化地調(diào)用存儲(chǔ)單元,并且可以做協(xié)同設(shè)計(jì)和優(yōu)化,。最后,,存內(nèi)計(jì)算在HBM2 DRAM中實(shí)現(xiàn)之后,可以較快地應(yīng)用到其他規(guī)格地存儲(chǔ)器中,,包括用于桌面地DDR/GDDR以及使用于移動(dòng)端的LPDDR等,。除了HBM2-PIM之外,三星還公布了近內(nèi)存計(jì)算方案AxDIMM,,實(shí)現(xiàn)了在每個(gè)DRAM芯片旁邊都集成了一塊單獨(dú)的加速器邏輯并可以同時(shí)訪問(wèn),,從而等效地大大增加了訪存帶寬。
對(duì)于三星來(lái)說(shuō),,主要走存內(nèi)計(jì)算技術(shù)路線非常符合其技術(shù)背景以及商業(yè)模式。HBM2-PIM技術(shù)實(shí)際上是一塊帶有計(jì)算功能且在人工智能應(yīng)用中能提升系統(tǒng)性能地內(nèi)存芯片,,所以三星最終還是希望能通過(guò)這個(gè)技術(shù)來(lái)確保其存儲(chǔ)器業(yè)務(wù)在人工智能時(shí)代能繼續(xù)保持領(lǐng)先,。此外,三星在DRAM工藝領(lǐng)域地積累也確保它能做到使用DRAM實(shí)現(xiàn)存內(nèi)邏輯計(jì)算的最優(yōu)化,,以及集成的成本可以控制到較好,。
阿里的近內(nèi)存計(jì)算路線
與三星相對(duì),目前阿里巴巴在存算一體領(lǐng)域走的是近內(nèi)存計(jì)算的方案,。根據(jù)目前公布的資料,,阿里巴巴的存算一體方案是把計(jì)算邏輯芯片和DRAM使用3D封裝技術(shù)封裝到一起,從而利用封裝帶來(lái)的高IO密度來(lái)實(shí)現(xiàn)高內(nèi)存帶寬以及較低的訪問(wèn)開銷,。從發(fā)表在明年ISSCC論文中,,我們也可以看到這項(xiàng)技術(shù)是由阿里巴巴達(dá)摩院和紫光共同開發(fā)而成。
使用近內(nèi)存計(jì)算可以讓計(jì)算邏輯使用和存儲(chǔ)器DRAM單元不同的工藝來(lái)實(shí)現(xiàn),,這樣計(jì)算邏輯可以實(shí)現(xiàn)較高地性能和能效比,。另一方面,,這可能也是阿里巴巴這樣并不掌握DRAM工藝的廠商入場(chǎng)存算一體最合理的方式了。同時(shí),,該技術(shù)使用的3D封裝技術(shù)加上定制化的額外計(jì)算邏輯將會(huì)使整體成本較高,,必須要找到合適的應(yīng)用場(chǎng)景才能體現(xiàn)其價(jià)值。目前,,該技術(shù)主要還是處于研發(fā)階段,,未來(lái)還有一些重要的工程化里程碑尚待解決,包括量產(chǎn),、良率等,。
在商業(yè)模式方面,阿里巴巴顯然是以自用為首要目標(biāo),,因此其存算一體研發(fā)主要的目標(biāo)是能針對(duì)目標(biāo)應(yīng)用提供不受內(nèi)存墻限制的計(jì)算解決方案,,而不像三星一樣是開發(fā)下一代存儲(chǔ)芯片。從這個(gè)角度來(lái)說(shuō),,只要阿里能確保這樣的近內(nèi)存計(jì)算存算一體解決方案在推薦系統(tǒng)等高價(jià)值應(yīng)用中能提供足夠的性價(jià)比(例如,,比起采購(gòu)GPU來(lái)說(shuō)更便宜),就有進(jìn)一步推動(dòng)下去的動(dòng)力,。
中國(guó)云端存算一體的未來(lái)
目前,,我們看到存算一體已經(jīng)成為巨頭爭(zhēng)相研發(fā)的目標(biāo),未來(lái)有機(jī)會(huì)成為云端高性能計(jì)算領(lǐng)域的關(guān)鍵技術(shù),。我們同時(shí)很高興看到中國(guó)的阿里巴巴在這個(gè)領(lǐng)域的成果,。展望未來(lái),我們認(rèn)為存算一體的兩個(gè)技術(shù)方向?qū)?huì)繼續(xù)共存,,其中近內(nèi)存計(jì)算憑借其使用先進(jìn)工藝節(jié)點(diǎn)的計(jì)算邏輯可以針對(duì)高價(jià)值應(yīng)用場(chǎng)景做極致的加速優(yōu)化,,而存內(nèi)計(jì)算則可能會(huì)成為下一代應(yīng)用在高性能計(jì)算的存儲(chǔ)器技術(shù)廣泛應(yīng)用在通用的計(jì)算場(chǎng)景中。
中國(guó)在存算一體領(lǐng)域和三星這樣的國(guó)際巨頭的差距主要體現(xiàn)在存內(nèi)計(jì)算領(lǐng)域,。中國(guó)在DRAM領(lǐng)域的技術(shù)仍然相對(duì)落后,,而如果要讓存算一體真正進(jìn)入大量部署,則必須要在DRAM中集成計(jì)算邏輯的方向也有突破,。目前,,我國(guó)在DRAM領(lǐng)域有大量投入,希望能在補(bǔ)足差距的同時(shí),,也能兼顧存內(nèi)計(jì)算這樣的前瞻性技術(shù),,從而能賦能中國(guó)的高性能計(jì)算和人工智能計(jì)算需求。