近日,阿里達摩院近日成功研發(fā)新型架構(gòu)芯片,。該芯片是全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,,可突破馮·諾依曼架構(gòu)的性能瓶頸,,滿足人工智能等場景對高帶寬、高容量內(nèi)存和極致算力的需求。在特定AI場景中,該芯片性能提升10倍以上,,能效比提升高達300倍。
所謂“存算一體AI芯片”,,是指將傳統(tǒng)以計算為中心的架構(gòu)轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心的架構(gòu),,其直接利用存儲器進行數(shù)據(jù)處理,從而把數(shù)據(jù)存儲與計算融合在同一芯片中,,極大提高計算并行度與能量效率,,特別適用于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)領(lǐng)域,如可穿戴設(shè)備,、移動設(shè)備,、智能家居等場景,。
這一技術(shù)最早可追溯至20世紀60年代,,斯坦福研究所的Kautz等人于1969年提出了存算一體計算機概念,,后續(xù)研究主要圍繞芯片電路、計算架構(gòu),、操作系統(tǒng),、系統(tǒng)應(yīng)用等層面展開,如加州大學(xué)伯克利分校Patterson等人成功把處理器集成在DRAM內(nèi)存芯片當中,,實現(xiàn)智能存算一體的計算架構(gòu),。但受限于芯片設(shè)計復(fù)雜度與制造成本問題,以及缺少大數(shù)據(jù)應(yīng)用驅(qū)動,,早期的存算一體僅停留在研究階段,,并未得到實際應(yīng)用。
此次阿里達摩院研發(fā)的存算一體芯片集成了多個創(chuàng)新型技術(shù),,是全球首款使用混合鍵合3D堆疊技術(shù)實現(xiàn)存算一體的芯片,。該芯片內(nèi)存單元采用異質(zhì)集成嵌入式DRAM(SeDRAM),擁有超大帶寬,、超大容量等特點,;計算單元方面,達摩院研發(fā)設(shè)計了流式的定制化加速器架構(gòu),,對推薦系統(tǒng)進行“端到端”的加速,,包括匹配、粗排序,、神經(jīng)網(wǎng)絡(luò)計算,、細排序等任務(wù)。
得益于整體架構(gòu)的創(chuàng)新,,達摩院存算一體芯片同時實現(xiàn)了高性能和低系統(tǒng)功耗,。在實際推薦系統(tǒng)應(yīng)用中,相比傳統(tǒng)CPU計算系統(tǒng),,存算一體芯片的性能提升10倍以上,,能效提升超過300倍。該技術(shù)的研究成果已被芯片領(lǐng)域頂級會議ISSCC 2022收錄,,未來可應(yīng)用于VR/AR,、無人駕駛、天文數(shù)據(jù)計算,、遙感影像數(shù)據(jù)分析等場景,。
國內(nèi)外研究進展如何?
近年來,,隨著物聯(lián)網(wǎng),、人工智能等應(yīng)用領(lǐng)域的興起,技術(shù)得到國內(nèi)外學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛研究與應(yīng)用。2016年,,美國加州大學(xué)圣塔芭芭拉分校(UCSB)的謝源教授團隊提出利用RRAM構(gòu)建基于存算一體架構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(PRIME),,受到業(yè)界的廣泛關(guān)注。測試結(jié)果表明,,與基于馮·諾依曼計算架構(gòu)的傳統(tǒng)方案相比,,PRIME可以實現(xiàn)功耗降低約20倍、速度提高約50倍,。該方案可以高效地實現(xiàn)向量-矩陣乘法運算,,在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)加速器領(lǐng)域具有廣闊的應(yīng)用前景。此外,,杜克大學(xué),、普渡大學(xué)、斯坦福大學(xué),、馬薩諸塞大學(xué),、新加坡南洋理工大學(xué)、惠普,、英特爾,、鎂光等國際知名大學(xué)及企業(yè)均開展了相關(guān)研究工作,并發(fā)布了測試芯片原型,。
我國在這方面的研究也取得一系列成果,,如中科院微電子所劉明教授團隊、北京大學(xué)黃如教授與康晉鋒教授團隊,、清華大學(xué)楊華中教授與吳華強教授團隊,、中科院上海微系統(tǒng)所宋志棠教授團隊、華中科技大學(xué)繆向水教授團隊等,,相繼發(fā)布相關(guān)器件和芯片原型,,并通過圖像/語音識別等應(yīng)用進行了測試驗證。
在當前摩爾定律逐漸放緩的背景下,,存算一體成為解決計算機性能瓶頸的關(guān)鍵技術(shù),。