《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 國(guó)產(chǎn)自研推理芯片完成迭代,燧原科技發(fā)布“邃思”2.5和云燧i20推理卡

國(guó)產(chǎn)自研推理芯片完成迭代,,燧原科技發(fā)布“邃思”2.5和云燧i20推理卡

2021-12-20
來(lái)源:21ic中國(guó)電子網(wǎng)
關(guān)鍵詞: 燧原科技 人工智能 DTU GPU

  近日燧原科技發(fā)布了其最新的“邃思”AI推理芯片及其推理卡云燧i20,,這是其推理產(chǎn)品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能計(jì)算核心和數(shù)據(jù)引擎,,由12nm工藝打造,,通過(guò)架構(gòu)升級(jí),大大提高了單位面積的晶體管效率,,從而實(shí)現(xiàn)了與目前業(yè)內(nèi)7nm GPU相匹敵的計(jì)算能力,。同時(shí)因?yàn)椴捎?2nm的成熟工藝,也實(shí)現(xiàn)了更優(yōu)的性價(jià)比,。

  另外一個(gè)重要意義在于,,第二代推理產(chǎn)品的面市意味著燧原科技已經(jīng)實(shí)現(xiàn)了推理+訓(xùn)練的第二代產(chǎn)品組合的全面迭代,這是AI國(guó)產(chǎn)自研架構(gòu)芯片穩(wěn)步有序邁進(jìn)的體現(xiàn),。

  在燧原科技“芯懷天地”新品發(fā)布會(huì)上,,燧原科技CEO趙立東和COO張亞林針對(duì)推理訓(xùn)練產(chǎn)品及其最新技術(shù)進(jìn)行了精彩的分享。

6311067ce1e1866eb72f35dfc9eec4a4.png

  AI市場(chǎng)新趨勢(shì):推理產(chǎn)品比例變高

  人工智能分為訓(xùn)練和推理兩個(gè)主要的任務(wù),,訓(xùn)練是指創(chuàng)建機(jī)器學(xué)習(xí)算法的過(guò)程,,訓(xùn)練的比例和整個(gè)數(shù)據(jù)科學(xué)家的生產(chǎn)力直接相關(guān),需要大量的計(jì)算資源來(lái)部署學(xué)習(xí)框架和訓(xùn)練數(shù)據(jù)集,。而推理指的是使用經(jīng)過(guò)訓(xùn)練的算法來(lái)進(jìn)行預(yù)測(cè),,因此跟整個(gè)用戶和海量的應(yīng)用直接相關(guān),與用戶和用戶所持應(yīng)用的數(shù)量乘積成直接正比例的關(guān)系,。

e93581fa402c5a32a3f82b1564353e5c.png

  上圖是從2017到2023年AI市場(chǎng)的走勢(shì),,可以看到推理在整個(gè)AI市場(chǎng)中占的比例在逐漸增大,推理的實(shí)際應(yīng)用場(chǎng)景也變得多元化,,AI的業(yè)務(wù)從傳統(tǒng)單一的機(jī)器視覺(jué),、聲音、文字,、決策,、推薦等方向性的算法,逐步變成多場(chǎng)景,、多應(yīng)用的落地,,廣泛分布在用戶日常生活中,。結(jié)合推理的客戶需求場(chǎng)景,這樣的計(jì)算密集型應(yīng)用對(duì)于性價(jià)比的考量也會(huì)更為敏感,。所以除了GPU之外的其他更具性價(jià)比的方案,,有望在這部分實(shí)現(xiàn)突圍。針對(duì)這樣的趨勢(shì),,AI芯片公司譬如燧原科技早也在推理產(chǎn)品上進(jìn)行了投入和布局。

21fe49782124562f481e182ae852b95a.png

  在去年12月,,燧原科技就發(fā)布了其首款神經(jīng)網(wǎng)絡(luò)模型推理引擎“鑒算TopsInference”及其“云燧i10”推理卡,。通過(guò)鑒算TopsInference的推理加速,配合云燧i10的高算力及虛擬化技術(shù),,可以對(duì)計(jì)算密集型深度學(xué)習(xí)工作負(fù)載提供高性價(jià)比的部署方案,。到了今年12月剛好一年的時(shí)間,燧原科技隨即發(fā)布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20,。這也意味著其推理產(chǎn)品也進(jìn)入了有序的迭代節(jié)奏中,,同時(shí)也是對(duì)于當(dāng)前AI市場(chǎng)推理產(chǎn)品旺盛需求的及時(shí)產(chǎn)品補(bǔ)充。

  DTU2.5 :國(guó)內(nèi)首顆TF23推理芯片

  “邃思2.5”采用的是專門(mén)為云端推理場(chǎng)景而自主研發(fā)的計(jì)算架構(gòu),,燧原在這顆芯片上,,針對(duì)場(chǎng)景落地需求、包括性價(jià)比和能效比都有著嚴(yán)苛的設(shè)計(jì)要求,。

  據(jù)張亞?wèn)|介紹,,“邃思”推理芯片采用具備全AI算力空間的計(jì)算架構(gòu),具備32位的算力,,從FP32一直到INT8,,包含中間精度TF32、BF16,、FP16五個(gè)精度構(gòu)成了全AI算力空間,,滿足各種各樣推理的客戶需求。單精度FP32達(dá)到了32 TFLOPS,、單精度張量TF32達(dá)到了128 TFLOPS,;同樣具備半精度BF16/FP16的算力,達(dá)到128 TFLOPS,。在最重要的推理方面,,整數(shù)精度INT8也有了提升,達(dá)到256TOPS,。

02594cd4b9feca80021bccd2ced3b24b.png

  據(jù)悉,,這是中國(guó)第一顆具備TF32張量單精度的推理芯片,能用16位的算力達(dá)到32位的精度,,實(shí)現(xiàn)4倍于FP32的算力,,同時(shí)保持99%的整個(gè)模型精度一致性,。

  數(shù)據(jù)架構(gòu)方面采用了完全自研的 (Sparse Value Segment ) 數(shù)據(jù)壓縮格式,能夠進(jìn)行獨(dú)立的分層壓縮和硬件自動(dòng)循環(huán)解壓,,使得所有的數(shù)據(jù)(特別是稀疏數(shù)據(jù))在傳輸過(guò)程帶寬和功耗減少,。同時(shí)支持硬件指令預(yù)取的操作,使得指令的預(yù)取,、數(shù)據(jù)的傳輸和計(jì)算可以同時(shí)進(jìn)行,,進(jìn)行并行的數(shù)據(jù)廣播,使得同樣的數(shù)據(jù)可以廣播到多個(gè)處理器上進(jìn)行并行執(zhí)行,。同時(shí),,這種數(shù)據(jù)壓縮格式還具有很強(qiáng)的動(dòng)態(tài)功耗控制,讓整個(gè)數(shù)據(jù)傳輸?shù)膭?dòng)態(tài)功耗變得非常的有效,。

883b9b9f3f4615e4999a985aa4529c50.png

  內(nèi)存方面是采用兩顆HBM2E,,單芯片容量為16GB,最大帶寬達(dá)到819GB/s,。封裝形式采用了2.5D的封裝,,整合了5顆芯片進(jìn)去,尺寸為55mmX55mm,。

  除了能效比,、性價(jià)比這些關(guān)鍵因素之外,用戶的實(shí)際部署易用性也是非常重要的考量,。針對(duì)當(dāng)前爆炸式增長(zhǎng)的多樣化的推理落地場(chǎng)景,,燧原科技進(jìn)一步加強(qiáng)推理軟件棧,使其更加泛化易用,,滿足更多客戶日益增長(zhǎng)的需求,。

  超越主流GPU的性價(jià)比之選

  搭載2.5代DTU的推理加速卡云燧i20,縱向上實(shí)現(xiàn)了比前代產(chǎn)品的大幅提升,,橫向上對(duì)比GPU的方案也有更好的性價(jià)比,。

  相比云燧i10,云燧i20的浮點(diǎn)32位的算力從17.6T提升到32T,,浮點(diǎn)16位的算力從70.4T提升到了128T,,INT8整點(diǎn)8位的算力從70.4T提升到了256T,HBM2升級(jí)到HBM2E后相應(yīng)的帶寬也從512GB提升了819GB,,連接方式和功耗表現(xiàn)上與前代保持一致,。

a5a1a30ef2a4e19a73d221222be489b5.png

  如下圖所示,根據(jù)燧原科技提供的和某次旗艦GPU加速卡的對(duì)比數(shù)據(jù),,以該次旗艦GPU的參數(shù)為基準(zhǔn),,i20的浮點(diǎn)16位的算力是其2倍,INT8的算力是2倍,,內(nèi)存帶寬是2.65倍,。

4334e77840a796d11c589a71410074cb.png

  據(jù)張亞?wèn)|介紹,,在DTU2.5設(shè)計(jì)最初,燧原就定了其性能目標(biāo)——至少達(dá)到主流GPU次旗艦的2.5倍以上,,最高達(dá)到3.5倍,。在這樣的設(shè)計(jì)目標(biāo)驅(qū)動(dòng)下,搭載DTU2.5出來(lái)i20的實(shí)際效果也確實(shí)是精準(zhǔn)地完成了這一目標(biāo),。

  在實(shí)時(shí)性方面,,DTU相比GPU也有非常出色的表現(xiàn),根據(jù)燧原科技展示的一個(gè)實(shí)時(shí)語(yǔ)意分析的對(duì)比demo展示,,DTU的實(shí)時(shí)性能(吞吐量)是GPU的2.5倍以上,,而實(shí)時(shí)的延時(shí)DTU卻只有GPU的一半不到。在這種典型的NLP——bert應(yīng)用中,,DTU展現(xiàn)了至少2.5倍于GPU的性能。

f850a42a06db85016ed33e8960418b82.jpg

  “訓(xùn)推一體化”產(chǎn)品組合升級(jí)到第二代

  此次全新二代云端推理產(chǎn)品的推出,,使得燧原構(gòu)建了T20+i20的第二代訓(xùn)推產(chǎn)品組合,。但僅僅有產(chǎn)品是不夠的,燧原科技還同步將訓(xùn)推一體化的系統(tǒng)進(jìn)行了增強(qiáng),,使得用戶可以方便使用T20和i20,,完成訓(xùn)練加推理一體化的部署。

8f05eff11314904866da7d595e5df7ee.png

  據(jù)張亞?wèn)|介紹,,在TopsRider軟件系統(tǒng)里,,從高層的圖優(yōu)化到中間的算子庫(kù)再到中間的編程模型,最后到底層的Runtime,,四個(gè)階段中分別都實(shí)現(xiàn)了整個(gè)訓(xùn)練和推理引擎的統(tǒng)一,,使得用一套結(jié)構(gòu)可以支持所有訓(xùn)練和推理軟件棧。這樣統(tǒng)一的表達(dá),、統(tǒng)一的訓(xùn)練推理的算子編程模型,、統(tǒng)一的Runtime,讓T20+i20在訓(xùn)練和推理?xiàng)I线M(jìn)行了很好的深度融合和充分泛化,,也使得開(kāi)發(fā)者在運(yùn)用訓(xùn)練和推理一體化的時(shí)候更加的高效,、更加的精密和更加的兼容。

4c30215eafea3f7e5f13e085070bd0ea.png

  從“邃思”2.5和云燧i20推理卡的發(fā)布之后,,燧原科技已經(jīng)完成了二代產(chǎn)品的布局,,未來(lái)的i30和T30/T31的產(chǎn)品也已經(jīng)在研發(fā)過(guò)程中。

240e7df4e48cb181b185fc79b13f1415.png

  總結(jié)

  燧原科技通過(guò)自研架構(gòu)DPU,,實(shí)現(xiàn)了比GPU更具性價(jià)比的AI推訓(xùn)方案,。“做大芯片,、拼硬科技”是其一直奉行的理念,,“每代產(chǎn)品比前代實(shí)現(xiàn)3倍能效提升,、2倍性價(jià)比提升、軟件向后兼容”是其產(chǎn)品更新的目標(biāo),。此次“邃思”2.5和云燧i20推理卡的發(fā)布,,標(biāo)志著其推訓(xùn)一體的產(chǎn)品布局已經(jīng)夯實(shí),隨著AI市場(chǎng)的繼續(xù)發(fā)展,,未來(lái)第三代產(chǎn)品相信也會(huì)如期而至,。




mmexport1621241704608.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com,。