華為AI芯片簡史：這幾年華為在做些什么-AET-電子技術(shù)應(yīng)用

華為AI芯片簡史：這幾年華為在做些什么

日期： 2019-08-26

關(guān)鍵詞： 人工智能華為 AI

眾所周知，數(shù)據(jù)、算力和算法，驅(qū)動著人工智能的第三次浪潮。面對AI算力需求的爆發(fā)式增長，這幾年華為在做些什么？

看似高深的人工智能（AI）技術(shù)，其實已經(jīng)“潤物細無聲”地深入大眾生活，僅你手中一部華為Mate20手機，就可以實現(xiàn)人臉識別、物體識別、物體檢測、圖像分割、智能翻譯等AI功能。

這背后，依仗的是手機算力的大幅提升。小小一枚一分錢硬幣大小的華為麒麟980手機芯片，就集成了69億個晶體管，具備每秒鐘完成萬億次級運算的能力。你可能想不到，如今自己手中任何普通智能手機的算力，甚至比美國航空航天局1969年登月計劃中最先進計算機還高出幾百上千萬倍乃至更高。

其中，算力正是重要的基石。手機端的芯片算力幾年間已經(jīng)發(fā)展到如此驚人，用于云端的AI芯片需要處理自動駕駛等復雜場景的海量數(shù)據(jù)，又需要多強大的算力呢？OpenAI近期發(fā)布的研究顯示，僅2012年以來，人們對于算力的需求增長六年就超過30萬倍，平均每年增長10倍，遠遠超過了摩爾定律的發(fā)展速度，因為深度學習神經(jīng)網(wǎng)絡(luò)需要對張量（可以簡化理解為矩陣）進行大規(guī)模并行計算，顛覆了傳統(tǒng)的浮點計算，對算力的需求正在出現(xiàn)指數(shù)級的爆發(fā)式增長。例如原來1個時鐘單元只能計算1次浮點計算，現(xiàn)在可以通過新的算子同時對N×N的矩陣計算，如果N＝10，那就是同時計算了100次，計算次數(shù)較原來增長了100倍，新算子帶來了對新芯片的強大算力訴求。

如果說2019年最受輿論關(guān)注的ICT和智能終端廠商是華為，那么其去年10月以來一直“猶抱琵琶半遮面”的業(yè)界算力最高AI處理器——Ascend（昇騰）910芯片，則是人工智能圈本年度最期待的AI芯片。

率先將專用NPUAI芯片引入手機。

人工智能發(fā)展中，我國在數(shù)據(jù)方面具備優(yōu)勢，但在算法與算力方面仍待發(fā)展，尤其是芯片與硬件代表的算力方面。算法科學家、工程師和應(yīng)用廠商面臨著AI算力稀缺和昂貴問題，大大抬高了算法研究和創(chuàng)新門檻，阻礙著AI的全行業(yè)普及和應(yīng)用。

正因如此，盡管AI芯片在金錢、時間和人力各方面的研發(fā)成本高昂，但在AI商業(yè)賽道上，各廠商都在打造各自的芯片體系，其中多為聚焦于某一應(yīng)用或某一場景的互聯(lián)網(wǎng)和芯片廠商，也不乏ICT大廠。國內(nèi)廠商中，華為在AI芯片的布局堪稱“經(jīng)典”。

在Alpha Go一戰(zhàn)成名之前，絕大多數(shù)國人就已經(jīng)完成了從功能手機到第一代智能手機的換代，不斷增長的手機系統(tǒng)自帶功能特性和第三方應(yīng)用，刷新著用戶的體驗。無論是AI功能還是場景化AI服務(wù)，都需要手機完成復雜深度學習算法模型運算，計算密集復雜，計算需求巨大，實時性受到挑戰(zhàn)；同時運行環(huán)境受限，功耗、內(nèi)存、存儲空間非常挑戰(zhàn)，因此強大的算力是必需的。

如何將人工智能引入到手機終端，是彼時蘋果、華為在內(nèi)的手機廠商都在努力攻破的問題。

2017年9月的柏林電子消費展上，華為正式發(fā)布全球首款移動端AI芯片麒麟970，一個月后發(fā)布了搭載麒麟970的旗艦手機Mate10。麒麟970是全球首款內(nèi)置了獨立神經(jīng)網(wǎng)絡(luò)處理單元（即NPU）的人工智能芯片。華為第一個將NPU引入手機芯片，在此之后，蘋果、三星等廠商紛紛跟進，到今天，AI手機已成為眾多手機廠商的旗艦配置。麒麟970內(nèi)置NPU性能大幅優(yōu)于CPU、GPU和DSP這些通用計算單元，同時相比CPU獲得了約50倍能效和25倍性能優(yōu)勢。這意味著，麒麟970芯片可以用更少的能耗更快地完成AI計算任務(wù)。

在NPU的加持下，手機功能也會變得更加強大。例如使用語音功能時，AI會對當前語境和內(nèi)容進行細致的分析，從而實現(xiàn)高準確率的識別體驗，將語音識別的成功率提升到更高的級別。這樣一來，以智能助手為主語音的功能就得以替代傳統(tǒng)的手工輸入，扮演更重要的角色，或許以后大街上見不到邊玩邊走的“低頭族”，而是更多人對著手機“自言自語”了。

在用戶十分關(guān)心的拍照方面，AI的出現(xiàn)同樣為喜歡手機攝影的用戶帶來不少福利。麒麟970搭載雙通道ISP圖像信號處理器，在動態(tài)影像捕捉和低光拍照上有很大的提升。雙攝鏡頭＋雙ISP軟硬件優(yōu)化，再配合人工智能的計算機視覺分析，便能自動分析畫面內(nèi)的物體，并選擇當前最佳的拍照模式，甚至可以進行物體追蹤對焦和預(yù)測用戶拍照時機，提供前所未有的拍照體驗。

麒麟970的推出，成為傳統(tǒng)智能手機和未來AI手機的重要分水嶺，AI手機的發(fā)展也從單純的算法優(yōu)化進入了硬件能力的真·人工智能比拼階段。

2018年8月，同樣在柏林電子消費展上，華為又發(fā)布了全球首款7nm人工智能手機芯片——麒麟980。

1納米（nm）等于1毫微米（即十億分之一米），約為10個原子的長度。一根頭發(fā)絲直徑約為0．1毫米，而7nm相當于頭發(fā)絲的萬分之一，在不到1平方厘米的麒麟980內(nèi)部有高達69億個晶體管。從芯片工藝上看，7nm相當于70個原子直徑，逼近了硅基半導體工藝的物理極限，麒麟980實現(xiàn)了在針尖上翩翩起舞。華為消費者業(yè)務(wù)CEO余承東表示，麒麟980的7nm工藝是由1000多名半導體工程師組成的團隊歷時3年時間、經(jīng)歷5000多次的工程驗證精心打磨的成果。

相對于麒麟970來說，麒麟980全面升級。以圖像識別速度為例，麒麟970可達到約2005張每分鐘，而麒麟980在移動端雙NPU強大算力加持下，可實現(xiàn)每分鐘圖像識別4500張，識別速度相比上一代提升120％，遠高于業(yè)界同期水平。隨之而來的，是人臉識別、語音助手、AI拍照，及各類智能美拍P圖等APP在手機上的全面升級。

同時，面對更海量的用戶，麒麟710讓更多消費者享受到人工智能的樂趣。到了2019年，華為推出麒麟810芯片，這是華為第二款7nm工藝的手機芯片，也是華為首款自研達芬奇架構(gòu)NPU的手機芯片，這意味著更多海量用戶享受到專用NPU帶來的旗艦級的AI體驗。

至此，華為完成第一輪在手機端的AI芯片布局（麒麟970、麒麟980、麒麟710、麒麟810），手機產(chǎn)業(yè)也正式走入了AI時代。

“達芬奇”構(gòu)建端邊云算力大爆發(fā)基礎(chǔ)

AI賽道比拼，影響的絕不僅是手機端，邊緣側(cè)、云側(cè)的硬件算力、數(shù)據(jù)算法等元素無一不處于白熱化的競賽之中，幾乎每天都有新的論文、新的產(chǎn)品問世。

如果說華為在芯片上的持續(xù)投入屬“居安思危”，顯示的是其遠見與決心。那么，華為在人工智能領(lǐng)域的野心則更為宏大，這一次，華為不僅要覆蓋云、邊、端各種場景，還要形成從應(yīng)用到系統(tǒng)到芯片的閉環(huán)。

2018年10月，華為在其全聯(lián)接大會上首次提出全棧全場景AI解決方案，華為輪值董事長徐直軍表示：“全場景，是指包括公有云、私有云、各種邊緣計算、物聯(lián)網(wǎng)行業(yè)終端以及消費類終端等部署環(huán)境。全棧是技術(shù)功能視角，是指包括芯片、芯片使能、訓練和推理框架和應(yīng)用使能在內(nèi)的全堆棧方案。”

達芬奇架構(gòu)針對AI運算特征而設(shè)計，以高性能3DCube計算引擎為基礎(chǔ)，實現(xiàn)了算力和能效的大幅提升。從云、邊緣、端獨立的和協(xié)同的AI實際需求出發(fā)，從極致低功耗，到極致大算力的AI場景，為云、邊、端之間的算法協(xié)同、遷移、部署、升級和運維，提供了統(tǒng)一架構(gòu)底層核心支撐，大大降低了人工智能算法開發(fā)和迭代的門檻，降低企業(yè)人工智能部署和商用成本。

目前，昇騰（Ascend）芯片家族中的昇騰310已經(jīng)落地商用。基于昇騰310，華為陸續(xù)發(fā)布了Atlas200、Atlas300、Atlas500、Atlas800等產(chǎn)品，已被廣泛應(yīng)用于安防、金融、醫(yī)療、交通、電力、汽車等行業(yè)，涉及攝像機、無人機、機器人、智能小站、MDC（MobileDataCenter）等產(chǎn)品形態(tài)。并提供基于昇騰310的AI云服務(wù)，比如華為云圖像分析類服務(wù)、OCR服務(wù)、視頻智能分析服務(wù)等超過50款A(yù)PI已經(jīng)基于昇騰310，日均調(diào)用量超過1億次。另有大量企業(yè)客戶正在借助昇騰310芯片自己開發(fā)算法服務(wù)。

隨著昇騰310相關(guān)產(chǎn)品大規(guī)模上市，外界對昇騰910的期待更盛。畢竟，去年10月，徐直軍在會上公布，“昇騰910是計算密度最大的單芯片，最大功耗為350W，半精度為（FP16）256TeraFLOPS，比英偉達V100的125TeraFLOPS還要高出近1倍。若集齊1024個昇騰910，將會出現(xiàn)迄今為止全球最大的AI計算集群，性能也將達到256個P，不管多復雜的模型都能輕松訓練。”簡單來說就是，昇騰910是業(yè)界算力最高的AI處理器，相同功耗情況下，它的算力是業(yè)界芯片的2倍、最強CPU的50倍。

全棧全場景AI逐步落地

其中，在2019年已經(jīng)落地實現(xiàn)商用的，除了昇騰310，還有其面向用戶和開發(fā)者的門戶——華為云ModelArts。作為一站式AI開發(fā)平臺，ModelArts可以提供海量數(shù)據(jù)預(yù)處理及半自動化標注、大規(guī)模分布式訓練、自動化模型生成，及端－邊－云模型按需部署能力，幫助用戶快速創(chuàng)建和部署模型，管理全周期AI工作流。2019年5月，在斯坦福大學DAWN Bench榜單，華為云ModelArts獲得圖像識別訓練第一，ImageNet－1k數(shù)據(jù)集上用128塊V100GPU訓練ResNet－50模型僅需要2分43秒，而在2017年10月，斯坦福DAWN的訓練時間是13天10小時41分鐘。斯坦福大學DAWN Bench榜單幾乎聚集了國內(nèi)外領(lǐng)先AI廠商，ModelArts如果有強大的昇騰910加持，是否能進一步刷新世界紀錄？若再采用1024個昇騰910的全球最大AI計算集群，又將出現(xiàn)什么樣的成績？

從端側(cè)到邊緣側(cè)再到云側(cè)，從底層硬件到深度學習框架再到上層應(yīng)用使能，華為的全棧全場景AI戰(zhàn)略正在逐步落地。

其中，全棧AI的基礎(chǔ)，是一系列基于統(tǒng)一的達芬奇架構(gòu)的AI芯片——從IoT到終端（如麒麟芯片的NPU），到邊緣側(cè)再到云。在會上，徐直軍還宣布，“外界一直在傳華為在開發(fā)AI芯片，我要告訴大家，這是事實，我們今天發(fā)布兩顆AI芯片：華為昇騰（Ascend）910和310。”此言一出，立刻在國內(nèi)外人工智能圈子驚起波瀾——華為終于祭出了大招。

除了昇騰系列芯片外，華為提出的全棧AI，還包括支持端、邊、云獨立的和協(xié)同的統(tǒng)一訓練和推理框架Mind Spore，芯片算子庫和高度自動化算子開發(fā)工具——CANN，提供全流程服務(wù)（Model Arts）、分層API和預(yù)集成方案的應(yīng)用使能。在一年前關(guān)于AI的豪言中，哪些是華為下一步將要向市場兌現(xiàn)的呢？我們拭目以待。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

華為AI芯片簡史：這幾年華為在做些什么

日期： 2019-08-26

相關(guān)內(nèi)容