《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > Meta推出自研AI芯片:押注RISC-V

Meta推出自研AI芯片:押注RISC-V

2023-05-19
來源: 半導體行業(yè)觀察
關鍵詞: META AI芯片 RISC-V

  正如我們在一年前指出的那樣,,當一些關鍵的芯片專家從英特爾和 Broadcom 被聘請到 Meta Platforms 工作時,這家前身為 Facebook 的公司一直是定制芯片最明顯的地方,。在全球最大的八家互聯(lián)網(wǎng)公司(也是全球八家最大的 IT 設備買家)中,,Meta Platforms 是唯一一家純粹的超大規(guī)模供應商,并且不在云上銷售基礎設施容量,。

  因此,,Meta Platforms 擁有自上而下的軟件堆棧,并且可以隨心所欲地創(chuàng)建驅動它的硬件,。而且,,它有足夠的錢這樣做,并且在硅片和人員上投入了足夠的錢來為它調(diào)整軟件,,毫無疑問,,它可以通過控制更多的芯片來節(jié)省很多錢。

  Meta Platforms 今天在其 AI Infra @ Scale 活動中推出了自主研發(fā)的 AI 推理和視頻編碼芯片,,并討論了其研究超級計算機的部署,、適應繁重 AI 工作負載的新數(shù)據(jù)中心設計,以及其 AI 框架的演變,。在本片文章中,,我們將專注于元訓練和推理加速器,,簡稱 MTIA v1,。

  從長遠來看,CPU,、DPU,、交換機和路由 ASIC 可能會添加到 Meta Platforms 不會購買的半導體組件列表中。如果 Meta Platforms 真的想造成很大的破壞,,它可以將自己的芯片賣給其他人,。. . . 奇怪的事情發(fā)生了。就像1975 年的寵物搖滾熱潮,,僅舉一個例子,。

  為什么要自研芯片

  在今天上午的一次虛擬活動中,Meta 揭開了其為 AI 工作負載開發(fā)內(nèi)部基礎設施的努力的帷幕,包括支持其最近推出的廣告設計和創(chuàng)作工具的生成 AI 類型,。

  這是對 Meta 實力投射的一次嘗試,,Meta 在采用 AI 友好的硬件系統(tǒng)方面歷來進展緩慢,這阻礙了其與谷歌和微軟等競爭對手保持同步的能力,。

  “構建我們自己的 [硬件] 功能使我們能夠控制堆棧的每一層,,從數(shù)據(jù)中心設計到訓練框架,”Meta 基礎設施副總裁 Alexis Bjorlin 告訴 TechCrunch,?!靶枰@種水平的垂直整合才能大規(guī)模突破人工智能研究的界限?!?/p>

  在過去十年左右的時間里,,Meta 花費了數(shù)十億美元來招募頂級數(shù)據(jù)科學家并構建新型人工智能,包括現(xiàn)在為發(fā)現(xiàn)引擎,、審核過濾器和遍布其應用程序和服務的廣告推薦器提供支持的人工智能,。但該公司一直在努力將其許多雄心勃勃的 AI 研究創(chuàng)新轉化為產(chǎn)品,尤其是在生成 AI 方面,。

  直到 2022 年,,Meta 主要使用 CPU 和專為加速 AI 算法而設計的定制芯片的組合來運行其 AI 工作負載——CPU 在處理這類任務時的效率往往低于 GPU。Meta 取消了計劃于 2022 年大規(guī)模推出定制芯片的計劃,,轉而訂購了價值數(shù)十億美元的 Nvidia GPU,,這需要對其多個數(shù)據(jù)中心進行重大重新設計。

  為了扭轉局面,,Meta 計劃開始開發(fā)更具雄心的內(nèi)部芯片,,該芯片將于 2025 年推出,能夠訓練 AI 模型并運行它們,。這就是今天演講的主題,。

  Meta 將新芯片稱為 Meta Training and Inference Accelerator,簡稱 MTIA,,并將其描述為加速 AI 訓練和推理工作負載的芯片“家族”的一部分,。(“推理”是指運行經(jīng)過訓練的模型。)MTIA 是一種 ASIC,,一種將不同電路組合在一塊板上的芯片,,允許對其進行編程以并行執(zhí)行一項或多項任務。

  “為了在我們的重要工作負載中獲得更高水平的效率和性能,,我們需要一個與模型,、軟件堆棧和系統(tǒng)硬件共同設計的定制解決方案,”Bjorlin 繼續(xù)說道,?!斑@通過各種服務為我們的用戶提供了更好的體驗,。”

  定制 AI 芯片越來越成為大型科技公司的游戲名稱,。谷歌創(chuàng)建了一個處理器,,TPU(“張量處理單元”的縮寫),用于訓練大型生成式人工智能系統(tǒng),,如PaLM-2和Imagen,。亞馬遜向 AWS 客戶提供專有芯片,用于訓練 ( Trainium ) 和推理 ( Inferentia ),。據(jù)報道,,微軟正在與 AMD 合作開發(fā)一種名為 Athena 的內(nèi)部 AI 芯片。

  Meta 表示,,它在 2020 年創(chuàng)建了第一代 MTIA——MTIA v1——基于 7 納米工藝,。它可以從其內(nèi)部 128 MB 內(nèi)存擴展到高達 128 GB,并且在 Meta 設計的基準測試中——當然,,必須持保留態(tài)度——Meta 聲稱 MTIA 處理了“低復雜性” ”和“中等復雜度”的 AI 模型比 GPU 更高效,。

  Meta 表示,芯片的內(nèi)存和網(wǎng)絡領域仍有工作要做,,隨著 AI 模型規(guī)模的增長,,這會出現(xiàn)瓶頸,需要將工作負載分配到多個芯片上,。(并非巧合,,Meta 最近收購了位于奧斯陸的英國芯片獨角獸 Graphcore 的 AI 網(wǎng)絡技術團隊。)目前,,MTIA 的重點完全放在 Meta 應用程序系列“推薦工作負載”的推理上,,而不是訓練上。

  但 Meta 強調(diào),,它繼續(xù)改進的 MTIA 在運行推薦工作負載時“大大”提高了公司在每瓦性能方面的效率——反過來允許 Meta 運行“更加增強”和“尖端”(表面上)人工智能工作負載,。

  NNP和GPU無法處理具有良好TCO的負載

  MTIA AI 推理引擎于 2020 年啟動,當時冠狀病毒大流行導致一切失控,,而 AI 已經(jīng)超越圖像識別和語音到文本翻譯,,發(fā)展到大型語言模型的生成能力,這些模型似乎知道如何做很多他們不打算做的事情,。深度學習推薦模型或 DLRM 是一個比 LLM 更棘手的計算和內(nèi)存問題,,因為它們依賴于嵌入——一種數(shù)據(jù)集上下文的圖形表示——必須存儲在運行的計算設備的主內(nèi)存中神經(jīng)網(wǎng)絡。LLM 沒有嵌入,,但 DLRM 有,內(nèi)存是主機 CPU 內(nèi)存容量以及 CPU 和加速器之間快速,、高帶寬連接對 DLRM 比對 LLM 更重要的原因,。

  Meta Platforms 的軟件工程師 Joel Coburn 在 AI Infra @ Scale 活動中展示了這張圖表,,展示了該公司的 DLRM 推理模型在過去三年中的規(guī)模和計算需求如何增長,以及該公司的預期他們將在接下來的十八個月內(nèi)成長:

  微信截圖_20230519094514.png

  請記住,,這是為了推理,,而不是訓練。這些模型絕對突破了大多數(shù) CPU 中的片上矢量引擎提供的相對少量的低精度計算,,以及片上矩陣數(shù)學引擎,,例如現(xiàn)在英特爾至強 SP v4 和 IBM Power10 芯片上的引擎,即將在 AMD Epycs 上使用可能還不夠,。

  無論如何,,這是我們一直看到的那種圖表,盡管我們還沒有看到它們用于 DLRM,。這是一張可怕的圖表,,但不像這張圖那么可怕:

  微信截圖_20230519094532.png

  在圖表的左側,在我們早在 2019 年談到的“Yosemite”微服務器平臺中,, Meta Platforms 正在用用于推理的神經(jīng)網(wǎng)絡處理器或 NNPI 取代基于 CPU 的推理,。基于 CPU 的推理仍在繼續(xù),,你看,,但是隨著 DLRM 模型變得越來越胖,它們超出了 NNPI 的范圍,,然后 Meta Platforms 不得不引入 GPU 來進行推理,。我們假設這些不是用于 AI 訓練的 GPU,而是 Nvidia 的 T4 和 A40 等 PCI-Express 卡,,但 Coburn 沒有具體說明,。然后隨著需要更多的推理能力,它開始變得越來越昂貴,。

  “你可以看到推理需求很快超過了 NPI 功能,,Meta 轉向了 GPU,因為它們提供了更強大的計算能力來滿足不斷增長的需求,,”Coburn 在 MTIA 發(fā)布演示中解釋道,。“但事實證明,,雖然 GPU 提供了大量的內(nèi)存帶寬和計算吞吐量,,但它們在設計時并沒有考慮到推理,盡管軟件進行了大量優(yōu)化,,但它們的效率對于真實模型來說仍然很低,。這使得它們的部署和實踐具有挑戰(zhàn)性且成本高昂?!?/p>

  我們強烈懷疑 Nvidia 會爭辯說 Meta Platforms 為 DLRM 使用了錯誤的設備,,或者它可能已經(jīng)解釋了“Grace”CPU 和“Hopper”GPU 混合體將如何挽救局面,。這一切似乎都不重要,因為 Meta Platforms 希望控制自己在硅片中的命運,,就像它在 2011 年啟動開放計算項目以開源服務器和數(shù)據(jù)中心設計時所做的那樣,。

  這就引出了一個問題:Facebook 會開源 MTIA 設備的 RTL 和設計規(guī)范嗎?

  為 MTIA 寄希望于 RISC-V

  Facebook 在歷史上一直是開源軟件和硬件的堅定支持者,,如果 Meta Platforms 沒有為 MTIA 加速器采用 RISC-V 架構,,那將是一個很大的驚喜。當然,,它是基于一個雙核 RISC-V 處理元件,,包裹著一大堆東西,但沒有多到無法裝入 25 瓦芯片和 35 瓦雙 M.2 外圍卡.

  以下是 MTIA v1 芯片的基本規(guī)格:

  微信截圖_20230519094604.png

  因為它是低頻率的,,MTIA v1 芯片消耗的功率也相當?shù)?,并且采?7 納米工藝實現(xiàn)意味著該芯片足夠小,可以運行得非???,而無需采用臺積電最先進的工藝,(如從 5 納米到 3 納米不等,,中間有 4 納米墊腳石,。)這些都是更昂貴的制程,也許可以留到以后再使用——當這些制程更成熟并因此更便宜時,,可以單獨或一起使用新一代設備進行訓練和推理,,就像谷歌對其 TPU 所做的那樣。

  圖片

  MTIA v1 推理芯片有一個由 64 個處理元件組成的網(wǎng)格,,這些處理元件周圍環(huán)繞著 128 MB 的 SRAM 內(nèi)存,,可用作主存儲器或前端有 16 個低功耗 DDR5 (LPDDR5) 內(nèi)存控制器的高速緩存。這種 LPDDR5 內(nèi)存用于筆記本電腦,,也用于 Nvidia 即將推出的 Grace Arm 服務器 CPU,。這 16 個 LPDDR5 內(nèi)存通道可以提供高達 64 GB 的外部內(nèi)存,適合容納 DLRM 所需的那些big fat embeddings,。

  這 64 個處理元素基于一對 RISC-V 內(nèi)核,,一個是普通的,另一個是帶有矢量數(shù)學擴展的,。每個處理元件都有 128 KB 的本地內(nèi)存和固定功能單元,,用于執(zhí)行 FP16 和 INT8 數(shù)學運算、處理非線性函數(shù)和移動數(shù)據(jù),。

  微信截圖_20230519094755.png

  這是 MTIA v1 板的外觀:

  微信截圖_20230519094900.png

  無法將風扇放在芯片頂部,,并在 Yosemite V3 服務器中安裝一打這樣的風扇。也許這只是為了顯示規(guī)模?

  這是 MTIA 服務器設計中的巧妙之處,。Yosemite 服務器中有一個 PCI-Express 交換機的葉/脊( leaf/spine)網(wǎng)絡,,它不僅可以讓 MTIA 連接到主機,,還可以相互連接,,并連接到 96 GB 的主機 DRAM,必要時可以存儲更大的嵌入,。(就像 Nvidia 打算對 Grace-Hopper 做的那樣,。)整個 shebang 的重量為每個系統(tǒng) 780 瓦 - 或者比單個 Hopper SXM5 GPU 在運行full tilt boogie時的 700 瓦多一點。

  Nvidia H100 可以在 700 瓦的設備功率下以 INT8 精度處理 2,000 teraops ,,而 Meta Platforms Yosemite 推理平臺可以在 780 瓦的系統(tǒng)下處理 1,230 teraops,。DGX H100 的功率為 10,200 瓦,配備八個 GPU,,即 16,000 兆運算,,即每瓦 1.57 兆運算。MTIA 的功耗為每瓦 1.58 teraops,,并針對 Meta Platform 的 DLRM 和 PyTorch 框架進行了調(diào)優(yōu)——并且將進行更高程度的調(diào)優(yōu),。我們強烈懷疑 MTIA 機箱的單位工作成本比 DGX H100 系統(tǒng)要低得多——否則 Meta Platforms 不會提出來。

  當然,,原始進給和速度并不是比較系統(tǒng)的最佳方式,。DLRM 具有不同程度的復雜性和模型大小,并不是所有的東西都擅長,。以下是 DLRM 在元平臺內(nèi)部的分解方式:

  微信截圖_20230519094914.png

  “我們可以看到,,大部分時間實際上花在了完全連接的層上,其次是嵌入式底層,,然后是連接,、轉置、量化和反量化等長尾操作,,”Meta Platforms 工程總監(jiān)Roman Levenstein 解釋說,,?!凹毞诌€讓我們深入了解 MTIA 在哪里以及如何更有效,。與 GPU 相比,MTIA 在全連接層上的每瓦性能最高可達兩倍,?!?/p>

  以下是低復雜度、中等復雜度和高復雜度模型的每瓦性能如何疊加:

  微信截圖_20230519094944.png

  One More Thing:視頻轉碼器

  該公司在今天的活動中透露,,除了 MTIA 之外,,Meta 還在開發(fā)另一種芯片來處理特定類型的計算工作負載。Meta 稱為 Meta 可擴展視頻處理器,,或 MSVP,,Meta 表示這是其第一個內(nèi)部開發(fā)的 ASIC 解決方案,,專為滿足視頻點播和直播流媒體的處理需求而設計。

  讀者可能還記得,, Meta 多年前就開始構思定制服務器端視頻芯片,,并宣布在 2019 年推出用于視頻轉碼和推理工作的 ASIC。這是其中一些努力的成果,,也是對競爭優(yōu)勢的新推動,。特別是現(xiàn)場視頻領域。

  “僅在 Facebook 上,,人們就將 50% 的時間花在觀看視頻上,,”Meta 技術主管 Harikrishna Reddy 和 Yunqing Chen 在今天上午發(fā)表的一篇合著的博客文章中寫道?!盀榱朔沼谑澜绺鞯氐母鞣N設備(移動設備,、筆記本電腦、電視等),,上傳到 Facebook 或 Instagram 的視頻被轉碼為多個比特流,,具有不同的編碼格式、分辨率和質(zhì)量……MSVP是可編程和可擴展的,,并且可以配置為有效地支持 VOD 所需的高質(zhì)量轉碼以及實時流媒體所需的低延遲和更快的處理時間,。”

微信截圖_20230519095002.png

  Meta 表示,,它的計劃是最終將大部分“穩(wěn)定和成熟”的視頻處理工作負載卸載到 MSVP,,并僅對需要特定定制和“顯著”更高質(zhì)量的工作負載使用軟件視頻編碼。Meta 說,,使用智能降噪和圖像增強等預處理方法以及偽影去除和超分辨率等后處理方法,,我們將繼續(xù)使用 MSVP 提高視頻質(zhì)量。

  “在未來,,MSVP 將使我們能夠支持更多 Meta 最重要的用例和需求,,包括短視頻——實現(xiàn)生成 AI、AR/VR 和其他元宇宙內(nèi)容的高效交付,,”Reddy 和 Chen 說,。


更多精彩內(nèi)容歡迎點擊==>>電子技術應用-AET<<


微信圖片_20210517164139.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]