中國廠商跨界自研芯片的困局-AET-電子技術應用

中國廠商跨界自研芯片的困局

日期： 2022-07-25

來源：半導體產(chǎn)業(yè)縱橫

關鍵詞： 自研芯片服務器處理器字節(jié)跳動

近些年，隨著數(shù)據(jù)量暴漲，以及業(yè)務形式的多樣化，特別是各種創(chuàng)新業(yè)務模式的推出，各家互聯(lián)網(wǎng)大廠都遇到了同樣的難題：買不到適用的服務器處理器及相關芯片。最早遇到這類問題的是谷歌（Google），為了解決應用需求，該公司不得不建立了自己的芯片研發(fā)團隊，專門為自家的設備定制處理器，大名鼎鼎的TPU就是這樣誕生的。

作為全球第二大互聯(lián)網(wǎng)市場，中國也遇到了當初Google遇到的問題，無論是阿里，還是騰訊，都開啟了芯片自研之路。

如今，同樣的問題落在了字節(jié)跳動身上。

本周，字節(jié)跳動確認了一則傳聞：為了滿足該公司旗下TikTok的應用需求，字節(jié)跳動已計劃聘用專家，為其數(shù)據(jù)中心開發(fā)SoC，以處理某些特定的工作負載。字節(jié)跳動已在其網(wǎng)站上發(fā)布了31個與芯片相關的職位，以組成團隊與芯片開發(fā)商合作。至此，字節(jié)跳動正式開啟自研芯片之路。

字節(jié)跳動副總裁楊震原表示，除了采購x86架構CPU，該公司也會與芯片供應商探索RISC架構芯片在云端的應用。字節(jié)跳動的自研芯片探索將主要圍繞自身的視頻推薦業(yè)務展開，為大規(guī)模推薦服務場景定制硬件優(yōu)化方案，比如視頻編解碼，云端推理加速等，以提升效率、降低成本。

也就是說，傳統(tǒng)x86架構CPU已經(jīng)不能滿足TikTok的視頻推薦業(yè)務，因為這種業(yè)務具有很強的創(chuàng)新性，這也是TikTok很快風靡全球的主要原因。從我們普通抖音用戶的實際體驗也可以感受到，不用去找，抖音會根據(jù)用戶的個人喜好，主動推薦相應的短視頻，以形成非常強的用戶粘性。雖然傳統(tǒng)CPU具有AI推理能力，但其在海量大數(shù)據(jù)面前，信息處理速度慢的短板暴露無遺，這就需要具備快速處理大數(shù)據(jù)，且AI智能化水平比較高的處理器，再加上TikTok的視頻屬性，還需要有很好的視頻編解碼能力。放眼當下全球芯片廠商，能夠完全滿足這些條件的處理器SoC，還沒有看到。當然，傳統(tǒng)芯片廠商也并非無所作為，幾年前，以英偉達、賽靈思為代表的廠商就已經(jīng)開始了這方面的研發(fā)工作，這些年火爆的DPU（Data Processing Unit）和智能網(wǎng)卡，很大程度上就是為了滿足這類的大數(shù)據(jù)處理和AI智能化需求，但這些努力還在進行當中，要想完全滿足各大互聯(lián)網(wǎng)廠商的需求，還需要時間去打磨。正是在這樣的背景下，字節(jié)跳動開啟了自研芯片之路。

先驅(qū)Google

前文提到，在互聯(lián)網(wǎng)大廠中，最先遇到處理器瓶頸，并自研相關芯片的就是Google，研發(fā)的產(chǎn)品名為TPU（Tensor Processing Unit，張量處理器），這是一種專用集成電路（ASIC），是專門為Google的TensorFlow框架（一個符號數(shù)學庫，用于機器學習應用程序，如神經(jīng)網(wǎng)絡）設計的，用于加速機器學習。從2015年開始，Google就已經(jīng)在內(nèi)部使用TPU，主要為其云基礎架構服務，據(jù)悉，在Google相冊中，單個TPU每天可以處理超過1億張照片。與GPU不同，TPU主要用于進行大量的低精度計算（如8位精度），每焦耳功耗下的輸入／輸出操作更多。當然，除了TPU，Google也會采用傳統(tǒng)的CPU和GPU，用于其它類型的機器學習處理。

目前，TPU已經(jīng)發(fā)展到了第四代，算力不斷提升。

在視頻處理方面，Google也遇到了問題，那就是傳統(tǒng)的英特爾通用CPU數(shù)據(jù)處理能力已經(jīng)難以滿足YouTube上海量視頻的處理要求，對此，Google專門自研了Argos視頻編碼器（VCU），據(jù)悉，它的視頻處理能力非常高效，取代了數(shù)千萬個英特爾CPU。在需要處理海量數(shù)據(jù)的時候，相對于傳統(tǒng)CPU，專用ASIC優(yōu)勢非常明顯，VCU就是這樣的ASIC。

在YouTube上，每分鐘內(nèi)，用戶會以各種格式上傳超過500小時的視頻內(nèi)容，Google需要快速將內(nèi)容轉碼為多種分辨率（包括144p，240p，360p，480p，720p，1080p，1440p，2160p和4320p）和高效格式（例如H．264，VP9或AV1），這需要強大的編碼能力。

傳統(tǒng)上，對于視頻的轉碼／編碼，Google有兩種選擇：一是英特爾的視覺計算加速器（VCA），它將三個Xeon（至強）E3 CPU、內(nèi)置Iris Pro P6300 ／ P580 GT4e的集成GPU，以及硬件編碼器集成在了一起；二是使用軟件編碼和英特爾Xeon處理器。

Google認為，對于不斷壯大的YouTube工作負載來說，以上這兩種選擇都不夠節(jié)能，且數(shù)據(jù)中心需要占用更多空間，于是自研了VCU。

第一代Argos VCU并沒有完全取代英特爾CPU，因為服務器仍然需要運行操作系統(tǒng)并管理存儲驅(qū)動器和網(wǎng)絡連接。VCU類似于一個GPU，需要一個CPU配合工作。

除了內(nèi)部設計的編碼／轉碼器外，VCU的大多數(shù)IP都是從第三方獲得的，以降低開發(fā)成本。VCU將盡可能多的高性能編碼／轉碼器集成在一個芯片上（同時保持高能效）。Google將兩個VCU放在一塊板上，每個雙插槽英特爾Xeon服務器安裝10張卡，這大大提高了每個機架的解碼／轉碼性能。

Google表示，與采用英特爾Skylake處理器的服務器系統(tǒng)相比，基于VCU的設備在性能／TCO（系統(tǒng)總體擁有成本）計算效率方面提高了7倍（H．264）和33倍（VP9），這里考慮到了VCU的成本和三年的運營費用。從Google給出的性能數(shù)據(jù)來看，在進行H．264編解碼時，單個Argos VCU幾乎不比雙向英特爾Skylake服務器快，但是，由于可以將20個VCU安裝到一個服務器中，其效率更高。當進行VP9編解碼時，VCU比英特爾的雙插槽Xeon快5倍，效率優(yōu)勢明顯。

之所以說了這么多Google自研芯片的內(nèi)容，就是要說明：字節(jié)跳動要自研芯片，大概率是遇到了上面提到的、Google曾經(jīng)遇到的這些問題。TikTok的數(shù)據(jù)中心需要支持各種業(yè)務，包括視頻平臺、信息和娛樂應用，需要開發(fā)視頻編解碼SoC來對用戶上傳的海量視頻流進行處理，同時，為了進一步降低數(shù)據(jù)中心的功耗和存儲容量，還需要更高效的AI算法及相關硬件。

全行業(yè)跟進

海量數(shù)據(jù)＋視頻流處理需求是近些年各大廠商研發(fā)新型處理器的核心動力，不止Google和字節(jié)跳動這些互聯(lián)網(wǎng)大廠，傳統(tǒng)處理器（CPU、GPU、FPGA等）大廠也在不遺余力地進行著研發(fā)工作，因為市場有巨大需求。

以DPU為例，這是近些年最火爆的詞語了，英偉達是行業(yè)大佬，也有一眾廠商在這一賽道上摸爬滾打。

DPU是以數(shù)據(jù)為中心構造的專用處理器，采用軟件定義技術支撐基礎設施層資源虛擬化，支持存儲、安全、服務質(zhì)量管理等服務。2020年，英偉達發(fā)布的DPU戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”，掀起了一波行業(yè)熱潮。DPU面向的應用更加底層，要解決的核心問題是基礎設施的降本增效，即將CPU處理效率低下、GPU處理不了的負載交由專用DPU處理，從而提升整個計算系統(tǒng)的效率、降低TCO。

DPU最直接的作用是作為CPU的卸載引擎，接管網(wǎng)絡虛擬化、硬件資源池化等基礎設施層服務，釋放CPU的算力到上層應用。以網(wǎng)絡協(xié)議處理為例，要線速處理10G的網(wǎng)絡需要大約4個Xeon CPU核，也就是說，單是做網(wǎng)絡數(shù)據(jù)包處理，就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速網(wǎng)絡，性能開銷就更加難以承受了。而將數(shù)據(jù)中心開銷全部從CPU卸載到DPU加速卡上，可以給上層應用釋放可觀的算力。

此外，DPU還可以成為新的數(shù)據(jù)網(wǎng)關，以提升隱私安全級別，DPU也可以成為存儲的入口，將分布式存儲和遠程訪問本地化。

雖然DPU與前文提到的Google和字節(jié)跳動自研芯片有所差異，但它們在本質(zhì)上都是相同的，都是為了解決傳統(tǒng)CPU和GPU難以承受的海量數(shù)據(jù)處理難題。目前來看，它們與傳統(tǒng)CPU和GPU能夠?qū)崿F(xiàn)很好的互補，在需要高性能的海量數(shù)據(jù)處理能力時，則用專用的DPU等ASIC，而平時需要靈活處理的指令則是CPU的專長。

另外，基于FPGA的智能網(wǎng)卡在近些年也有快速發(fā)展，它為大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)、高帶寬通信帶來了更多、更好的選擇，賽靈思在這方面很有一套。2018年，該公司將“數(shù)據(jù)中心優(yōu)先（Datacenter First）”作為其全新發(fā)展戰(zhàn)略。發(fā)布了Alveo系列加速卡產(chǎn)品，旨在大幅提升云端和本地數(shù)據(jù)中心服務器性能。2019 年4月，該公司收購Solarflare通信公司，將FPGA、MPSoC和ACAP解決方案與 Solarflare 的超低時延網(wǎng)絡接口卡（NIC）技術，以及應用加速軟件相結合，實現(xiàn)了全新的SmartNIC解決方案。這些，或許是AMD決定對其進行收購的重要原因。

除了英偉達和賽靈思，CPU霸主英特爾也沒閑著，該公司于2015年收購了Altera，在通用處理器的基礎上，進一步完善硬件加速能力。

2021 年6月，該公司發(fā)布了IPU（可以視其為英特爾版本的DPU），將FPGA與Xeon D系列處理器集成，成為了DPU賽道有力的競爭者。IPU是具有強化的加速器和以太網(wǎng)連接的高級網(wǎng)絡設備，它使用緊密耦合、專用的可編程內(nèi)核加速和管理基礎架構功能。

另外，Marvall發(fā)布了OCTEON 10 DPU產(chǎn)品，不僅具備強大的轉發(fā)能力，還具有突出的AI處理能力。

當然，研發(fā)類似TPU和DPU產(chǎn)品的不止以上這些廠商，目前，越來越多的業(yè)內(nèi)廠商在加大這方面的投入力度，以期在未來的競爭中占得先機。

中國廠商不甘人后

在自研處理器方面，中國各大互聯(lián)網(wǎng)企業(yè)都很積極，早在字節(jié)跳動之前，阿里、騰訊、百度都有行動。例如，阿里擁有自己的AI推理芯片和通用處理器，百度有昆侖AI處理器，騰訊有適用于各種云工作負載的處理器。

以騰訊為例，該公司的自研芯片之路，是從拿FPGA試水開始的，2015年，騰訊團隊研發(fā)的圖片編碼FPGA，取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時，也幫助QQ相冊大幅降低了存儲成本。他們看到了在 FPGA 方向探索和深入的可能性，2016 年，通過FPGA對深度學習模型CNN算法進行加速后，處理性能達到通用CPU的4倍，而單位成本僅為三分之一。

那之后，騰訊在自研芯片方面取得了多個成果，代表作是蓬萊實驗室的AI推理芯片紫霄和視頻轉碼芯片滄海，它們有望于今年實現(xiàn)量產(chǎn)。

2019 年，騰訊迎來云計算業(yè)務上的里程碑——云服務器規(guī)模突破了 100 萬。隨著服務器接入帶寬不斷提升，服務器用于網(wǎng)絡處理的CPU資源也越來越多，能否以更低成本的方式來實現(xiàn)服務器網(wǎng)絡處理，同時還提供更高的網(wǎng)絡性能？答案是智能網(wǎng)卡。該公司制定了“先從基于FPGA自研智能網(wǎng)卡起步，再開展智能網(wǎng)卡芯片研發(fā)”的發(fā)展路線。

2020年9月，騰訊第一代基于FPGA的自研智能網(wǎng)卡正式上線，命名為水杉。

水杉投入應用后，第二代智能網(wǎng)卡銀杉的研發(fā)工作于2021年10月正式上線，這一代智能網(wǎng)卡的網(wǎng)絡端口翻了一番，達到2＊100G，基于此，騰訊云推出了業(yè)界首款自研第六代100G云服務器。它的計算性能最大提升220％、存儲性能最大提升100％。單節(jié)點接入網(wǎng)絡帶寬相比上一代最大提升4倍，延時下降50％。

目前，騰訊正在研發(fā)其首款智能網(wǎng)卡芯片玄靈，采用7nm制程工藝，預計在2022年底流片。據(jù)悉，玄靈的性能相對商業(yè)芯片可提升4倍，通過將原來運行在主機CPU上的虛擬化、網(wǎng)絡／存儲 IO等功能卸載到芯片，可實現(xiàn)主機CPU的0占用。

不止騰訊，阿里和百度都有各自的芯片研發(fā)故事，這里就不一一贅述了。

中國大陸系統(tǒng)廠商（互聯(lián)網(wǎng)和設備廠商）自研芯片，也不全是商業(yè)原因，有的是受到國際貿(mào)易限制，市場上有可用芯片，但買不到。

無論是阿里、騰訊、百度，還是字節(jié)跳動，他們自研芯片，主要與Google類似，市場上沒有滿意的芯片，而華為則有些不同，該公司2005年就開始布局自研芯片，主要考慮的是有朝一日如果受到國際貿(mào)易限制，能夠有自家芯片頂上，從而掌握主動權。2019年之后，多年擔心的事情還是發(fā)生了，但無奈的是，雖然華為的芯片研發(fā)能力很強，但由于中國大陸芯片制造能力有限，設計出了高端芯片，制造端受限后，造不出來，非常遺憾。

因此，國際大廠（如Google）自研芯片，完全出于商業(yè)原因，而中國大陸系統(tǒng)廠商自研芯片，原因更多，苦難更深。

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

中國廠商跨界自研芯片的困局

日期： 2022-07-25

來源：半導體產(chǎn)業(yè)縱橫

相關內(nèi)容