《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 中國廠商跨界自研芯片的困局

中國廠商跨界自研芯片的困局

2022-07-25
來源:半導(dǎo)體產(chǎn)業(yè)縱橫

近些年,隨著數(shù)據(jù)量暴漲,,以及業(yè)務(wù)形式的多樣化,,特別是各種創(chuàng)新業(yè)務(wù)模式的推出,,各家互聯(lián)網(wǎng)大廠都遇到了同樣的難題:買不到適用的服務(wù)器處理器及相關(guān)芯片,。最早遇到這類問題的是谷歌(Google),為了解決應(yīng)用需求,,該公司不得不建立了自己的芯片研發(fā)團隊,,專門為自家的設(shè)備定制處理器,大名鼎鼎的TPU就是這樣誕生的,。

作為全球第二大互聯(lián)網(wǎng)市場,,中國也遇到了當(dāng)初Google遇到的問題,無論是阿里,,還是騰訊,,都開啟了芯片自研之路。

如今,,同樣的問題落在了字節(jié)跳動身上,。

本周,字節(jié)跳動確認(rèn)了一則傳聞:為了滿足該公司旗下TikTok的應(yīng)用需求,,字節(jié)跳動已計劃聘用專家,,為其數(shù)據(jù)中心開發(fā)SoC,以處理某些特定的工作負載,。字節(jié)跳動已在其網(wǎng)站上發(fā)布了31個與芯片相關(guān)的職位,,以組成團隊與芯片開發(fā)商合作。至此,,字節(jié)跳動正式開啟自研芯片之路,。

字節(jié)跳動副總裁楊震原表示,除了采購x86架構(gòu)CPU,,該公司也會與芯片供應(yīng)商探索RISC架構(gòu)芯片在云端的應(yīng)用,。字節(jié)跳動的自研芯片探索將主要圍繞自身的視頻推薦業(yè)務(wù)展開,為大規(guī)模推薦服務(wù)場景定制硬件優(yōu)化方案,,比如視頻編解碼,,云端推理加速等,以提升效率,、降低成本,。

也就是說,傳統(tǒng)x86架構(gòu)CPU已經(jīng)不能滿足TikTok的視頻推薦業(yè)務(wù),,因為這種業(yè)務(wù)具有很強的創(chuàng)新性,,這也是TikTok很快風(fēng)靡全球的主要原因。從我們普通抖音用戶的實際體驗也可以感受到,,不用去找,,抖音會根據(jù)用戶的個人喜好,主動推薦相應(yīng)的短視頻,,以形成非常強的用戶粘性,。雖然傳統(tǒng)CPU具有AI推理能力,但其在海量大數(shù)據(jù)面前,,信息處理速度慢的短板暴露無遺,,這就需要具備快速處理大數(shù)據(jù),且AI智能化水平比較高的處理器,再加上TikTok的視頻屬性,,還需要有很好的視頻編解碼能力,。放眼當(dāng)下全球芯片廠商,能夠完全滿足這些條件的處理器SoC,,還沒有看到,。當(dāng)然,傳統(tǒng)芯片廠商也并非無所作為,,幾年前,,以英偉達、賽靈思為代表的廠商就已經(jīng)開始了這方面的研發(fā)工作,,這些年火爆的DPU(Data Processing Unit)和智能網(wǎng)卡,,很大程度上就是為了滿足這類的大數(shù)據(jù)處理和AI智能化需求,但這些努力還在進行當(dāng)中,,要想完全滿足各大互聯(lián)網(wǎng)廠商的需求,,還需要時間去打磨。正是在這樣的背景下,,字節(jié)跳動開啟了自研芯片之路,。

先驅(qū)Google

前文提到,在互聯(lián)網(wǎng)大廠中,,最先遇到處理器瓶頸,,并自研相關(guān)芯片的就是Google,研發(fā)的產(chǎn)品名為TPU(Tensor Processing Unit,,張量處理器),,這是一種專用集成電路(ASIC),是專門為Google的TensorFlow框架(一個符號數(shù)學(xué)庫,,用于機器學(xué)習(xí)應(yīng)用程序,,如神經(jīng)網(wǎng)絡(luò))設(shè)計的,用于加速機器學(xué)習(xí),。從2015年開始,,Google就已經(jīng)在內(nèi)部使用TPU,主要為其云基礎(chǔ)架構(gòu)服務(wù),,據(jù)悉,,在Google相冊中,單個TPU每天可以處理超過1億張照片,。與GPU不同,,TPU主要用于進行大量的低精度計算(如8位精度),每焦耳功耗下的輸入/輸出操作更多,。當(dāng)然,,除了TPU,Google也會采用傳統(tǒng)的CPU和GPU,用于其它類型的機器學(xué)習(xí)處理,。

目前,,TPU已經(jīng)發(fā)展到了第四代,算力不斷提升,。

在視頻處理方面,,Google也遇到了問題,,那就是傳統(tǒng)的英特爾通用CPU數(shù)據(jù)處理能力已經(jīng)難以滿足YouTube上海量視頻的處理要求,,對此,Google專門自研了Argos視頻編碼器(VCU),,據(jù)悉,,它的視頻處理能力非常高效,取代了數(shù)千萬個英特爾CPU,。在需要處理海量數(shù)據(jù)的時候,,相對于傳統(tǒng)CPU,專用ASIC優(yōu)勢非常明顯,,VCU就是這樣的ASIC,。

在YouTube上,每分鐘內(nèi),,用戶會以各種格式上傳超過500小時的視頻內(nèi)容,,Google需要快速將內(nèi)容轉(zhuǎn)碼為多種分辨率(包括144p,240p,,360p,,480p,720p,,1080p,,1440p,2160p和4320p)和高效格式(例如H.264,,VP9或AV1),,這需要強大的編碼能力。

傳統(tǒng)上,,對于視頻的轉(zhuǎn)碼/編碼,,Google有兩種選擇:一是英特爾的視覺計算加速器(VCA),它將三個Xeon(至強)E3 CPU,、內(nèi)置Iris Pro P6300 / P580 GT4e的集成GPU,,以及硬件編碼器集成在了一起;二是使用軟件編碼和英特爾Xeon處理器,。

Google認(rèn)為,,對于不斷壯大的YouTube工作負載來說,以上這兩種選擇都不夠節(jié)能,且數(shù)據(jù)中心需要占用更多空間,,于是自研了VCU,。

第一代Argos VCU并沒有完全取代英特爾CPU,因為服務(wù)器仍然需要運行操作系統(tǒng)并管理存儲驅(qū)動器和網(wǎng)絡(luò)連接,。VCU類似于一個GPU,,需要一個CPU配合工作。

除了內(nèi)部設(shè)計的編碼/轉(zhuǎn)碼器外,,VCU的大多數(shù)IP都是從第三方獲得的,,以降低開發(fā)成本。VCU將盡可能多的高性能編碼/轉(zhuǎn)碼器集成在一個芯片上(同時保持高能效),。Google將兩個VCU放在一塊板上,,每個雙插槽英特爾Xeon服務(wù)器安裝10張卡,這大大提高了每個機架的解碼/轉(zhuǎn)碼性能,。

Google表示,,與采用英特爾Skylake處理器的服務(wù)器系統(tǒng)相比,基于VCU的設(shè)備在性能/TCO(系統(tǒng)總體擁有成本)計算效率方面提高了7倍(H.264)和33倍(VP9),,這里考慮到了VCU的成本和三年的運營費用,。從Google給出的性能數(shù)據(jù)來看,在進行H.264編解碼時,,單個Argos VCU幾乎不比雙向英特爾Skylake服務(wù)器快,,但是,由于可以將20個VCU安裝到一個服務(wù)器中,,其效率更高,。當(dāng)進行VP9編解碼時,VCU比英特爾的雙插槽Xeon快5倍,,效率優(yōu)勢明顯,。

之所以說了這么多Google自研芯片的內(nèi)容,就是要說明:字節(jié)跳動要自研芯片,,大概率是遇到了上面提到的,、Google曾經(jīng)遇到的這些問題。TikTok的數(shù)據(jù)中心需要支持各種業(yè)務(wù),,包括視頻平臺,、信息和娛樂應(yīng)用,需要開發(fā)視頻編解碼SoC來對用戶上傳的海量視頻流進行處理,,同時,,為了進一步降低數(shù)據(jù)中心的功耗和存儲容量,還需要更高效的AI算法及相關(guān)硬件,。

全行業(yè)跟進

海量數(shù)據(jù)+視頻流處理需求是近些年各大廠商研發(fā)新型處理器的核心動力,,不止Google和字節(jié)跳動這些互聯(lián)網(wǎng)大廠,,傳統(tǒng)處理器(CPU、GPU,、FPGA等)大廠也在不遺余力地進行著研發(fā)工作,,因為市場有巨大需求。

以DPU為例,,這是近些年最火爆的詞語了,,英偉達是行業(yè)大佬,也有一眾廠商在這一賽道上摸爬滾打,。

DPU是以數(shù)據(jù)為中心構(gòu)造的專用處理器,,采用軟件定義技術(shù)支撐基礎(chǔ)設(shè)施層資源虛擬化,支持存儲,、安全,、服務(wù)質(zhì)量管理等服務(wù),。2020年,,英偉達發(fā)布的DPU戰(zhàn)略中將其定位為數(shù)據(jù)中心繼CPU和GPU之后的“第三顆主力芯片”,掀起了一波行業(yè)熱潮,。DPU面向的應(yīng)用更加底層,,要解決的核心問題是基礎(chǔ)設(shè)施的降本增效,即將CPU處理效率低下,、GPU處理不了的負載交由專用DPU處理,,從而提升整個計算系統(tǒng)的效率、降低TCO,。

DPU最直接的作用是作為CPU的卸載引擎,,接管網(wǎng)絡(luò)虛擬化、硬件資源池化等基礎(chǔ)設(shè)施層服務(wù),,釋放CPU的算力到上層應(yīng)用,。以網(wǎng)絡(luò)協(xié)議處理為例,要線速處理10G的網(wǎng)絡(luò)需要大約4個Xeon CPU核,,也就是說,,單是做網(wǎng)絡(luò)數(shù)據(jù)包處理,就可以占去一個8核高端CPU一半的算力,。如果考慮40G,、100G的高速網(wǎng)絡(luò),性能開銷就更加難以承受了,。而將數(shù)據(jù)中心開銷全部從CPU卸載到DPU加速卡上,,可以給上層應(yīng)用釋放可觀的算力。

此外,,DPU還可以成為新的數(shù)據(jù)網(wǎng)關(guān),,以提升隱私安全級別,,DPU也可以成為存儲的入口,將分布式存儲和遠程訪問本地化,。

雖然DPU與前文提到的Google和字節(jié)跳動自研芯片有所差異,,但它們在本質(zhì)上都是相同的,都是為了解決傳統(tǒng)CPU和GPU難以承受的海量數(shù)據(jù)處理難題,。目前來看,,它們與傳統(tǒng)CPU和GPU能夠?qū)崿F(xiàn)很好的互補,在需要高性能的海量數(shù)據(jù)處理能力時,,則用專用的DPU等ASIC,,而平時需要靈活處理的指令則是CPU的專長。

另外,,基于FPGA的智能網(wǎng)卡在近些年也有快速發(fā)展,,它為大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)、高帶寬通信帶來了更多,、更好的選擇,,賽靈思在這方面很有一套。2018年,,該公司將“數(shù)據(jù)中心優(yōu)先(Datacenter First)”作為其全新發(fā)展戰(zhàn)略,。發(fā)布了Alveo系列加速卡產(chǎn)品,旨在大幅提升云端和本地數(shù)據(jù)中心服務(wù)器性能,。2019 年4月,,該公司收購Solarflare通信公司,將FPGA,、MPSoC和ACAP解決方案與 Solarflare 的超低時延網(wǎng)絡(luò)接口卡(NIC)技術(shù),,以及應(yīng)用加速軟件相結(jié)合,實現(xiàn)了全新的SmartNIC解決方案,。這些,,或許是AMD決定對其進行收購的重要原因。

除了英偉達和賽靈思,,CPU霸主英特爾也沒閑著,,該公司于2015年收購了Altera,在通用處理器的基礎(chǔ)上,,進一步完善硬件加速能力,。

2021 年6月,該公司發(fā)布了IPU(可以視其為英特爾版本的DPU),,將FPGA與Xeon D系列處理器集成,,成為了DPU賽道有力的競爭者。IPU是具有強化的加速器和以太網(wǎng)連接的高級網(wǎng)絡(luò)設(shè)備,,它使用緊密耦合,、專用的可編程內(nèi)核加速和管理基礎(chǔ)架構(gòu)功能,。

另外,Marvall發(fā)布了OCTEON 10 DPU產(chǎn)品,,不僅具備強大的轉(zhuǎn)發(fā)能力,,還具有突出的AI處理能力。

當(dāng)然,,研發(fā)類似TPU和DPU產(chǎn)品的不止以上這些廠商,,目前,越來越多的業(yè)內(nèi)廠商在加大這方面的投入力度,,以期在未來的競爭中占得先機,。

中國廠商不甘人后

在自研處理器方面,中國各大互聯(lián)網(wǎng)企業(yè)都很積極,,早在字節(jié)跳動之前,,阿里、騰訊,、百度都有行動,。例如,阿里擁有自己的AI推理芯片和通用處理器,,百度有昆侖AI處理器,,騰訊有適用于各種云工作負載的處理器。

以騰訊為例,,該公司的自研芯片之路,是從拿FPGA試水開始的,,2015年,,騰訊團隊研發(fā)的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時,,也幫助QQ相冊大幅降低了存儲成本,。他們看到了在 FPGA 方向探索和深入的可能性,2016 年,,通過FPGA對深度學(xué)習(xí)模型CNN算法進行加速后,,處理性能達到通用CPU的4倍,而單位成本僅為三分之一,。

那之后,,騰訊在自研芯片方面取得了多個成果,代表作是蓬萊實驗室的AI推理芯片紫霄和視頻轉(zhuǎn)碼芯片滄海,,它們有望于今年實現(xiàn)量產(chǎn),。

2019 年,騰訊迎來云計算業(yè)務(wù)上的里程碑——云服務(wù)器規(guī)模突破了 100 萬,。隨著服務(wù)器接入帶寬不斷提升,,服務(wù)器用于網(wǎng)絡(luò)處理的CPU資源也越來越多,,能否以更低成本的方式來實現(xiàn)服務(wù)器網(wǎng)絡(luò)處理,同時還提供更高的網(wǎng)絡(luò)性能,?答案是智能網(wǎng)卡,。該公司制定了“先從基于FPGA自研智能網(wǎng)卡起步,再開展智能網(wǎng)卡芯片研發(fā)”的發(fā)展路線,。

2020年9月,,騰訊第一代基于FPGA的自研智能網(wǎng)卡正式上線,命名為水杉,。

水杉投入應(yīng)用后,,第二代智能網(wǎng)卡銀杉的研發(fā)工作于2021年10月正式上線,這一代智能網(wǎng)卡的網(wǎng)絡(luò)端口翻了一番,,達到2*100G,,基于此,騰訊云推出了業(yè)界首款自研第六代100G云服務(wù)器,。它的計算性能最大提升220%,、存儲性能最大提升100%。單節(jié)點接入網(wǎng)絡(luò)帶寬相比上一代最大提升4倍,,延時下降50%,。

目前,騰訊正在研發(fā)其首款智能網(wǎng)卡芯片玄靈,,采用7nm制程工藝,,預(yù)計在2022年底流片。據(jù)悉,,玄靈的性能相對商業(yè)芯片可提升4倍,,通過將原來運行在主機CPU上的虛擬化、網(wǎng)絡(luò)/存儲 IO等功能卸載到芯片,,可實現(xiàn)主機CPU的0占用,。

不止騰訊,阿里和百度都有各自的芯片研發(fā)故事,,這里就不一一贅述了,。

中國大陸系統(tǒng)廠商(互聯(lián)網(wǎng)和設(shè)備廠商)自研芯片,也不全是商業(yè)原因,,有的是受到國際貿(mào)易限制,,市場上有可用芯片,但買不到,。

無論是阿里,、騰訊、百度,,還是字節(jié)跳動,,他們自研芯片,,主要與Google類似,市場上沒有滿意的芯片,,而華為則有些不同,,該公司2005年就開始布局自研芯片,主要考慮的是有朝一日如果受到國際貿(mào)易限制,,能夠有自家芯片頂上,,從而掌握主動權(quán)。2019年之后,,多年擔(dān)心的事情還是發(fā)生了,,但無奈的是,雖然華為的芯片研發(fā)能力很強,,但由于中國大陸芯片制造能力有限,,設(shè)計出了高端芯片,制造端受限后,,造不出來,,非常遺憾。

因此,,國際大廠(如Google)自研芯片,,完全出于商業(yè)原因,而中國大陸系統(tǒng)廠商自研芯片,,原因更多,,苦難更深。




本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]