多年來,移動處理器的生產(chǎn)商致力于優(yōu)化設(shè)計,以在有限的功耗預(yù)算,、存儲空間和帶寬范圍內(nèi)獲得最佳性能,。過去,顯然這些考量因素在數(shù)據(jù)中心或個人電腦(PC)等市場并未得到重視,。如今,傳統(tǒng)數(shù)據(jù)中心和PC市場的變革正在悄然發(fā)生——改變處理器設(shè)計規(guī)則,讓開發(fā)人員重新考慮其芯片架構(gòu)以獲得更高的性能功耗比,。
移動處理器設(shè)計原則運(yùn)用于PC和數(shù)據(jù)中心
今天,越來越多的云游戲、數(shù)據(jù)挖掘,、人工智能/數(shù)據(jù)分析和高性能計算均在云端實現(xiàn),。雖然這些應(yīng)用的要求各不相同,但在不斷提高計算量的要求方面如出一轍。
數(shù)據(jù)中心無法通過不斷擴(kuò)大物理占地面積來滿足這一需求,。為了將運(yùn)營支出(OpEx)保持在可接受的范圍內(nèi),以及實現(xiàn)凈零(Net Zero)目標(biāo),企業(yè)需要在有限的空間內(nèi)增加計算密度,從而獲得更高的計算性能,。圖形處理器(GPU)、中央處理器(CPU),、人工智能(AI)加速器等處理元件必須在最小的功耗/散熱和面積預(yù)算內(nèi)實現(xiàn)最高的性能,。為此,遵循移動設(shè)計原則進(jìn)行處理器的設(shè)計是一個理想的出發(fā)點。
分析PC市場的趨勢,也可以得出相似的結(jié)論,。在傳統(tǒng)PC模式下,大部分功能被各自集成為一個個的獨立模組,。但是,隨著大多數(shù)組織希望擴(kuò)大混合辦公模式,人們逐漸用筆記本電腦取代臺式機(jī)。將越來越多的功能(包括圖形處理,、神經(jīng)網(wǎng)絡(luò)加速,、安全、I/O等)集成到具有統(tǒng)一存儲器架構(gòu)的單個系統(tǒng)級芯片(SoC)中,既可以提高性能,又能將功耗保持在最低水平,。因此,下一代PC處理器看起來越來越像是智能手機(jī)處理器,。
大型科技公司借助定制芯片設(shè)計實現(xiàn)差異化
隨著摩爾定律的終結(jié),行業(yè)再也不可能每兩年出現(xiàn)一次性能提升。在此背景下,企業(yè)紛紛加入這場設(shè)計“競賽”,爭相以最佳的芯片,打造最好的用戶體驗,。
全球大型科技公司早已深諳此道,有備而來,。它們正著力自主設(shè)計定制芯片,以用于消費類產(chǎn)品、PC或數(shù)據(jù)中心等,。這些公司從現(xiàn)成可用的芯片轉(zhuǎn)向定制芯片,寄厚望于更好地掌控設(shè)計,贏得優(yōu)勢,。因此,我們看到亞馬遜投資于Graviton CPU設(shè)計,谷歌推出了以TPU為中心的Tensor CPU。蘋果公司的M1處理器將為Mac電腦帶來一款借助移動設(shè)計原則進(jìn)行優(yōu)化的芯片,提供更高的集成度和更出眾的性能功耗比。
OEM替代方案
對于沒有內(nèi)部硬件和軟件設(shè)計團(tuán)隊,尚未著手開發(fā)定制芯片的原始設(shè)備制造商(OEM)而言,他們面臨的挑戰(zhàn)在于如何讓自己的設(shè)計脫穎而出,與高度優(yōu)化的架構(gòu)相媲美,。這些OEM使用的芯片大部分都是現(xiàn)成可用的,可能會使他們處于劣勢,。許多為PC和數(shù)據(jù)中心設(shè)計的芯片是“暴力”解決方案,雖然可以提供所需的性能,但通常過于耗電,太占用內(nèi)存/帶寬,缺乏競爭力。此外,這些芯片在可用的特定軟件和操作系統(tǒng)方面也存在限制,。
部分移動市場的SoC供應(yīng)商開始進(jìn)入數(shù)據(jù)中心和PC市場,期望瓜分現(xiàn)有玩家的部分市場份額,但它們的數(shù)量少之又少,很難幫助OEM廠商實現(xiàn)既創(chuàng)新又控制成本的差異化,。因此,一些行業(yè)替代方案正在應(yīng)運(yùn)而生。我們不乏看到很多廠商正在考慮基于RISC-V架構(gòu)的CPU 解決方案,。但是,單一的CPU設(shè)計無法完全解決OEM目前面臨的激烈的競爭困局,。OEM需要放眼整個數(shù)據(jù)中心的架構(gòu)結(jié)構(gòu)提升整體方案的創(chuàng)新,從而增加自身的競爭力。
可擴(kuò)展的異構(gòu)架構(gòu)是關(guān)鍵
通過異構(gòu)計算,靈活利用CPU,GPU等計算單元,實現(xiàn)硬件最大利用率以達(dá)到計算性能的優(yōu)化提升,同時滿足效率和功耗比優(yōu)化,。異構(gòu)計算架構(gòu)為數(shù)據(jù)中心不斷提高的計算量要求提供了靈活陣列工作方案,。目前很多半導(dǎo)體廠商都在研究相關(guān)的產(chǎn)品和應(yīng)用,以賦能OEM市場競爭力。傳統(tǒng)的GPU IP 公司Imagination 就在去年推出了其CPU產(chǎn)品線,并強(qiáng)化了異構(gòu)計算的研發(fā),意圖通過產(chǎn)品組合的優(yōu)化提升,給客戶提供更加完善的異構(gòu)計算解決方案,從而更好的服務(wù)客戶以適應(yīng)未來高性能計算的需求,。
移動GPU奠定基礎(chǔ)
移動GPU是打造高效異構(gòu)設(shè)計的理想切入點,。與試圖將高端GPU強(qiáng)行納入移動功耗預(yù)算范圍相比,把移動GPU升級應(yīng)用于數(shù)據(jù)中心和PC領(lǐng)域?qū)⒏佑幸饬x,。因為移動GPU天生為”小而美”而生,。移動GPU廠商開發(fā)擁有很多專利技術(shù),以最大程度的實現(xiàn)GPU高性能低功耗。在數(shù)據(jù)中心和PC粗放式單一追求高性能GPU的背景下,這些技術(shù)優(yōu)勢可以讓移動GPU廠商更加具有競爭優(yōu)勢,并給OEM提供更多的管理附加價值,。
提及移動GPU的專利技術(shù),不得不又再次提及Imagination這家專注于GPU設(shè)計的老牌企業(yè),。和它的對手相比,Imagination 多年來把主要精力放在了GPU領(lǐng)域的研究中,尤其是在更復(fù)雜的GPU渲染領(lǐng)域,Imagination是很多技術(shù)的先驅(qū)開發(fā)者, 例如GPU硬件虛擬化,分塊式延遲渲染(TBDR), 實時硬件光線追蹤(Ray Tracing) 等。分塊式延遲渲染(TBDR)技術(shù)是將幾何數(shù)據(jù)分割成小區(qū)域(圖塊),并統(tǒng)一處理,。由于每個圖塊都經(jīng)過光柵化和單獨處理,渲染的尺寸非常小,因此可以將所有數(shù)據(jù)保存在快速運(yùn)行的片上存儲器中,。這項技術(shù)為M1的圖形處理奠定了基礎(chǔ)。
對于諸如安卓云游戲等應(yīng)用場景,數(shù)據(jù)中心需要靈活處理多個用戶的不同游戲消費場景,。在多個小型GPU上處理多個小型并發(fā)工作負(fù)載的方法比使用傳統(tǒng)桌面GPU更高效,。云游戲產(chǎn)業(yè)鏈都在強(qiáng)化GPU硬件虛擬化技術(shù)的開發(fā)應(yīng)用以降低成本。移動GPU通過向上擴(kuò)展分散式多核移動GPU架構(gòu),使每個GPU既可支持更多用戶,同時為云端的許多用戶提供更高的能效,。
以芯動科技(Innosilicon)為例,作為國產(chǎn)高端GPU第一芯的行業(yè)領(lǐng)頭羊,該公司基于Imagination 移動GPU IP的基礎(chǔ)上,把移動GPU架構(gòu)向上擴(kuò)展至高性能服務(wù)器級別的硬件,旨在打破臺式機(jī)顯卡市場的現(xiàn)有格局,。在這個長期由雙寡頭壟斷的高端市場中,沒有人預(yù)料到會出現(xiàn)新的競爭對手,但芯動科技正在利用不斷變化的市場力量和高度可擴(kuò)展的高效技術(shù)提供替代方案。
增加高效的片上AI處理(正如M1所示)是OEM的另一個機(jī)會,。由于片上AI處理尚未成為PC的標(biāo)準(zhǔn),OEM可以利用這項能力來支持超分辨率降噪,、音頻命令、安全等新興應(yīng)用,。這種AI功能通常需要巨大的計算能力,而使用基于移動設(shè)計原則設(shè)計的神經(jīng)網(wǎng)絡(luò)加速器(NNA)IP便可以在SoC上集成高效,、高度可靠的AI推理功能。在端側(cè)的AI邊緣加速器領(lǐng)域,相較于其他競爭對手,Imagination的NNA 邊緣加速器硬件不僅繼承了其GPU設(shè)計的高性能低功耗的DNA,同時在不同的數(shù)量級的計算領(lǐng)域都有高于競爭對手的優(yōu)異表現(xiàn),。
設(shè)計專用芯片 – 不僅服務(wù)于大型科技公司
SoC制造商需要通過基于移動設(shè)計原則設(shè)計的可擴(kuò)展IP內(nèi)核,以創(chuàng)造高能效,、高帶寬和高性能的設(shè)計。借助這種專為異構(gòu)架構(gòu)設(shè)計的處理器,他們可以創(chuàng)建專用、高效的新型解決方案,。這可以幫助OEM提供極具競爭力和差異化的產(chǎn)品,牢牢把握企業(yè)的未來發(fā)展方向,。