“當(dāng)其下筆風(fēng)雷快,,筆所未到氣已吞”,看到阿里云CIPU發(fā)布的消息,,我腦海里第一時(shí)間冒出了蘇軾的這句詩(shī),。
開啟工業(yè)革命序幕,,讓蒸汽機(jī)、鐵路和煤炭成為主要能源的是英國(guó)發(fā)明家瓦特,;讓燈泡和電力走入所有人生活的,,是美國(guó)發(fā)明家愛迪生;現(xiàn)代計(jì)算機(jī)和互聯(lián)網(wǎng)成為信息時(shí)代的基礎(chǔ)設(shè)施,,變革誕生在美國(guó)西海岸,。今天,所有人都將算力看作第四次工業(yè)革命的基本能源,,將與千行百業(yè),、社會(huì)經(jīng)濟(jì)產(chǎn)生深刻而綿長(zhǎng)的化學(xué)反應(yīng),那么這一次,,算力基礎(chǔ)設(shè)施可以由中國(guó)來(lái)定義嗎,?
顯然,阿里云想嘗試一下,,并且已經(jīng)邁出了關(guān)鍵的一步——正式發(fā)布為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,,展現(xiàn)出取CPU而代之的氣勢(shì)。
CPU制霸計(jì)算產(chǎn)業(yè)半個(gè)世紀(jì)之久,,CIPU要另起爐灶何其難也,。作為讀者或許會(huì)疑問三連:憑什么?為什么,?怎么做,?我們不想直接給答案,從大家感興趣的問題出來(lái)進(jìn)行邏輯推演,,讀者自然會(huì)思考并得出自己的答案。
提筆:憑什么是中國(guó),?
有一句流行歌詞:沒有人能在我的BGM里打敗我,。聽起來(lái)十分自信,不過,,這份自信很長(zhǎng)一段時(shí)間是屬于美國(guó)的,。1971年,英特爾生產(chǎn)的4004微處理器標(biāo)志著CPU的誕生,,隨后與微軟的Windows系統(tǒng)一起組成了著名的“Wintel”聯(lián)盟,,成為計(jì)算產(chǎn)業(yè)的現(xiàn)實(shí)標(biāo)準(zhǔn),被廣泛應(yīng)用于PC,、高性能服務(wù)器以及云服務(wù)器中,。而眾所周知,獲取算力的方式,,無(wú)外乎本地硬件(數(shù)據(jù)中心),、云計(jì)算兩種,。也就是說,以CPU為中心的計(jì)算架構(gòu)主宰了信息時(shí)代,,支撐了云計(jì)算的崛起,。
在這種局面下,中國(guó)廠商打算寫一段全新的旋律,,讓別人主動(dòng)走進(jìn)自己的BGM里,,憑什么?
首先,,CPU這張舊船票,,可能登不上算力時(shí)代的船。英特爾CEO早在幾年前就表示過“摩爾定律已死”,,CPU性能提升的速度早已放緩,,而隨著數(shù)字化的推進(jìn),數(shù)據(jù)規(guī)模,、結(jié)構(gòu)和來(lái)源越來(lái)越廣,,單一CPU為中心的計(jì)算架構(gòu),無(wú)法滿足激增的算力需求,,計(jì)算架構(gòu)的創(chuàng)新是現(xiàn)實(shí)所需,。
其次,圍繞CPU形成的服務(wù)器,、操作系統(tǒng),、中間件、數(shù)據(jù)庫(kù)和基礎(chǔ)軟件等應(yīng)用及相關(guān)服務(wù),,很長(zhǎng)一段時(shí)間內(nèi)都掌握在歐美主流云廠商手中,,中國(guó)數(shù)字經(jīng)濟(jì)要長(zhǎng)期可持續(xù)發(fā)展,對(duì)于算力基礎(chǔ)設(shè)施自然希望有更多選擇,,這給中國(guó)廠商創(chuàng)造了新的機(jī)會(huì),。
當(dāng)然,頭部云廠商從業(yè)務(wù),、戰(zhàn)略等維度也早就意識(shí)到了以CPU為中心的隱患,,紛紛開始探索新的算力硬件解決方案。近年來(lái)多樣性計(jì)算架構(gòu)不斷涌現(xiàn),,比如谷歌發(fā)布了TPU,,AWS發(fā)布Arm架構(gòu)的云服務(wù)器,英偉達(dá)嘗試收購(gòu)ARM以擴(kuò)展數(shù)據(jù)中心業(yè)務(wù),。圖靈獎(jiǎng)得主大衛(wèi)·帕特森與約翰·漢尼斯認(rèn)為,,接下來(lái)將是計(jì)算架構(gòu)更新的黃金十年。如果不想在第四次工業(yè)革命中依然重復(fù)別人的故事,那么,,中國(guó)就必須在計(jì)算架構(gòu)上落下屬于自己的一筆,。
落筆:為什么是云計(jì)算?
如前所說,,CPU在本地和云都有應(yīng)用,,為什么架構(gòu)創(chuàng)新會(huì)率先從云開始呢?答案其實(shí)也很簡(jiǎn)單,,更新的圖紙有更大自由發(fā)揮的空間,。
第四次工業(yè)革命從云開始,對(duì)于中國(guó)千行百業(yè)的數(shù)字化來(lái)說,,直接調(diào)用彈性,、高并發(fā)、異構(gòu)的云端算力是更理想的選擇,;中國(guó)云廠商在技術(shù)能力,、市場(chǎng)規(guī)模、生態(tài)方面與全球巨頭在相同起跑線,,像阿里云已經(jīng)成長(zhǎng)為與AWS,、微軟Azure等同象限的頭部云廠商;更重要的是,,方興未艾的數(shù)字經(jīng)濟(jì)催生了新的算力需求和技術(shù)挑戰(zhàn),,以CPU為中心的云計(jì)算架構(gòu)越來(lái)越力不從心,中國(guó)云廠商有著更大的創(chuàng)新空間,。
簡(jiǎn)單來(lái)說,,云計(jì)算架構(gòu)的創(chuàng)新方向主要有幾個(gè):
1.性能升級(jí)。云計(jì)算一定是性能先行,,才能成為千行百業(yè)數(shù)字化的算力底座,,尤其是第四次工業(yè)革命中智能技術(shù)的大量應(yīng)用,深度學(xué)習(xí)對(duì)于算力資源的消耗是極大的,,要求云處理器提供更強(qiáng)的算力,,實(shí)現(xiàn)每比特性能最優(yōu)。不僅需要硬件升級(jí),,創(chuàng)新傳統(tǒng)計(jì)算架構(gòu),提升單位算力的效率,;還需要軟件升級(jí),,解決軟件定義虛擬化中出現(xiàn)的資源損耗。
2.業(yè)務(wù)效益,。各行各業(yè)使用云服務(wù),,不單單是降低服務(wù)器成本還希望通過云為管道引入新技術(shù),對(duì)大量業(yè)務(wù)數(shù)據(jù)進(jìn)行分析處理,釋放數(shù)據(jù)價(jià)值,,也就是說單位算力所能貢獻(xiàn)的GDP要提高,。數(shù)據(jù)密集型的計(jì)算越來(lái)越多,算力分布在邊,、端,、云、網(wǎng)等多個(gè)維度,,數(shù)據(jù)的遷移量和吞吐率也增多,,解決超大規(guī)模分布式集群之間網(wǎng)絡(luò)傳輸、管理的問題,,才能滿足客戶對(duì)低時(shí)延,、高帶寬的需求。
3.綠色低碳,。上云用數(shù)賦智成為趨勢(shì),,計(jì)算無(wú)處不在,算力基礎(chǔ)設(shè)施的能耗問題也引發(fā)社會(huì)關(guān)注,,計(jì)算產(chǎn)業(yè)的可持續(xù)發(fā)展,,需要低功耗、高性能的并發(fā)處理能力,,減少虛擬化中的損耗,,以達(dá)到單位比特的能效比最優(yōu),滿足各行各業(yè)綠色低碳,、節(jié)能減排的發(fā)展需求,。
方興未艾的云計(jì)算,相當(dāng)于一張更新的圖紙,,等待著人來(lái)書寫底層計(jì)算架構(gòu)范式轉(zhuǎn)換的新篇章,,而阿里云用CIPU率先落下了遒勁的一筆。
入木:CIPU怎么解開算力桎梏,?
計(jì)算架構(gòu)更新,,是必然的未來(lái),對(duì)于中國(guó)云廠商來(lái)說,,怎樣在自己擅長(zhǎng)的技術(shù)賽道上建立起差異化優(yōu)勢(shì),,就成了當(dāng)務(wù)之急??v覽全球領(lǐng)先的計(jì)算廠商,,谷歌專門發(fā)布了應(yīng)對(duì)AI任務(wù)的TPU,亞馬遜在云服務(wù)器,、云端AI推理芯片上也有所突破,,以GPU為主營(yíng)業(yè)務(wù)的英偉達(dá)也嘗試進(jìn)入數(shù)據(jù)中心業(yè)務(wù)推出DPU,,老牌廠商英特爾也推出IPU,國(guó)內(nèi)也有云廠商推出了自己的計(jì)算硬件,。
需要注意的是,,云端算力實(shí)際上受非常多的條件影響,除了芯片的比拼,,還有網(wǎng)絡(luò),、算法優(yōu)化、集群性能,、部署環(huán)境,、數(shù)據(jù)處理能力、框架等一系列要素,,整體決定了云計(jì)算的優(yōu)越性,。阿里云為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,正是考慮到云時(shí)代的算力所需,,從三個(gè)層面進(jìn)行管控并加速,,來(lái)解開算力桎梏。
·網(wǎng)絡(luò)加速,。云和硬件的結(jié)合,,必須依靠網(wǎng)絡(luò),管理阿里云全球上百萬(wàn)臺(tái)服務(wù)器并非易事,。試想一下,,將不同地區(qū)數(shù)據(jù)中心的算力進(jìn)行調(diào)配傳輸,如果網(wǎng)絡(luò)不給力,,必然會(huì)導(dǎo)致數(shù)據(jù)傳輸慢,、計(jì)算慢,大量實(shí)時(shí)性要求高的任務(wù)如自動(dòng)駕駛,、遠(yuǎn)程醫(yī)療,、在線教育等,體驗(yàn)就會(huì)受到影響,。傳統(tǒng)以CPU為中心的架構(gòu)可沒辦法把手伸到網(wǎng)絡(luò)層,,而CIPU因?yàn)榻尤腼w天云操作系統(tǒng),可以直接通過飛天上的洛神云網(wǎng)絡(luò)管控物理網(wǎng)絡(luò),,進(jìn)行硬件加速,,構(gòu)建大規(guī)模的分布式RDMA高性能網(wǎng)絡(luò),基礎(chǔ)帶寬從100G升級(jí)至200G,,網(wǎng)絡(luò)時(shí)延從22us降低至16us,,因此AI任務(wù)、科學(xué)計(jì)算等上云之后,,比自建物理機(jī)的集群吞吐量提升了30%,延遲自然也就大大下降了。
·存儲(chǔ)加速,。大量云上客戶希望充分釋放數(shù)據(jù)價(jià)值,,高吞吐、高并發(fā)的數(shù)據(jù)存算,,如果存儲(chǔ)系統(tǒng)跟不上,,相當(dāng)于一臺(tái)跑車的油箱只有摩托車那么大,發(fā)動(dòng)機(jī)再?gòu)?qiáng)勁也跑不快,。傳統(tǒng)CPU以計(jì)算為中心的設(shè)計(jì),,數(shù)據(jù)搬運(yùn)中往往會(huì)產(chǎn)生“存儲(chǔ)墻”和“功耗墻”,一定程度上影響了并行計(jì)算效率,。同樣的,,CIPU與飛天操作系統(tǒng)相結(jié)合,能夠接入存算分離架構(gòu)的塊存儲(chǔ),,并進(jìn)行硬件加速,,讓云端存儲(chǔ)可以做到比本地存儲(chǔ)還快,并擁有極大規(guī)模的資源池,。通過全硬件虛擬化和轉(zhuǎn)發(fā)加速,,時(shí)延最低可至30us(PLX),IOPS高達(dá)300萬(wàn),,存儲(chǔ)時(shí)延存儲(chǔ)帶寬可達(dá)200 Gbps,,全面超越市面上的云產(chǎn)品。
·計(jì)算加速,。算得快意味著什么,?1750 億參數(shù)的 AI 大模型 GPT-3 訓(xùn)練成本約為 1200 萬(wàn)美元,如果算得夠快,、損耗夠小,,訓(xùn)練成本就能大大下降。而眾所周知,,云服務(wù)將物理機(jī)虛擬池化,,過程中或多或少都會(huì)產(chǎn)生一定的損耗,CIPU的出現(xiàn)就解決了算力虛擬化的損耗問題,。通過與神龍計(jì)算平臺(tái)相結(jié)合,,將虛擬化轉(zhuǎn)移到專用硬件中進(jìn)行加速,損耗幾乎為零,,讓云服務(wù)器的性能表現(xiàn)超越了傳統(tǒng)物理機(jī),,還提供硬件級(jí)安全的加固隔離,兼具云端彈性擴(kuò)容的優(yōu)點(diǎn),。對(duì)于云上客戶來(lái)說,,無(wú)疑是更低成本,、靈活性的選擇。
在多種計(jì)算架構(gòu)方案中,,“飛天操作系統(tǒng)+CIPU”為中心的新一代計(jì)算體系架構(gòu),,從最底層的核心硬件到最上層的云原生軟件進(jìn)行革新,替代CPU成為云計(jì)算的管控和加速中心,,無(wú)疑是云端算力生產(chǎn)和服務(wù)單位價(jià)值更高,、技術(shù)變革更大、基礎(chǔ)底座更強(qiáng)韌的一次探索,。
風(fēng)雷:CIPU畫出的跑道通向何方,?
中國(guó)工程院院士、清華大學(xué)高性能計(jì)算研究所所長(zhǎng)鄭緯民曾說,,過去這些年,,我國(guó)在云計(jì)算領(lǐng)域主要在軟件層面有創(chuàng)新,發(fā)展了一些開源生態(tài),,但還是在傳統(tǒng)IT的格局下追趕,。
顯然,CIPU的出現(xiàn),,下筆如有風(fēng)雷,,撕開由西方主導(dǎo)的計(jì)算產(chǎn)業(yè)天空,露出未來(lái)的一抹天光,。乍一看石破天驚,,實(shí)則是一場(chǎng)醞釀已久的春雨。
前面提到的飛天操作系統(tǒng),、洛神網(wǎng)絡(luò),、盤古存儲(chǔ),都是阿里云多年不斷突破的云計(jì)算底層技術(shù),,經(jīng)過深入垂直整合,,才最終演進(jìn)出以CIPU為中心的全新架構(gòu)形態(tài),解決傳統(tǒng)計(jì)算架構(gòu)無(wú)法解決的問題,。以虛擬化零損耗為例,,阿里云相關(guān)研發(fā)團(tuán)隊(duì)早在2015年就開始技術(shù)攻關(guān),2017年神龍?jiān)品?wù)器的推出,,就已經(jīng)攻克了這一技術(shù)難題,。目前,阿里云已經(jīng)建立了芯片,、服務(wù)器,、操作系統(tǒng)、數(shù)據(jù)庫(kù)等自研技術(shù)底座,,在Gartner發(fā)布的年度報(bào)告里躋身IaaS整體基礎(chǔ)設(shè)施能力的全球最高分,。同時(shí),,阿里云也是國(guó)內(nèi)最早實(shí)踐綠色數(shù)據(jù)中心的廠商之一。
那么,,這場(chǎng)終于降落在華夏大地上的春雨,,會(huì)帶來(lái)怎樣的變化呢?
首先感受到雨露潤(rùn)澤的必然是各行各業(yè)的數(shù)字化,,CIPU+飛天體系下,云端算力的單位成本更低,、性能更優(yōu),、能耗更低,產(chǎn)業(yè)客戶會(huì)直接受益,,用上更加普惠,、高效、綠色的算力,。
其次,,大地滋潤(rùn)后會(huì)生長(zhǎng)出更多創(chuàng)新,讓中國(guó)在數(shù)字經(jīng)濟(jì)占據(jù)領(lǐng)先身位,。算力正在許多行業(yè)中釋放潛力,,比如云電腦無(wú)影,就將高算力工作從本地轉(zhuǎn)移到云端,,無(wú)需高性能終端,,依然可以在云端流暢地打造8K畫質(zhì)體驗(yàn),對(duì)于創(chuàng)作者來(lái)說是極大的生產(chǎn)力解放,。
更進(jìn)一步,,各行各業(yè)的創(chuàng)新和計(jì)算軟硬件迭代,共同組成蓬勃的新計(jì)算生態(tài),。就如阿里云智能總裁張建鋒在2022年阿里云峰會(huì)上所說的那樣,,“現(xiàn)在是重新定義云的窗口期,如果我們定義好了,,中國(guó)就可以在下一個(gè)技術(shù)時(shí)代有自己的一席之地”,。
回到底層,回到源頭,,去做最基礎(chǔ)的計(jì)算架構(gòu)創(chuàng)新,,阿里云用行動(dòng)“Back to Basic”,踐行“B2B”策略,。這也是為什么云計(jì)算的范式轉(zhuǎn)化應(yīng)該發(fā)生在中國(guó),,發(fā)生在此刻。
英國(guó)科普作家馬特·里德利在《創(chuàng)新的起源:一部科學(xué)技術(shù)進(jìn)步史》一書中列舉大量事實(shí)表明,,正如6個(gè)世紀(jì)以前,,歐洲從日益僵化的中國(guó)手中奪過創(chuàng)新接力棒一樣,,中國(guó)或許即將再次奪回接力棒。
在CIPU如驚雷般地書寫中,,中國(guó)云計(jì)算的新樂章已經(jīng)寫下了開頭,。何其有幸,我們正見證未來(lái),。