周末最大的科技新聞,應(yīng)該是美國超級計算機(jī)重奪世界第一,,速度超過了中國“神威”60%。
筆者也正好借此機(jī)會向公眾介紹一下超級計算機(jī)領(lǐng)域激烈的中美競爭。而且這應(yīng)該是真正最完整和最通俗的解讀了,。
【美國已經(jīng)落后甚至被甩開了5年】
這將是自2013年6月以來,美國首次登上超級計算機(jī)的榜首,,當(dāng)時它被中國廣州的天河二號奪去了第一名,。到2016年,中國無錫的神威-太湖之光,,又以3倍的優(yōu)勢大幅度刷新記錄,,繼續(xù)為中國把持著榜單首位。
在上一輪,,也就是去年年底的全球超級計算機(jī)TOP500排行上,,美國的最高排位已經(jīng)被瑞士和日本擠到了第五位。
而在TOP500總榜單中,,中國系統(tǒng)總數(shù)為202臺,,占比超過四成位居第一。美國只剩143臺,。中國在總體算力上也超過了美國,。在TOP500的總算力中,中國占了35.4%,,美國只有29.6%,。
再往下的國家數(shù)字就很少了,日本35臺,,德國20臺,,法國18臺,英國15臺……這就是當(dāng)今全球頂尖科技與商業(yè)的競逐寫照:只有中美兩個大玩家,。
【請不要再用人手去類比了——G的十億級領(lǐng)域】
在進(jìn)一步介紹之前,,很有必要科普衡量現(xiàn)代計算機(jī)性能的基本專業(yè)參數(shù)——每秒浮點(diǎn)運(yùn)算次數(shù)(英文縮寫:FLOPS)。否則,,一味地還在采用“相當(dāng)于全球70億人手按多少百億年計算器”,,實(shí)在既不直觀,,也難比較。
從鼻祖ENIAC的300 FLOPS開始,,計算機(jī)開始了指數(shù)化發(fā)展的歷程,。在英文詞匯與縮寫里,K是千,,10的3次方,;M是百萬,10的6次方,;G是十億,,10的9次方,以此進(jìn)位,。
在超級計算機(jī)(簡稱超算)首次被中國媒體報道的80年代中期,,超級計算機(jī)的速度是1 GFLOPS量級,也就是每秒十億次浮點(diǎn)運(yùn)算,。
1983年中國造出第一臺銀河一號巨型計算機(jī),,每秒運(yùn)算一億次以上,也就是0.1GFLOPS,。而當(dāng)年全球最快的美國克雷,,則是八億次,也就是0.8GFLOPS,。
放在今天,,這性能大概連塊電子表都不如。
【千倍性能的超算,,過十幾年就還不如個人玩具——T的萬億級領(lǐng)域】
十五年后,,到了90年代末期,個人電腦上的CPU開始出現(xiàn)1 GFLOPS的能力,,而此時全球最快的超級計算機(jī),,性能已達(dá)到了1 TFLOPS以上——T是一萬億,10的12次方,。
因此個人電腦與同時代專業(yè)超算的差距,,是1000倍。
而再過十五年,,2014年的個人電腦CPU就有0.6 TFLOPS的能力,,現(xiàn)在2018年的頂級手機(jī)CPU,也具備了同樣的水準(zhǔn),。
絕大部分人都不會意識到,,手上小小的智能手機(jī),竟然堪比20年前極其龐大笨重的全球最強(qiáng)超算,而且體積重量也縮小了1000倍,。
否則,,還怎么玩微信、刷視頻,、打游戲,以及實(shí)時美顏,?那都是以接近T級的計算能力,,實(shí)時算出來的!
信息科技的指數(shù)化發(fā)展,,創(chuàng)造了無與倫比的爆炸式進(jìn)步,,也推動了無法想象的社會形態(tài)變革。
所以TFLOPS(萬億),,才應(yīng)該是討論現(xiàn)代計算機(jī)的起點(diǎn),。否則,數(shù)據(jù)后面所列的〇和億太多,,實(shí)在超出了普通人的理解力和想象力,,也脫離當(dāng)下的發(fā)展現(xiàn)實(shí)。
【同樣的,,專業(yè)超算要保持比個人玩具強(qiáng)1000倍——P的千萬億級領(lǐng)域】
而主要用于游戲的顯卡,,由于幾百個運(yùn)算單元并行處理的特性,性能增長還高出一個數(shù)量級,。
以目前市場上最熱銷,、最主流的NVIDIA GTX 1060游戲顯卡為例,它的成品價格是2000多元人民幣,,游戲單精度計算能力是4.4 TFLOPS,,比傳統(tǒng)CPU高了約10倍。
再往上,,目前NVIDIA最新的頂級顯卡Titan V達(dá)到了15 TFLOPS,,是GTX 1060的三倍多,當(dāng)然,,售價也達(dá)到了兩萬多元,。
而當(dāng)TFLOPS再增長1000倍,就是PFLOPS(千萬億),。這才是當(dāng)今專業(yè)超算的能力范疇——實(shí)際1個PFLOPS能力的超算,,在去年底的榜單上,能排在全球183位,。
【美國怎么奪回冠軍的:等了整整3年】
為了奪回被中國占據(jù)的最快超算王座,,早在2015年,IBM和NVIDIA就接下了美國政府的訂單,,要為掌管研制核武器的美國能源部所屬的橡樹嶺國家實(shí)驗(yàn)室,、勞倫斯利福摩爾國家實(shí)驗(yàn)室,,分別打造20億億次和15億億次,也就是200 FLOPS和150 PFLOPS的超算,。
兩臺超算分別命名為Summit和Sierra,,總耗資約3.8億美元。但一直要到2017年底,,兩家公司研制出相關(guān)核心芯片之后,,才能轉(zhuǎn)換為工程現(xiàn)實(shí)。
橡樹嶺國家實(shí)驗(yàn)室名為“頂點(diǎn)”(Summit)的超算,,使用了4608個計算服務(wù)器節(jié)點(diǎn),,每個節(jié)點(diǎn)含有2個IBM的Power 9處理器(CPU)和6個NVIDIA(英偉達(dá))公司生產(chǎn)的Tesla V100圖形處理單元加速器(GPU),以及512 GB的DDR4 內(nèi)存,。采用效率更高的水冷散熱,。
NVIDIA的Tesla V100,采用臺積電12納米工藝制造,,集成了210億個晶體管,,外圍是32 GB內(nèi)存。每個售價9000美元,。
Tesla V100和民用頂級顯卡Titan V同為Volta 架構(gòu),,但考慮穩(wěn)定性頻率略低,理論計算能力為單精度14 TFLOPS,,但科學(xué)計算都用雙精度模式,,為7 TFLOPS。
GPU接管了大部分的工作負(fù)載,,但CPU仍然是數(shù)據(jù)處理的中心,。IBM的POWER9,采用格羅方德(原AMD的制造部分)的14納米工藝制造,,集成了擁有80億個晶體管,。具有24核96個線程,實(shí)際使用22核,。每顆售價6000美元起,。
這樣,單個節(jié)點(diǎn)擁有6塊雙精度7 TFLOPS的V100,,理論計算能力就超過42 TFLOPS,。4608個節(jié)點(diǎn)合起來,就是20萬個TFLOPS,,200個PFLOPS——用中文說就是20億億次,。
這相當(dāng)于個人電腦中高端游戲顯卡的9萬倍,主流CPU的90萬倍。也比美國目前排名世界第五的的最強(qiáng)系統(tǒng)‘泰坦’(Titan)強(qiáng)8倍,。
當(dāng)然,,比起個人電腦,一要解決大規(guī)模集成與互聯(lián)并行計算,,二要解決超大數(shù)據(jù)量吞吐與節(jié)點(diǎn)間交換,,三要追求更高的效率和更高的功耗比,這就需要最先進(jìn)的配件,。
【只花了2億美元,?背后是幾十億美元的研制經(jīng)費(fèi)】
單算比例分?jǐn)偅琒ummit的造價的確是2億美元出頭,,看似并不多,在中國也就能修一公里多地鐵,,在美國連毛都不算,。
但是,光TESLA V100及其背后的Volta 架構(gòu),,就凝聚了Nvidia 7000 多名工程師超過3 年的研發(fā),,投入資金達(dá)30 億美元。IBM的Power 9以及總體架構(gòu)設(shè)計也要花差不多同樣的錢,。
IBM的女CEO羅睿蘭(Ginni Rometty)表示:“這是我們最大的成就之一,,它是最快、最智能的超級計算機(jī),?!?/p>
美國能源部長里克?佩里自豪地表示:“Summit的發(fā)布體現(xiàn)了美國在科學(xué)創(chuàng)新和技術(shù)開發(fā)方面的領(lǐng)導(dǎo)實(shí)力。它將對能源研究,、科學(xué)發(fā)現(xiàn),、經(jīng)濟(jì)競爭力和國家安全有深遠(yuǎn)影響?!?/p>
【憋了5年美國超算重新超越中國,,但也許只能秀半年】
另外,Summit的理論總計算能力是200 PFLOPS,,也就是20億億次,。但實(shí)測的真實(shí)計算能力還未公布,因?yàn)槔碚摷涌偟目偤捅緹o法全部兌現(xiàn),。
中國的神威-太湖之光,,理論能力125 PFLOPS,實(shí)測對兌現(xiàn)了93 PFLOPS,,效率近75%,,已經(jīng)是很高的記錄了。
美國之前排名第三、全球第七,,能源部洛斯阿拉莫斯國家實(shí)驗(yàn)室的Trinity,,實(shí)測效率不到32%??梢娤到y(tǒng)架構(gòu)設(shè)計有問題,。
美國雖然能借Summit 重回超算榜首地位,但這個寶座恐怕坐不了多久,,根據(jù)中國最新的進(jìn)展,,恐怕到年底,中國超算就有望重新取而代之,。
想必,,中國超算的最新進(jìn)展及其應(yīng)用場景,才是廣大讀者真正更關(guān)心的話題,。請待下篇,。