在GTC 2017大上,,NVIDIA正式發(fā)布了史上最強(qiáng)大的“核彈”--旗艦計(jì)算卡Tesla V100。Tesla V100是基于Volta架構(gòu)的產(chǎn)品,,內(nèi)置了5120個(gè)CUDA單元,,核心頻率為1455MHz,,搭載16GB HBM2顯存,單精度浮點(diǎn)性能15 TFLOPS,,雙精度浮點(diǎn)7.5 TFLOPS,,顯存帶寬900GB/s。此外,Tesla V100還增加與深度學(xué)習(xí)高度相關(guān)的Tensor單元,,Tensor性能號(hào)稱可以達(dá)到120 TFLOPS,。
如此“堆料”讓Tesla V100擁有超過(guò)210億個(gè)晶體管,核心面積達(dá)到了創(chuàng)紀(jì)錄的815平方毫米,,采用的是12nmFFN工藝制造(其實(shí)是16nm深度改良),。NVIDIA表示,Tesla V100將首先用在用于深度學(xué)習(xí)超算DGX-1上,,內(nèi)部擁有8張Tesla V100計(jì)算卡,,峰值計(jì)算性能高達(dá)960 TFLOPS,號(hào)稱用8個(gè)小時(shí)就能完成TITAN X八天的工作量,。
為什么深度學(xué)習(xí)和存在許久的 GPU 扯上了關(guān)系,?就像黃仁勛說(shuō)的, “人工智能帶來(lái)了人類歷史上最大的科技進(jìn)步,?!鄙疃葘W(xué)習(xí)是一個(gè)人工智能開(kāi)創(chuàng)性的方向,讓計(jì)算機(jī)可以自己學(xué)習(xí),,這就極大地要求了處理性能的提升,。事實(shí)上,由于GPU適用于并行計(jì)算(用上千個(gè)非常小的處理器組合在一起來(lái)共同解決問(wèn)題),,它可以用于非常密集的訓(xùn)練,,非常符合深度學(xué)習(xí)網(wǎng)絡(luò)的計(jì)算特征。所以,,大部分的深度學(xué)習(xí)網(wǎng)絡(luò)都是在 GPU 上運(yùn)行,。
不過(guò)盡管 GPU 被證明非常適合并行處理,但是也有不少研究表明,,最終業(yè)界還是會(huì)需要專門(mén)為 AI 設(shè)計(jì)的架構(gòu),。早就看到這一點(diǎn)的黃仁勛怎么可能讓 Nvidia 光躺著數(shù)錢(qián)呢?盡管別家都還沒(méi)能跟上,,但他就已經(jīng)帶著英偉達(dá)率先往這個(gè)方向走了,。在今天的演講里,黃仁勛宣布推出了 Volta —— 一個(gè)可以說(shuō)是現(xiàn)在地表最強(qiáng)的 GPU 架構(gòu),,專門(mén)為人工智能和高性能計(jì)算打造,,重新又掀起了一場(chǎng)(對(duì)手只有它自己)的性能大戰(zhàn)。
盡管仍然被稱為 GPU,,但是 Volta 遠(yuǎn)不止于此,。除了加強(qiáng)了 GPU 架構(gòu)以外,英偉達(dá)還增加了640個(gè)新的張量?jī)?nèi)核,,與標(biāo)準(zhǔn)GPU CUDA核心配合使用,,為深度學(xué)習(xí)環(huán)境添加額外的處理能力,。黃仁勛說(shuō),英偉達(dá)超過(guò)7000名工程師花費(fèi)了超過(guò)3年的時(shí)間,,才打造出了 Volta,來(lái)滿足深度學(xué)習(xí)的需求,,讓工業(yè)界有機(jī)會(huì)去實(shí)現(xiàn)人工智能的顛覆性的潛力,。
Volta 到底有多強(qiáng)?可以用數(shù)字來(lái)說(shuō)話:作為英偉達(dá)第7代 GPU 架構(gòu),,它是集成了210億晶體管,,具有 5120 個(gè) CUDA 處理內(nèi)核,可以和100臺(tái) GPU 在進(jìn)行深度學(xué)習(xí)處理上的性能相抗衡,;相比起前一代的Pascal ,,它有了5倍的性能提升,而比起兩年前才推出的Maxwell 架構(gòu),,性能提升了15倍,!
這個(gè)性能表現(xiàn)比起摩爾定律能預(yù)測(cè)的,直接翻了4倍,。(事實(shí)上,,在這個(gè)方面,英偉達(dá)永遠(yuǎn)都是在和自己較勁),。
開(kāi)發(fā)者,,數(shù)據(jù)分析師和研究員們都越來(lái)越依賴于神經(jīng)網(wǎng)絡(luò)來(lái)驅(qū)動(dòng)他們所有的工作,比如自動(dòng)駕駛,,環(huán)境保護(hù),,農(nóng)業(yè)生產(chǎn)甚至是癌癥攻克都是如此。而由于網(wǎng)絡(luò)變得越來(lái)越復(fù)雜,,數(shù)據(jù)中心也需要提供更大的處理能力,,他們需要高效地?cái)U(kuò)張,來(lái)支持基于人工智能服務(wù)的應(yīng)用,,比如自然語(yǔ)言處理的虛擬助手,,個(gè)性化搜索和推薦系統(tǒng)等。
Volta 可以說(shuō)意味著深度學(xué)習(xí)引擎的一個(gè)轉(zhuǎn)折,,從 原來(lái)的 GPU 或者說(shuō)通用的處理器引擎,,到一個(gè)接近專門(mén)的人工智能引擎。所以,,而當(dāng)黃仁勛掏出一個(gè)小小的處理器時(shí),,全場(chǎng)都激動(dòng)起來(lái):這樣一個(gè)其實(shí)和 Apple Watch 大小差不多的芯片,就是第一個(gè)采用了Volta 架構(gòu)的Tesla V100,。黃仁勛甚至開(kāi)玩笑說(shuō),,他們?cè)赩olta 的研發(fā)上砸了30億美元,,這作為Volta架構(gòu)的第一代產(chǎn)品,現(xiàn)在世界上還僅此一臺(tái)的Tesla V100,,價(jià)值就超過(guò)了30億美元,。
作為新一代的“核彈”,Tesla V100 性能爆表,,可以說(shuō)是開(kāi)啟了 AI處理器計(jì)算性能的新時(shí)代,,說(shuō)它是當(dāng)今世界上表現(xiàn)最強(qiáng)的并行計(jì)算處理器一點(diǎn)都不夸張。GV100 擁有大量新的硬件創(chuàng)新,,為深度學(xué)習(xí)算法和框架提供了巨大的加速,,此外還為高性能計(jì)算系統(tǒng)和應(yīng)用提供了更多的計(jì)算馬力。