在早前舉辦的GTC大會上,,英偉達(dá)首席科學(xué)家兼研究高級副總裁 Bill Dally 提供了 Nvidia 研發(fā)組織的概述和當(dāng)前優(yōu)先事項的一些細(xì)節(jié),。今年,Dally 主要專注于 Nvidia 正在開發(fā)和內(nèi)部使用的人工智能工具來改進(jìn)自己的產(chǎn)品——如果你愿意的話,,這是一個巧妙的反向推銷,。換而言之,英偉達(dá)已經(jīng)開始使用人工智能來有效地改進(jìn)和加速 GPU 設(shè)計,。
“我們是一個由大約 300 人組成的團(tuán)隊,他們的目標(biāo)是讓Nvidia 的產(chǎn)品在定義上領(lǐng)先,?!?Dally在今年的演講中描述道?!拔覀冇悬c像遠(yuǎn)光燈,,試圖照亮遠(yuǎn)處的東西。我們被松散地組織成兩隊:供應(yīng)部分提供了為 GPU 供電的技術(shù),。它使 GPU 本身變得更好,,從電路到進(jìn)入 GPU 和 GPU 系統(tǒng)的 VLSI 設(shè)計方法、架構(gòu)網(wǎng)絡(luò),、編程系統(tǒng)和存儲系統(tǒng),。”
“英偉達(dá)研究的需求方試圖通過開發(fā)需要 GPU 運行良好的軟件系統(tǒng)和技術(shù)來推動對英偉達(dá)產(chǎn)品的需求,。我們擁有三個不同的圖形研究小組,,因為我們不斷推動計算機(jī)圖形學(xué)的最新發(fā)展。我們有五個不同的 AI 組,,因為使用 GPU 運行 AI 目前是一件大事,,而且規(guī)模越來越大。我們還有從事機(jī)器人和自動駕駛汽車的小組,。我們有許多按地理順序排列的實驗室,,比如我們的多倫多和特拉維夫人工智能實驗室,”他說,。
有時,,Nvidia 會從幾個團(tuán)隊中發(fā)起 Moonshot 項目——例如,其中一個團(tuán)隊生產(chǎn)了 Nvidia 的實時光線追蹤技術(shù),。
與往常一樣,,Dally 的談話與上一年有重疊——但也有新的信息。該小組的規(guī)??隙◤?2019 年的 175 人左右增長,。毫不奇怪,支持自動駕駛系統(tǒng)和機(jī)器人技術(shù)的努力已經(jīng)加強(qiáng)。Dally 說,,大約一年前,,英偉達(dá)從斯坦福大學(xué)招募了 Marco Pavone來領(lǐng)導(dǎo)其新的自動駕駛汽車研究小組。他沒有過多談?wù)?CPU 設(shè)計工作,,這無疑也在加強(qiáng),。
本文展示的是 Dally 對 Nvidia 在設(shè)計芯片中越來越多地使用 AI 的評論(經(jīng)過輕微編輯)的一小部分以及一些支持幻燈片。
1,、映射電壓降(Mapping Voltage Drop)
“作為 AI 專家,,我們很自然地希望采用該 AI 并用它來設(shè)計更好的芯片。我們以幾種不同的方式做到這一點,。第一種也是最明顯的方法是我們可以采用現(xiàn)有的計算機(jī)輔助設(shè)計工具[并結(jié)合人工智能],。例如,我們有一張地圖,,可以繪制我們 GPU 中的電源使用位置圖,,并預(yù)測電壓網(wǎng)格下降的程度——即所謂的 IR 下降,即電流乘以電阻下降,。在傳統(tǒng)的 CAD 工具上運行它需要三個小時,,”Dally 指出。
“因為這是一個迭代過程,,這對我們來說變得非常成問題,。相反,我們想做的是訓(xùn)練一個 AI 模型來獲取相同的數(shù)據(jù),;我們在一堆設(shè)計中這樣做,,然后我們基本上可以輸入功率圖。[結(jié)果] 推理時間僅為三秒,。當(dāng)然,,如果包括特征提取的時間,則為 18 分鐘,。我們可以很快得到結(jié)果,。在這種情況下,類似的事情不是使用卷積神經(jīng)網(wǎng)絡(luò),,而是使用圖神經(jīng)網(wǎng)絡(luò),,我們這樣做是為了估計電路中不同節(jié)點切換的頻率,這實際上驅(qū)動了前面示例的電源輸入,。再一次,,我們能夠比使用傳統(tǒng)工具更快地獲得非常準(zhǔn)確的功率估計,而且時間很短,,”Dally 說,。
2,、預(yù)測寄生(Predicting Parasitics)
“我特別喜歡的一個功能是用圖神經(jīng)網(wǎng)絡(luò)預(yù)測寄生效應(yīng)。在過去,,電路設(shè)計是一個非常迭代(iterative)的過程,,您需要在其中繪制原理圖,就像左邊這張帶有兩個晶體管的圖片一樣,。但是,,直到布局設(shè)計師采用該原理圖并進(jìn)行布局,提取寄生參數(shù),,然后您才能運行電路仿真并發(fā)現(xiàn)您不符合某些規(guī)格,,您才會知道它的性能,”Dally指出,。
“你會回去修改你的原理圖[并再次通過]布局設(shè)計師,,這是一個非常漫長、反復(fù)且不人道的勞動密集型過程?,F(xiàn)在我們可以做的是訓(xùn)練神經(jīng)網(wǎng)絡(luò)來預(yù)測寄生參數(shù)將是什么,而無需進(jìn)行布局,。因此,,電路設(shè)計人員可以非常快速地進(jìn)行迭代,,而無需在循環(huán)中手動執(zhí)行布局步驟,。這里的情節(jié)表明,與基本事實相比,,我們對這些寄生因素的預(yù)測非常準(zhǔn)確,。”
3,、布局和布線挑戰(zhàn) (Place and Routing Challenges)
“我們還可以預(yù)測路由擁塞(routing congestion),;這對我們的芯片布局至關(guān)重要。正常的過程是我們必須制作一個網(wǎng)表,,運行布局和布線過程,,這可能非常耗時,通常需要幾天時間,。只有這樣我們才能得到實際的擁塞,,發(fā)現(xiàn)我們最初的位置是不夠的。我們需要對其進(jìn)行重構(gòu)并以不同的方式放置宏以避免這些紅色區(qū)域(如下幻燈片),,這是有太多電線試圖穿過給定區(qū)域的地方,,有點像比特的交通堵塞。我們現(xiàn)在可以做的是無需運行布局和路由,,我們可以獲取這些網(wǎng)絡(luò)列表并使用圖神經(jīng)網(wǎng)絡(luò)基本上預(yù)測擁塞將在哪里并且相當(dāng)準(zhǔn)確,。
它并不完美,,但它顯示了存在問題的領(lǐng)域。
4,、自動化標(biāo)準(zhǔn)單元遷移(Automating Standard Cell Migration)
”現(xiàn)在這些 [方法] 都在使用人工智能來批評人類所做的設(shè)計,。更令人興奮的是使用 AI 來實際進(jìn)行設(shè)計。我給你舉兩個例子,。第一個是我們稱為NVCell的系統(tǒng),,它結(jié)合使用模擬退火(simulated annealing )和強(qiáng)化學(xué)習(xí)來基本設(shè)計我們的標(biāo)準(zhǔn)單元庫。因此,,每當(dāng)我們獲得一項新技術(shù)時,,比如說我們正在從 7 納米技術(shù)轉(zhuǎn)向 5 納米技術(shù),我們就有了一個cell庫,。一個單元就像一個與門和或門,,一個全加器。實際上,,我們有成千上萬的這些單元必須在新技術(shù)中重新設(shè)計,,并具有一套非常復(fù)雜的設(shè)計規(guī)則,“Dally 說,。
”我們基本上使用強(qiáng)化學(xué)習(xí)來放置晶體管,。但更重要的是,放置后,,通常會出現(xiàn)一堆設(shè)計規(guī)則錯誤,,并且?guī)缀蹙拖耠娮佑螒蛞粯印J聦嵣?,這正是強(qiáng)化學(xué)習(xí)所擅長的,。一個很好的例子是在 Atari 視頻游戲中使用強(qiáng)化學(xué)習(xí)。所以這就像一個 Atari 視頻游戲,,但它是一個用于修復(fù)標(biāo)準(zhǔn)單元中的設(shè)計規(guī)則錯誤的視頻游戲,。通過使用強(qiáng)化學(xué)習(xí)來檢查和修復(fù)這些設(shè)計規(guī)則錯誤,我們能夠基本完成標(biāo)準(zhǔn)單元的設(shè)計,。您所看到的(幻燈片)是 92% 的單元庫可以通過此工具完成,,沒有設(shè)計規(guī)則或電氣規(guī)則錯誤。其中 12% 比人類設(shè)計細(xì)胞還小,,一般來說,,
“這對我們有兩件事。一是節(jié)省了大量勞動力,。這是一個大約 10 人的小組,,將花費一年的大部分時間來移植一個新技術(shù)庫。現(xiàn)在我們可以用幾個 GPU 運行幾天來做到這一點,。然后人類可以處理那些沒有自動完成的 8% 的cell,。在許多情況下,,我們最終也會得到更好的設(shè)計。所以它比人工設(shè)計更節(jié)省勞動力,?!?/p>
原文鏈接: https://www.hpcwire.com/2022/04/18/nvidia-rd-chief-on-how-ai-is-improving-chip-design/