最近人工智能因?yàn)樵?a class="innerlink" href="http://forexkbc.com/tags/ChatGPT" target="_blank">ChatGPT等自然語(yǔ)言處理器方面的驚人能力而受到更多關(guān)注,但除此之外,,AI還在其他多個(gè)領(lǐng)域慢慢產(chǎn)生影響,,譬如將AI用于芯片設(shè)計(jì)。由于芯片設(shè)計(jì)復(fù)雜度和精度要求的不斷提高,,傳統(tǒng)設(shè)計(jì)方法已經(jīng)難以滿足需求,。人工智能技術(shù)的快速發(fā)展為芯片設(shè)計(jì)帶來(lái)了新的可能性?,F(xiàn)在越來(lái)越多的芯片產(chǎn)業(yè)鏈的廠商開(kāi)始探索借助AI的方法來(lái)幫助芯片設(shè)計(jì),那么芯片工程師該何去何從,?
本文將介紹一些芯片巨頭利用AI技術(shù)在芯片布局中的突破,,AI可以在芯片布局中發(fā)揮重要作用的原因在于其優(yōu)異的圖像識(shí)別能力。
芯片布局越來(lái)越耗時(shí)
在超大規(guī)模集成電路(VLSI)中,,布局(Layout)是芯片設(shè)計(jì)流程中的重要步驟之一,。芯片的布局決定了物理布局中標(biāo)準(zhǔn)單元的位置,所有不同的子系統(tǒng)都必須以特定的方式布局,,還要使信號(hào)和數(shù)據(jù)以理想的速率在這些區(qū)域之間傳播,。傳統(tǒng)上,這項(xiàng)工作往往由工程師手工來(lái)完成,,芯片工程師們通常會(huì)花費(fèi)數(shù)周或數(shù)月的時(shí)間來(lái)不斷改進(jìn)和優(yōu)化他們的設(shè)計(jì),,試圖找到標(biāo)準(zhǔn)單元的最佳配置。
分析布局(Analytical placement)是目前超大規(guī)模集成電路布局的最先進(jìn)技術(shù),,它可以幫助設(shè)計(jì)師在最小的芯片面積內(nèi)實(shí)現(xiàn)高性能,、低功耗和高可靠性的電路設(shè)計(jì)。分析布局通常包括三個(gè)步驟:全局布局(Global Placement,,GP),、合理化布局(Legalization,LG)和詳細(xì)布局(Detailed Placement,,DP),。
全局布局(GP)是指將電路元件在芯片上放置的初始階段,其目的是在不考慮細(xì)節(jié)的情況下,,使得所有元件的位置相對(duì)合理,,以便后續(xù)布局步驟進(jìn)行。在全局布局中,,采用各種算法和技術(shù)來(lái)解決面積,、功耗、時(shí)序和連通性等方面的問(wèn)題,。在這三個(gè)步驟中,,全局布局是分析布局中最耗時(shí)的部分。
合理化布局(LG)是指對(duì)全局布局的元件位置進(jìn)行微調(diào),,以滿足一些硬性的約束條件,,例如電路元件之間的最小距離、與芯片邊緣的距離,、相鄰元件的方向等,。合理化布局的目的是確保電路元件的位置符合設(shè)計(jì)規(guī)范,并且在不違反設(shè)計(jì)限制的情況下盡可能接近全局布局的解,。
詳細(xì)布局(DP)是指對(duì)元件位置進(jìn)行更加精細(xì)的調(diào)整,,以進(jìn)一步提高電路性能和減少功耗。詳細(xì)布局通常涉及更為復(fù)雜的算法和技術(shù),,例如網(wǎng)格化布局,、全局優(yōu)化和局部?jī)?yōu)化等。
但是現(xiàn)在隨著芯片的復(fù)雜度和密集度不斷攀升,,一個(gè)先進(jìn)的芯片集成了數(shù)百億個(gè)甚至數(shù)千億個(gè)晶體管,,例如蘋果的M1 Ultra中集成了1140億個(gè)晶體管,AMD的instinct MI300加速器芯片中集成了1460億個(gè)晶體管,,以及由此產(chǎn)生的功率,、性能和面積 (PPA) 之間的現(xiàn)代復(fù)雜關(guān)系,使得芯片的布局愈發(fā)費(fèi)時(shí)費(fèi)力,。
為了加快和優(yōu)化IC設(shè)計(jì)流程,,行業(yè)的芯片廠商正在探索利用深度學(xué)習(xí)方法來(lái)比人類更快、更高效地設(shè)計(jì)芯片,。通過(guò)使用AI技術(shù),,芯片設(shè)計(jì)師可以將設(shè)計(jì)要求輸入到計(jì)算機(jī)中,計(jì)算機(jī)可以自動(dòng)識(shí)別和處理圖像,,并根據(jù)指定的規(guī)則和限制進(jìn)行布局,。AI技術(shù)可以更快、更準(zhǔn)確地生成芯片布局,,同時(shí)可以避免設(shè)計(jì)師在重復(fù)和繁瑣的任務(wù)中的錯(cuò)誤,。許多公司(包括科技行業(yè)的一些最大公司)現(xiàn)在都在投資AI 工具來(lái)完成一些繁重的工作。
谷歌用AI進(jìn)行芯片布局
早在2021年9月,,谷歌在《自然》雜志上發(fā)表了一篇文章《一種用于快速芯片設(shè)計(jì)的圖形放置方法》,,聲稱利用機(jī)器學(xué)習(xí)軟件可以比人類更快地設(shè)計(jì)出更好的芯片,谷歌表示,,它正在使用這款人工智能軟件設(shè)計(jì)其自主研發(fā)的TPU芯片,。
谷歌在文章中寫道:“盡管經(jīng)過(guò)了50年的研究,芯片布局仍然無(wú)法實(shí)現(xiàn)自動(dòng)化,,物理設(shè)計(jì)工程師需要數(shù)月的艱苦努力才能制作出可制造的布局,。在不到6小時(shí)的時(shí)間里,我們的方法自動(dòng)生成的芯片布局在所有關(guān)鍵指標(biāo)上都優(yōu)于或可與人類繪制的設(shè)計(jì)圖相媲美,?!?/p>
谷歌將芯片布局規(guī)劃看作為一個(gè)強(qiáng)化學(xué)習(xí)(RL)問(wèn)題,并開(kāi)發(fā)了一個(gè)基于邊緣的圖卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),,能夠?qū)W習(xí)芯片的豐富和可轉(zhuǎn)移表示,。具體的評(píng)估工作流程見(jiàn)圖1。該流程允許每個(gè)方法訪問(wèn)相同的聚類網(wǎng)絡(luò)列表超圖,,在所有方法中(盡可能地)使用相同的超參數(shù),。每種方法完成放置后(包括RePlAce的合法步驟),,將宏捕捉到電網(wǎng)格中,凍結(jié)宏位置,,并使用商業(yè)EDA工具放置標(biāo)準(zhǔn)單元并報(bào)告最終結(jié)果,。
將谷歌的方法與最先進(jìn)的方法(RePlAce14)以及使用行業(yè)標(biāo)準(zhǔn)EDA工具的手動(dòng)放置進(jìn)行比較。具體比較的指標(biāo)有花費(fèi)的時(shí)間,、總的面積,、功耗、線長(zhǎng)等等,,對(duì)于該表中的所有指標(biāo),,越低越好??梢钥闯?,谷歌的強(qiáng)化學(xué)習(xí)方法均優(yōu)于其他兩種。
谷歌的研究團(tuán)隊(duì)表示,,隨著人工智能接觸到更多數(shù)量和種類的芯片,,它可以通過(guò)不斷地培訓(xùn)學(xué)習(xí),會(huì)更快更好地為新芯片塊生成優(yōu)化布局,,雖然我們主要在谷歌加速器芯片 (TPU) 上生成優(yōu)化的布局,,但我們的方法適用于任何類型ASIC芯片。
英偉達(dá)DREAMPlace商業(yè)化推進(jìn)有望
在加速布局方面,,現(xiàn)有的并行化工作主要是使用分區(qū)的多線程CPU,。隨著線程數(shù)量的增加,速度在5倍左右就飽和了,,而且典型的質(zhì)量下降2-6%,。英偉達(dá)的工程師探索了利用GPU來(lái)加速分析位置布局。
傳統(tǒng)的分析布局引擎開(kāi)發(fā)需要花費(fèi)大量的精力用C++構(gòu)建整個(gè)軟件堆棧,,因此,,由于開(kāi)發(fā)成本的問(wèn)題,設(shè)計(jì)和驗(yàn)證新布局算法的門檻非常高,。于是,,英偉達(dá)利用深度學(xué)習(xí)工具包PyTorch,通過(guò)少量的軟件開(kāi)發(fā)工作,,開(kāi)發(fā)了一個(gè)新的具有GPU加速的開(kāi)源布局引擎——DREAMPlace,,這是一個(gè)比較出名的開(kāi)源布局器。它通過(guò)高效的GPU實(shí)現(xiàn)的關(guān)鍵內(nèi)核的分析布局,,如電線長(zhǎng)度和密度計(jì)算等,。
該框架是用Python開(kāi)發(fā)的,PyTorch用于優(yōu)化優(yōu)化程序和API, C++ /CUDA用于低級(jí)操作人員。DREAMPlace程序運(yùn)行在基于Volta架構(gòu)的40核Intel E5-2698 v4 @2.20GHz和一個(gè)NVIDIA Tesla V100 GPU的Linux服務(wù)器上,,它通過(guò)拋出分析布局問(wèn)題來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),。
在與最先進(jìn)的全球布局算法家族e(cuò)Place/RePlAce的對(duì)比中,DREAMPlace在全局布局和合理化方面實(shí)現(xiàn)了30倍以上的加速,,且沒(méi)有理論和工業(yè)基準(zhǔn)的質(zhì)量下降,。更具體的來(lái)說(shuō),,它能使100萬(wàn)個(gè)單元的設(shè)計(jì)在1分鐘內(nèi)就能完成,。英偉達(dá)探索了用于向前和向后傳播的低級(jí)操作符的不同實(shí)現(xiàn)(前向傳播來(lái)計(jì)算目標(biāo),后向傳播來(lái)計(jì)算梯度),,以提高整體效率,。
此外,DREAMPlace是高度可擴(kuò)展的,,可以通過(guò)簡(jiǎn)單地編寫高級(jí)編程語(yǔ)言(如Python)來(lái)合并新的算法/求解器和新的目標(biāo),,其工業(yè)設(shè)計(jì)可達(dá)1000萬(wàn)個(gè)單元。英偉達(dá)計(jì)劃進(jìn)一步研究單元膨脹的可路由性和時(shí)間優(yōu)化的凈加權(quán),,以及GPU加速的詳細(xì)布局,。它還可以擴(kuò)展到利用多GPU平臺(tái)來(lái)進(jìn)一步加速。由于DREAMPlace分離了高級(jí)算法設(shè)計(jì)符號(hào)和低級(jí)加速工作,,因此它顯著降低了開(kāi)發(fā)和維護(hù)開(kāi)銷,。英偉達(dá)的這項(xiàng)工作將為重新審視經(jīng)典的EDA問(wèn)題開(kāi)辟新的方向。
但是,,由于其對(duì)線長(zhǎng)和密度的關(guān)注有限,,DREAMPlace的布局質(zhì)量無(wú)法與商業(yè)工具相比,這使得它很難適用于工業(yè)設(shè)計(jì)流程,。為了解決這一問(wèn)題,,英偉達(dá)科學(xué)家近日的一項(xiàng)研究文章中提出了一種新方法-DREAM-GAN,這是一種使用生成對(duì)抗學(xué)習(xí)推進(jìn) DREAMPlace的布局優(yōu)化框架,。DREAM-GAN的最大優(yōu)勢(shì)在于,,它使DREAMPlace能夠朝著工具驗(yàn)證(和優(yōu)化)的方向優(yōu)化底層位置,而無(wú)需明確了解商業(yè)工具的黑盒算法,。DREAMPlace通過(guò)優(yōu)化鑒別器的輸出,,提高了其商業(yè)化的位置。
實(shí)驗(yàn)表明DREAM GAN不僅在放置階段立即改善了主要的PPA指標(biāo),,而且還證明了這些改進(jìn)一直持續(xù)到路由后階段,,在路由后階段,無(wú)線長(zhǎng)度提高了8.3%,,總功率提高了7.4%,。
DREAMPlace與DREAM-GAN在各主要PD階段的詳細(xì)PPA比較結(jié)果。在這項(xiàng)工作中,,我們使用Synopsys ICC2執(zhí)行整個(gè)PD,,除了全局放置由DREAMPlace(左列)或DREAM-GAN(右列)執(zhí)行,。在所有商業(yè)和OpenCore基準(zhǔn)測(cè)試中,兩種方法在全局布局上的運(yùn)行時(shí)差異不超過(guò)2分鐘,。
此外,,Nvidia科學(xué)家近日在國(guó)際物理設(shè)計(jì)研討會(huì)上展示了AutoDMP的研究論文,AutoDMP 是使用 TILOS AI 研究所的宏布局基準(zhǔn)進(jìn)行評(píng)估的,,其中包括帶有大量宏的CPU和AI加速器設(shè)計(jì),。為了進(jìn)行評(píng)估,AutoDMP與商業(yè)EDA工具集成在一起,,如下圖所示,。首先,在NVIDIA DGX系統(tǒng)上運(yùn)行多目標(biāo)貝葉斯優(yōu)化,。該系統(tǒng)有4個(gè)A100 GPU,,每個(gè)都配備了80Gb的HBM內(nèi)存。生成16個(gè)并行進(jìn)程以采樣參數(shù)并在優(yōu)化期間運(yùn)行DREAMPlace,。然后,,從Pareto前端選擇的宏位置被提供給運(yùn)行在CPU服務(wù)器上的TILOS提供的EDA Flow。在大多數(shù)設(shè)計(jì)中,,AutoDMP的PPA指標(biāo)結(jié)果——線長(zhǎng),、功率、最差負(fù)裕量 (WNS) 和總負(fù)裕量 (TNS)——等于或優(yōu)于商業(yè)流程,。
寫在最后
技術(shù)的發(fā)展是把“雙刃劍”,。一方面,人工智能可以通過(guò)學(xué)習(xí)已有的芯片設(shè)計(jì)數(shù)據(jù)來(lái)發(fā)現(xiàn)規(guī)律,,并通過(guò)分析數(shù)據(jù),,提供更快速、更準(zhǔn)確的芯片設(shè)計(jì)方案,。同時(shí),,人工智能技術(shù)還可以提高芯片設(shè)計(jì)的效率,縮短開(kāi)發(fā)時(shí)間,,減少成本,。
但另一方面,隨著AI技術(shù)的不斷發(fā)展和成熟,,一些沒(méi)有那么有創(chuàng)意的低級(jí),、平凡的工作可能會(huì)被人工智能取代。正如上文所述,,在芯片布局這項(xiàng)工作中,,過(guò)往主要是靠人工來(lái)完成,雖然目前的AI技術(shù)還有一些局限性,但隨著技術(shù)的不斷改進(jìn)和突破,,將或多或少的減少芯片設(shè)計(jì)過(guò)程中對(duì)手動(dòng)方面的需求,,雖然這提高了整體效率,但有可能會(huì)端掉部分工程師的飯碗,。
不過(guò)我們也不必焦慮,,回看四次工業(yè)革命,每一次工業(yè)革命都有一些工作,、工人或工程師被取代,,但是也會(huì)創(chuàng)造出新型工程師,最終提升了我們的生產(chǎn)力,?;貧w到芯片設(shè)計(jì)這一行業(yè),,AI的介入不會(huì)完全取代人工,,因?yàn)榫蛯?shí)際情況而言,行業(yè)仍需要能夠在設(shè)計(jì)過(guò)程中準(zhǔn)確驗(yàn)證和利用 AI 工具和算法的個(gè)人,。這一發(fā)展對(duì)于人才的深遠(yuǎn)影響是,,提高IC設(shè)計(jì)人員在行業(yè)中的價(jià)值,使他們騰出更多的時(shí)間來(lái)專注于更復(fù)雜和更具創(chuàng)造性的設(shè)計(jì)方面,,并最終生產(chǎn)出更好的產(chǎn)品,。
利用人工智能技術(shù)來(lái)幫助設(shè)計(jì)和制造芯片已經(jīng)成為大勢(shì)所趨。不僅是谷歌和英偉達(dá),,EDA軟件工具提供商Synopsys,、西門子和Cadence等公司也在其最新工具中使用了AI技術(shù),三星將AI技術(shù)引入芯片制造等等,。這些AI/ML技術(shù)方法的引入,,將為推進(jìn)超大規(guī)模集成電路布局提供新的方向,也將成為摩爾定律再運(yùn)行幾年的潛在途徑之一,。
更多精彩內(nèi)容歡迎點(diǎn)擊==>>電子技術(shù)應(yīng)用-AET<<