在淘金熱時(shí)期,懷揣著致富夢想的探礦者們紛紛涌入美國西部,,希望通過淘金發(fā)家致富,。如今,,科技領(lǐng)域的開拓者也同樣躍躍欲試,,希望在人工智能(AI)領(lǐng)域大展拳腳。普華永道(PWC)估計(jì),,到2030年,,全球經(jīng)濟(jì)總收益的45%將由人工智能驅(qū)動,越來越多的行業(yè)將受益于人工智能帶來的生產(chǎn)力和產(chǎn)品性能提升,。普華永道的研究進(jìn)一步指出,,人工智能有望為全球GDP額外貢獻(xiàn)15.7萬億美元,增幅約為14%,。然而,,這一具有劃時(shí)代意義的經(jīng)濟(jì)機(jī)遇,對計(jì)算能力和功率密度的需求已經(jīng)遠(yuǎn)遠(yuǎn)超過了當(dāng)前的承載能力,。
無論是為淘金者提供商品、服務(wù)和安全保障,,還是為企業(yè)提供服務(wù)器,、存儲系統(tǒng)、網(wǎng)絡(luò)設(shè)施和數(shù)據(jù)存儲,,基礎(chǔ)設(shè)施始終是推動發(fā)展的重要驅(qū)動力,。隨著人工智能應(yīng)用的增加,對人工智能就緒的計(jì)算,、存儲和網(wǎng)絡(luò)容量的需求早已超過了其可用性,。這一劃時(shí)代的經(jīng)濟(jì)機(jī)遇推動了對計(jì)算能力和功率密度的需求,使其超出了現(xiàn)有能力所能處理的范圍,。
全球政府和商界領(lǐng)袖都將目光投向了人工智能(AI)所帶來的無限可能,。政府的政策框架和投資計(jì)劃,為各方在人工智能“淘金熱”中搶占一席之地提供了政策框架和資金支持,。
企業(yè)和產(chǎn)業(yè)界也在大力投資基礎(chǔ)設(shè)施建設(shè),,以支持未來的創(chuàng)新發(fā)展。據(jù)《福布斯》11月估計(jì),,2025年,,大型科技公司在人工智能方面的支出將超過2500億美元,其中大部分投入將用于基礎(chǔ)設(shè)施建設(shè),。僅微軟一家公司今年就將投資800億美元用于建設(shè)具備訓(xùn)練強(qiáng)大人工智能模型所需能力和速度的數(shù)據(jù)中心,。這些數(shù)字看似驚人,但為了滿足對計(jì)算能力的需求,確保人工智能創(chuàng)新不會停滯不前,,這些投資是必不可少的,。
計(jì)算能力:當(dāng)今世界最寶貴的資源
人工智能數(shù)據(jù)中心提供人工智能工作負(fù)載所需的海量數(shù)據(jù)存儲空間、閃電般快速的網(wǎng)絡(luò)連接,,以及高性能計(jì)算(HPC)能力,,并以此推動人工智能的創(chuàng)新。人工智能數(shù)據(jù)中心還擁有精密的冷卻和功率管理系統(tǒng),,能夠應(yīng)對人工智能硬件因高密度功率需求而帶來的相關(guān)挑戰(zhàn),。如果沒有這些獨(dú)特的功能,如今推動人工智能突破極限的開拓性創(chuàng)新就不可能實(shí)現(xiàn),。然而,,隨著越來越多的企業(yè)希望利用人工智能的潛力,人工智能數(shù)據(jù)中心的設(shè)計(jì)及其采用的系統(tǒng)也必須不斷發(fā)展,。
人工智能系統(tǒng)扎根于機(jī)器學(xué)習(xí)(ML)和深度學(xué)習(xí)技術(shù),,這兩種技術(shù)都以計(jì)算強(qiáng)度大而“聲名在外”。人工智能模型在訓(xùn)練過程中會處理大量數(shù)據(jù),。它們會在整個訓(xùn)練過程中調(diào)整和完善參數(shù),,以優(yōu)化性能。即使對于基本模型而言,,這也是一個計(jì)算密集型過程,。
短短幾年間,基于人工智能的應(yīng)用已經(jīng)發(fā)展到了收益遞減的階段,。業(yè)界需要越來越復(fù)雜的模型來增強(qiáng)現(xiàn)有用例,,并推動生成式人工智能(gen AI)等新興用例的發(fā)展。然而,,隨著模型越來越先進(jìn),,其對計(jì)算能力的要求也與日俱增,訓(xùn)練高級人工智能和機(jī)器學(xué)習(xí)算法所需的計(jì)算能力也會呈指數(shù)級攀升,。OpenAI早期的生成式人工智能機(jī)器模型就是這種龐大計(jì)算能力需求的典型展示,。在六年時(shí)間里,該公司的機(jī)器學(xué)習(xí)模型運(yùn)行所需的計(jì)算能力增長了驚人的30萬倍,。
六年前,,在獲取訓(xùn)練模型(這些模型后來發(fā)展成為ChatGPT)的資源方面,OpenAI幾乎不會遇到什么競爭對手,。然而如今訓(xùn)練生成式人工智能模型的“參與者”大幅增加,,所有人都在爭奪那增長幅度極為有限的資源。生產(chǎn)下一個ChatGPT所需的大規(guī)模計(jì)算能力變得珍貴而有限,。擴(kuò)大這種資源的使用范圍是一件成本高昂的事情,,這一點(diǎn)從為構(gòu)建這些資源而進(jìn)行的投資規(guī)模就可見一斑,。隨著人工智能的飛速發(fā)展,人工智能數(shù)據(jù)中心開發(fā)人員正在尋找解決方案,,以確保這些關(guān)鍵的創(chuàng)新驅(qū)動因素能夠適應(yīng)和擴(kuò)展,,從而滿足未來的需求。
為不可預(yù)測的情況制定應(yīng)對之策
在人工智能時(shí)代構(gòu)筑數(shù)據(jù)中心意味著要確保這些設(shè)施能夠適應(yīng)大規(guī)模GPU集群的功耗,,適應(yīng)云計(jì)算和邊緣計(jì)算之間動態(tài)變化的平衡,,并提高容量以跟上不斷增長的需求,避免出現(xiàn)中斷或停機(jī)的情況,。除了通過建設(shè)新數(shù)據(jù)中心來擴(kuò)充容量外,,確保數(shù)據(jù)中心的可靠性和安全性也至關(guān)重要。目前,,傳統(tǒng)的數(shù)據(jù)中心測試解決方案用于設(shè)計(jì)和測試構(gòu)成人工智能數(shù)據(jù)中心的各類組件和系統(tǒng),。但這種方法已經(jīng)難以為繼,人們亟需一種全新途徑,。
人工智能數(shù)據(jù)中心由錯綜復(fù)雜的系統(tǒng)組成,,而這些系統(tǒng)又是由一個個獨(dú)立組件組成的復(fù)雜網(wǎng)絡(luò)。其中任何一個環(huán)節(jié)出現(xiàn)問題,,這些支撐創(chuàng)新和市場資本支出的基礎(chǔ)設(shè)施就會受到影響,。因此,人工智能數(shù)據(jù)中心的可靠性取決于其最薄弱的環(huán)節(jié),。在追求高性能的前沿領(lǐng)域,,每一塊芯片、每一根電纜,、每一次互連、每一臺交換機(jī),、每一臺服務(wù)器和每一塊GPU都蘊(yùn)含著巨大的潛力,,也都伴隨著同等程度的風(fēng)險(xiǎn)。為了降低這種風(fēng)險(xiǎn),,每個組件都必須能作為一個系統(tǒng),,在日益增長的需求下獨(dú)立、協(xié)調(diào)地工作,。
構(gòu)建能夠應(yīng)對人工智能工作負(fù)載巨大需求的網(wǎng)絡(luò),,意味著要對每個組件、連接和配置進(jìn)行驗(yàn)證,。由于其所涉及的巨大風(fēng)險(xiǎn)和規(guī)模,,即使是最小的效率提升、運(yùn)營改進(jìn)或性能增強(qiáng),,都會抵消創(chuàng)新的收益遞減,。因此,,要想在這場現(xiàn)代“淘金熱”中獲得成功和利潤,就必須采用能夠承受未來各種挑戰(zhàn)的新技術(shù)堆棧,。
面向未來的人工智能創(chuàng)新
為滿足未來對人工智能就緒型網(wǎng)絡(luò),、半導(dǎo)體和數(shù)據(jù)中心設(shè)備的需求,就必須具備人工智能就緒型測試和仿真工具的技術(shù)堆棧,。在這場“淘金熱”中,,無數(shù)數(shù)字勘探者會競相角逐,爭搶先機(jī),,而具備人工智能就緒的測試和仿真工具將幫助參與者脫穎而出,。是德科技正在幫助人工智能數(shù)據(jù)中心設(shè)計(jì)人員進(jìn)行面向未來的設(shè)計(jì),并針對此類復(fù)雜環(huán)境的動態(tài)需求量身打造強(qiáng)大的工具技術(shù)堆棧,。憑借涵蓋仿真器,、模擬器和測試硬件的全棧產(chǎn)品組合,是德科技解決方案可輕松模擬真實(shí)世界中的人工智能工作負(fù)載,,對網(wǎng)絡(luò)組件進(jìn)行驗(yàn)證,,并優(yōu)化從物理硬件到應(yīng)用層行為等各個層面的系統(tǒng)級性能。