人工智能(AI)對計算資源的貪婪需求推動了基礎設施的變革,業(yè)界正著力解決如何滿足AI在功率、可擴展性以及效率等方面的需求。這促使大量投資涌入,旨在重新配置數(shù)據(jù)中心架構,以更好應對上述及其他技術要求。問題的核心在于,智能性的構建需要巨大的算力支持。隨著AI復雜度以每年一個數(shù)量級的速度遞增,數(shù)據(jù)中心必須快速擴展。一個直觀的參照可以說明這一需求增長的速度:到2027年,AI工作負載的能源消耗將超過阿根廷的年用電量。
沒有萬能之法
AI正在重新定義各類數(shù)據(jù)中心的架構,包括超大規(guī)模數(shù)據(jù)中心、現(xiàn)場數(shù)據(jù)中心、主機托管數(shù)據(jù)中心和邊緣數(shù)據(jù)中心。迄今為止,大家的注意力主要集中在超大規(guī)模數(shù)據(jù)中心的競爭上。指數(shù)級增長的計算資源需求正在催生站點容量超過1GW的AI集群。麥肯錫預測,到2030年,歐洲和美國60%以上的AI工作負載將托管在超大規(guī)模基礎設施上。
從超大規(guī)模數(shù)據(jù)中心到邊緣:架構的演進
數(shù)據(jù)中心必須能夠支持像大型語言模型(LLM)訓練這樣的AI工作負載。這就需要對設施的設計和架構進行全面升級。每個機架的功率必須增加到200-300kW,以支持密集型計算,并配備增強冷卻解決方案以滿足這種密集性需求。GPU和TPU等專用硬件必須與擴展的存儲系統(tǒng)相集成,以應對海量數(shù)據(jù)的管理需求。為實現(xiàn)硬件的獨立管理和擴展,分離架構正被廣泛部署,支持不同工作負載高效利用資源。為了適應AI的流量模式,網(wǎng)絡架構也需要進行更新,否則AI集群可能會陷入“數(shù)字交通堵塞”——強大的數(shù)據(jù)處理能力因數(shù)據(jù)瓶頸而無法發(fā)揮其應有的效能。
除了超大規(guī)模設施外,AI正在推動對去中心化基礎設施的需求,以支持本地數(shù)據(jù)處理。這需要專為邊緣工作負載設計的數(shù)據(jù)中心——在較小的物理空間和較低能耗下實現(xiàn)高性能。到2030年,隨著越來越多的處理任務向邊緣轉移,該市場預計將超過1600億美元。
該增長源于自動駕駛等應用中,對于更加貼近終端用戶的實時處理能力的迫切需求。在這些應用中,更快的決策速度至關重要。該方法可以降低延遲,更好地支持這個由物聯(lián)網(wǎng)和5G技術驅動的超連接世界。
隨著AI應用的日益成熟,推理工作負載的增長速度已經(jīng)遠超模型訓練。基礎設施也需要適應這種從訓練到推理的轉變——DeepSeek R1和OpenAI v3的成功有賴于此。這類推理系統(tǒng)利用經(jīng)過訓練的模型來評估實時數(shù)據(jù),從而高效地做出決策或完成任務。
邊緣連接設備將產生大量的數(shù)據(jù)。因此,數(shù)據(jù)中心需要達到一定規(guī)模,以支持低延遲網(wǎng)絡和靈活的資源分配,從容應對突發(fā)推理需求高峰。
以AI擴展AI
有趣的是,AI既是問題所在,又是解決問題的關鍵。智能化對于應對擴展挑戰(zhàn)和確保高效運營至關重要。AI可以通過多種方式助力數(shù)據(jù)中心現(xiàn)代化,其中包括:
提高能源效率對于可持續(xù)運營至關重要。數(shù)據(jù)中心可以通過部署AI來自動調節(jié)冷卻系統(tǒng)和服務器工作負載,應對需求高峰。實施智能節(jié)能技術有助于最大限度地減少浪費和運營成本,同時保持性能水平。
預測性維護利用機器學習在問題發(fā)生前進行預測。這可以最大限度地減少停機時間,并有助于延長基礎設施的使用壽命。考慮到擴展所涉及的規(guī)模和成本,主動安排維修和更新以優(yōu)化資源利用率的能力具有重要意義。
數(shù)字孿生與AI相結合,可創(chuàng)建動態(tài)模型來對組件和系統(tǒng)進行測試和驗證。這些解決方案可用于確保復雜的數(shù)據(jù)中心保持穩(wěn)健、富有彈性,并能支持未來的需求。AI算法會分析有關性能和環(huán)境條件的歷史數(shù)據(jù),為優(yōu)化運營提供洞察。這些解決方案可以使用AI工作負載來模擬網(wǎng)絡性能,從而發(fā)現(xiàn)并解決潛在的瓶頸問題。先進的測試和仿真工具是創(chuàng)建可擴展、高效、可靠的基礎設施所需的技術堆棧的重要組成部分。
AI將加速完全自主的智能數(shù)據(jù)中心的實現(xiàn),這些數(shù)據(jù)中心幾乎可以處理所有操作,包括監(jiān)控、維護、聯(lián)網(wǎng)、能源管理和安全等,并且只需極少的人工投入。
面向未來的AI基礎設施
隨著AI的不斷發(fā)展,數(shù)據(jù)中心必須適應日益復雜的工作負載。運營商迫切希望能以可持續(xù)的方式擴展基礎設施來滿足需求,而不必犧牲性能或可靠性。由于AI的未來發(fā)展仍存在不確定性,打造靈活、富有彈性且易于適應的基礎設施至關重要。
通過AI系統(tǒng)編排在超大規(guī)模計算能力和邊緣靈活性之間取得平衡將成為區(qū)分成敗的關鍵,而那些能夠順應這一趨勢的企業(yè)將在AI革命中脫穎而出。