2023年11月,,業(yè)界“又雙叒叕“發(fā)布了數(shù)款重磅 AI 基礎(chǔ)架構(gòu)產(chǎn)品。算力方面,,英偉達(dá)(NVIDIA)發(fā)布了號稱“史上最強(qiáng)”的新一代AI芯片H200,和上一代產(chǎn)品相比,,顯存容量幾乎翻了一番,,性能提升了60% 到90%。存力方面,,IBM同樣發(fā)布了新一代 Storage Scale System 6000(SSS 6000),,這是一個(gè)旨在滿足數(shù)據(jù)密集型和 AI 工作負(fù)載需求的云規(guī)模全球數(shù)據(jù)平臺,單個(gè)模塊可提供超過 256GB/s 的吞吐量和 5M IOPS 的文件訪問性能,,分別超過市場領(lǐng)先競爭對手 2.5 倍和 2 倍,,能夠滿足多個(gè)并行的 AI 工作負(fù)載和數(shù)據(jù)密集型工作負(fù)載對極高的數(shù)據(jù)訪問速度要求。
IBM Storage Scale System 6000
IBM 在2022年發(fā)布的Storage Scale System 3500(SSS 3500)數(shù)據(jù)存儲,,單個(gè)模塊24塊NVMe SSD可以提供超過125GB/s 的數(shù)據(jù)訪問性能,,已經(jīng)大幅領(lǐng)先于大部分 AI 存儲產(chǎn)品,IBM為何要推出更高性能的 SSS 6000呢,?
算力和算法的發(fā)展,,需要更快速的數(shù)據(jù)訪問
人工智能是算法、數(shù)據(jù),、算力的有效結(jié)合,,近年來大模型訓(xùn)練和推理、多模態(tài) AI等領(lǐng)域的突破更是得益于高質(zhì)量數(shù)據(jù)的發(fā)展,。隨著數(shù)據(jù)集規(guī)模不斷增加,,應(yīng)用程序載入數(shù)據(jù)花費(fèi)的時(shí)間越來越長,進(jìn)而影響了應(yīng)用程序的性能,,因?yàn)榇媪Σ蛔銓?dǎo)致的低效I/O使得運(yùn)算速度日益提升的GPU無用武之地,。為了滿足不斷提高的算力和各種基礎(chǔ)模型對更大參數(shù)規(guī)模的需要,也需要提供更高速的數(shù)據(jù)訪問能力,。
舉例來說,,在目前主流的NVIDIA H100/H800 平臺上,運(yùn)行一個(gè)大小為30TB的圖像數(shù)據(jù)集用于AI訓(xùn)練,,每顆GPU所需的數(shù)據(jù)存儲訪問性能就超過了4GBps,,運(yùn)行更大規(guī)模的數(shù)據(jù)集的應(yīng)用或支持多種負(fù)載的智算平臺可能需要數(shù)百GBps到數(shù)TBps的高速數(shù)據(jù)存儲才能滿足其對存力的需求。經(jīng)過充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢,,加速各種 AI 工作負(fù)載應(yīng)用,。
此外,不僅僅是訓(xùn)練環(huán)節(jié),,對于AI應(yīng)用來說,,從數(shù)據(jù)攝入到生產(chǎn)推理,,每個(gè)環(huán)節(jié)都需要利用不同工具實(shí)現(xiàn)海量數(shù)據(jù)處理,并且這是一個(gè)不斷重復(fù)的流程,。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道,,簡化流程并實(shí)現(xiàn)數(shù)據(jù)安全、高效的流動,?;贗BM Storage Scale軟件多協(xié)議互通的全局?jǐn)?shù)據(jù)平臺能力,用戶可以在不同地點(diǎn)通過不同接口訪問同樣的數(shù)據(jù),,減少創(chuàng)建不必要的數(shù)據(jù)副本并通過智能的緩存技術(shù)減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開銷,,整合來自核心、邊緣和云端的寶貴數(shù)據(jù)資源,。
AI應(yīng)用全流程
算力短缺時(shí)代,,需要提高GPU資源的利用率
隨著通用型人工智能和大模型的發(fā)展,目前包括中國公司在內(nèi)的全球AI公司都存在算力短缺的情況,,英偉達(dá)等主要供應(yīng)商的中高性能 GPU更是“千金難求”,。對于擁有一定數(shù)量GPU的用戶來說,如果能夠?qū)PU的利用率提高一倍,,就相當(dāng)于增加了一倍的額外算力,,在更短的時(shí)間內(nèi)完成更多的應(yīng)用。
由于顯存容量受限,,多機(jī)多卡的GPU集群需要共享的外部存儲來為所有節(jié)點(diǎn)提供高速的應(yīng)用數(shù)據(jù)訪問,。將數(shù)據(jù)從存儲載入到GPU,過去都是由CPU負(fù)責(zé),,而這將會成為硬件性能的瓶頸,。即使實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)到存儲的高速訪問,數(shù)據(jù)到GPU的這“最后一公里”往往會造成GPU等待數(shù)據(jù)的情況,,導(dǎo)致GPU利用率低下,。
為此,英偉達(dá)開發(fā)了GPUDirect存儲技術(shù),,可以通過RDMA高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲傳輸至 GPU 顯存上,,能有效減輕CPU I/O的瓶頸,提升GPU 訪問數(shù)據(jù)的帶寬并大幅縮短時(shí)間延遲,。IBM Storage Scale軟件是首批支持該技術(shù)的認(rèn)證存儲產(chǎn)品,經(jīng)測試,,采用GDS 技術(shù)的IBM Storage Scale System 可以將GPU 訪問數(shù)據(jù)的帶寬提高一倍,,時(shí)間延遲縮短一半。
在實(shí)際應(yīng)用中,,通過采用GDUDirect 存儲(GDS)技術(shù)可以將GPU的利用率提高90%,。例如,,德國大陸汽車(Continental Automotive AG)采用 IBM Storage Scale System 作為 NVIDIA DGX 系統(tǒng)的共享數(shù)據(jù)存儲后,AI 訓(xùn)練時(shí)間縮短了 70%,,每個(gè)月完成的試驗(yàn)數(shù)量增長了14倍,,寶貴GPU資源的利用率得到了極大的提升。
GPUDirect 存儲技術(shù)帶來時(shí)間延遲和CPU利用率的顯著改善
IBM 存儲與英偉達(dá)有著多年的合作歷史,,早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD 的參考架構(gòu),,并幫助英偉達(dá)利用IBM Storage Scale System構(gòu)建了2018年全球超級計(jì)算機(jī)排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD;此后更是成為其 GPU Direct to Storage (GDS) 公開測試版本的合作伙伴,,針對NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA認(rèn)證的參考存儲架構(gòu),。
IBM Storage Scale軟件也是首批官方認(rèn)證支持GDS的產(chǎn)品。今年11月發(fā)布的最新Top500超級計(jì)算機(jī)榜單中,,位于西班牙巴塞羅那超級計(jì)算中心的MareNostrum 5 ACC(GPU集群分區(qū)) 排名第八,,該系統(tǒng)采用了4500塊NVIDIA H100 GPU,其存儲部分采用了容量為248PB的IBM Storage Scale System和400PB的磁帶系統(tǒng),。
IBM AI存儲的降本增效“黑科技”
除了 IBM Storage Scale 軟件的高性能數(shù)據(jù)訪問能力,,以及跨系統(tǒng)、跨地域的全局?jǐn)?shù)據(jù)訪問和調(diào)度能力,,IBM AI存儲還有不少“黑科技”可以更好地幫助 AI 用戶降本增效:
綠色節(jié)能:IBM 享有專利的計(jì)算存儲驅(qū)動器FlashCore Module (FCM) 在存儲驅(qū)動器內(nèi)部集成了智能的FPGA芯片,,通過硬件加速可實(shí)現(xiàn)強(qiáng)大的在線數(shù)據(jù)壓縮和加密功能?;谠摷夹g(shù) Storage Scale System 6000可以在4U空間內(nèi) 提供高達(dá) 3.6PB 全閃存有效容量,,將每 TB 的存儲成本降低 70%,將每TB的能耗降低 53%,。
安全彈性:IBM Storage Scale 軟件的糾刪碼功能確保了數(shù)據(jù)可靠性,,與傳統(tǒng) RAID 相比,可以在數(shù)分鐘(而非數(shù)小時(shí)或數(shù)天) 內(nèi)重建磁盤,,最大程度地減少故障對數(shù)據(jù)訪問性能的影響,;IBM Storage Scale 軟件提供 Safeguarded Copy(不可篡改的數(shù)據(jù)快照)和日志審計(jì)、加密功能,,可以有效應(yīng)對如網(wǎng)絡(luò)攻擊和勒索病毒等的安全威脅,,提供高達(dá) 6 個(gè) 9 的可用性。
支持混搭:IBM Storage Scale 提供多種部署和配置選項(xiàng),,可將不同存儲設(shè)備,、基于 NFS 的其它文件存儲和基于S3的其它對象存儲、甚至是磁帶存儲統(tǒng)一納入到全局命名空間中,,消除數(shù)據(jù)孤島,,簡化海量數(shù)據(jù)的訪問和管理。
無論是應(yīng)對當(dāng)前算力稀缺的挑戰(zhàn),還是發(fā)展以數(shù)據(jù)為中心的新一代AI應(yīng)用,,提升存力,、優(yōu)化數(shù)據(jù)存儲已經(jīng)成為必選項(xiàng)。