《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 業(yè)界動態(tài) > InfiniBand互聯(lián)迎來新的發(fā)展空間

InfiniBand互聯(lián)迎來新的發(fā)展空間

2021-07-10
來源:半導(dǎo)體行業(yè)觀察

  InfiniBand 互連是在上個世紀(jì)末關(guān)于服務(wù)器 I/O 未來的斗爭中出現(xiàn)的,,它不是成為通用I/O,,而是成為用于高性能計算的低延遲,、高帶寬互連,。在這個角色上,,它無疑是成功的,。

  在過去的十五年中,,InfiniBand已經(jīng)擴展到用作與某些供應(yīng)商的系統(tǒng)互連——IBM多年來將InfiniBand用作Power Systems和大型機上的外圍I/O總線,,但從未如此稱呼過它,。InfiniBand也被用作集群存儲主干,,現(xiàn)在是進行機器學(xué)習(xí)訓(xùn)練的AI集群的首選節(jié)點間網(wǎng)絡(luò)。如果您正在構(gòu)建一個數(shù)據(jù)庫集群,,您可能會選擇 InfiniBand 互連,,例如 Oracle 為其 Exadata 系統(tǒng)所做的那樣。

  20年后,,事實證明,,這是康奈利網(wǎng)絡(luò)(Cornelis Networks)聯(lián)合創(chuàng)始人之一,、公司首席執(zhí)行官菲爾·墨菲(Phil Murphy)的愿景的一個合理復(fù)制,在IBM和英特爾創(chuàng)建InfiniBand之后,,他于1999年離開Unisys,,并成立了SilverStorm Technologies,生產(chǎn)InfiniBand交換硬件和軟件,。PathScale是一家InfiniBand主機適配器制造商,,被光纖通道交換機和收購QLogic適配器制造商在2006年2月以1.09億美元的價格收購,隨后QLogic隨后在2006年10月以6000萬美元收購SilverStorm,,以補充近6年前以1500萬美元收購Ancor Communications的InfiniBand交換機——有人說在InfiniBand交換機市場真正做好準(zhǔn)備之前,。

  QLogic 將這些技術(shù)融合在一起,創(chuàng)建了 TrueScale InfiniBand 加載平臺,,該平臺于 2012 年 1 月被英特爾以 1.25 億美元的價格收購,,并在服務(wù)器節(jié)點的 CPU 內(nèi)核上運行大量網(wǎng)絡(luò)軟件堆棧——英特爾顯然很喜歡這一點,。僅僅三個月后,,英特爾以1.4億美元的價格從Cray手中收購了“Gemini”XT 和“Aries”XC 互連業(yè)務(wù),并著手打造 Omni-Path 互連,,將 InfiniBand 的一些概念與 Aries 結(jié)合,創(chuàng)建一個新的一種適用于上述所有工作負(fù)載的高性能互連,。Omni-Path 是“Knights”Xeon Phi 計算加速器和英特爾整體 HPC 工作的關(guān)鍵組成部分,。三年前,Knights CPU 被淘汰了 Omni-Path 現(xiàn)在正在 Cornelis 的指導(dǎo)下開設(shè)一門新課程——墨菲說這個課程更適合高性能計算和存儲的當(dāng)前和未來狀態(tài),。

  關(guān)于 InfiniBand 協(xié)議的一些歷史是為了正確理解 Cornelis 將在其 Omni-Path InfiniBand 實施中做出的轉(zhuǎn)變,。

  “InfiniBand的軟件基礎(chǔ)設(shè)施,基于verbs,,實際上是基于InfiniBand的最初目標(biāo),,即取代PCI-X和光纖通道,或許還有以太網(wǎng),,”Murphy告訴The Next Platform:“verbs根本不是為高性能計算而構(gòu)建的,。PathScale創(chuàng)建了Performance Scale Messaging,或PSM,,它完全獨立于InfiniBand verbs,,是一個專注于 HPC 的并行傳輸層。在企業(yè)中,,當(dāng)與40或50個磁盤驅(qū)動器 40或50個隊列對通話時,,可以將其放在我的適配器的緩存中,并且效果很好,。但是在HPC中,,當(dāng)有一個具有一百個內(nèi)核和一千個節(jié)點的節(jié)點時,,這將成為一個巨大的可擴展性問題,我們無法在適配器的緩存中進行管理,。PSM 可以做得更好,,但即使這是在20年前發(fā)明的,世界也在不斷發(fā)展,。我們看到 HPC,、機器學(xué)習(xí)、數(shù)據(jù)分析的融合,,現(xiàn)在也有加速器和 CPU 的混合,。”

  對 Cornelis 來說幸運的是,,大約七年前,,2004 年成立的 OpenIB 聯(lián)盟的研究人員和技術(shù)人員創(chuàng)建了 OpenFabrics 接口工作組,以擴展遠(yuǎn)程直接內(nèi)存訪問 (RDMA) 和內(nèi)核旁路技術(shù),,從而通過融合以太網(wǎng)提供 InfiniBand 和 RDMA (RoCE) 它們的低延遲以補充其對其他類型網(wǎng)絡(luò)的高帶寬,。所述libfabric庫是第一實施OFI標(biāo)準(zhǔn)的,并且其是上述網(wǎng)絡(luò)接口卡和OFI提供商驅(qū)動器和MPI,,SHMEM,,PGAS和其他存儲器共享協(xié)議之間跨在為HPC分布式計算系統(tǒng)通常運行一個層和人工智能。它看起來像這樣:

微信圖片_20210710132452.jpg

  “所有主要的 MPI 實現(xiàn)都支持 libfabric,,分布式計算系統(tǒng)的各種分區(qū)全局地址空間(PGAS)內(nèi)存覆蓋也是如此,,包括來自桑迪亞國家實驗室的OpenSHMEM 以及 Mellanox InfiniBand、Cray Gemini 和 Aries plus Chapel的PGAS 實現(xiàn),,和英特爾Omni-Path互連,。動詞和 PSM 需要用某些東西替換,OFI 就是這樣,。OFI不僅是為現(xiàn)代應(yīng)用程序而設(shè)計的,,它是從頭開始構(gòu)建的,不僅可以識別節(jié)點中的 CPU,,還可以識別加速器,。這個 OFI 層是從網(wǎng)絡(luò)到應(yīng)用層的完美語義匹配?!?/p>

  在這一點上,,Cornelis 的團隊自 2020 年 9 月揭開面紗以來已擴大一倍至 100 多人,他們?yōu)?OFI libfabric 創(chuàng)建了一個提供程序驅(qū)動程序,,該驅(qū)動程序運行在 100 Gb/秒 Omni-Path 適配器之上,,現(xiàn)在被替換為 Omni-Path Express。該適配器每秒可以驅(qū)動 1.6 億條 MPI 消息,并且可以在運行在網(wǎng)絡(luò)連接的兩個不同服務(wù)器節(jié)點上的任意兩個內(nèi)核之間每秒驅(qū)動大約 1000 萬條消息,。Murphy 表示,,對于任何 InfiniBand 實施,您最多可能會看到每個內(nèi)核 300 萬到 400 萬條消息,,因此每個內(nèi)核的帶寬增加了 2.5 到 3.3 倍,。(顯然,為了跟上處理器核心數(shù)量的增加和每個核心的更高性能,,Cornelis未來必須獲得更強大的 Omni-Path適配器,。)至于延遲,對于最難改善延遲的小消息大小,,Omni-Path Express 網(wǎng)絡(luò)的核心到核心往返現(xiàn)在約為 800 納秒,,比使用舊 PSM 的 1 微秒往返低 20%司機。對于 HPC 和 AI 工作負(fù)載,,這些都是帶寬和延遲方面的重大改進,。

  Cornelis 也關(guān)注成本。在 InfiniBand 的大多數(shù)實現(xiàn)中,,每個套接字有一個端口比讓一個端口以兩倍的速度運行要好,,我們懷疑如果可以的話,您希望將每個端口從每個套接字上物理掛起,。(這就是 TrueScale在 InfiniBand QDR 時代的全部意義,。) Cornelis 說,使用單端口 100 Gb/秒 Omni-Path 適配器和 100 Gb/秒 Omni-Path 交換機的集群網(wǎng)絡(luò)的成本將比Nvidia 100 Gb/秒 HDR InfiniBand Quantum 交換機和單端口 ConnectX-6 適配器設(shè)置的成本,。對于網(wǎng)絡(luò)的雙軌實施,,其中每個插槽都有自己的專用端口,Omni-Path 設(shè)置仍然便宜 25%,。

  Omni-Path Express 適配器和交換機現(xiàn)在處于技術(shù)預(yù)覽階段,大約有 20 位客戶,,可能在 11 月左右,,正好趕上 SC21 超級計算會議,Cornelis 將普遍提供這種更新的 Omni-Path 堆棧,。這對于全球 500 家左右以 Omni-Path 網(wǎng)絡(luò)為集群核心的客戶來說將是個好消息,。新的 OFI 功能有可能通過固件更新,幫助客戶在完全不接觸硬件的情況下提升性能,。

  至于未來,,似乎將跳過200gb/秒的全路徑200系列,這是英特爾在2019年7月悄悄擱置的一代,。這第二代的全能路徑是合并更多的Aries互連技術(shù),,顯然將打破向后兼容性-這是一個禁忌。Murphy說,,Cornelis正在開發(fā)一種OFI適配卡,,它有四個通道,,每個端口以100Gb/秒的速度運行。我們推測配套的 Omni-Path Express 交換機可以有48到64個端口,, 400 Gb/秒的最高速度運行,,并且以 200 Gb/秒的速度運行該端口數(shù)的兩倍。這些未來的 Omni-Path Express 開關(guān)和適配器預(yù)計將在2022年末上市,,我們也猜測這些芯片將采用5納米單片芯片設(shè)計,,并使用中國臺灣半導(dǎo)體制造公司作為他們的代工廠。就像英特爾對原始 Omni-Path 芯片所做的一樣,。




電子技術(shù)圖片.png

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]