IBM Research在深度學(xué)習(xí)演算法取得最新突破,據(jù)稱幾乎達(dá)到了線性加速的最佳微縮效率目標(biāo)…
IBM Research發(fā)表深度學(xué)習(xí)(deep learning)演算法的最新突破,據(jù)稱幾乎達(dá)到了理想微縮效率的神圣目標(biāo):新的分散式深度學(xué)習(xí)(DDL)軟體可隨著處理器的增加,,實現(xiàn)趨近于線性加速的最佳效率,。
如圖1所示,這一發(fā)展旨在為添加至IBM分散式深度學(xué)習(xí)演算法的每一個伺服器,,實現(xiàn)類似的加速效率,。
IBM研究人員兼IBM Research加速認(rèn)知基礎(chǔ)設(shè)施部門總監(jiān)Hillman Hunter認(rèn)為,其目標(biāo)在于“將與深度學(xué)習(xí)訓(xùn)練有關(guān)的等待時間,,從幾天或幾小時減少到幾分鐘或甚至幾秒鐘,。”
Hunter在一篇有關(guān)這項深度學(xué)習(xí)發(fā)展的部落格文章中指出,,“最受歡迎的深度學(xué)習(xí)架構(gòu)開始擴展到伺服器中的多個繪圖處理器(GPU),,而非使用GPU的多個伺服器?!盜BM的開發(fā)團(tuán)隊“為連接至數(shù)十個伺服器的上百個GPU加速器所需的龐大,、復(fù)雜運算任務(wù),編寫了自動化與最佳化其平行任務(wù)的軟體與演算法,?!?/p>
深度學(xué)習(xí)演算法隨GPU增加而趨近于線性加速效率 (來源:IBM)
IBM聲稱,使用開放源碼的Caffe深度學(xué)習(xí)架構(gòu),,可將最多達(dá)256個Nvidia Tesla P100 GPU添加至單一伺服器,,最終達(dá)到了95%微縮效率的測試結(jié)果。這一測試結(jié)果可用于影像辨識學(xué)習(xí),,但預(yù)計也適用于類似的學(xué)習(xí)任務(wù),。IBM在50分鐘的訓(xùn)練時間內(nèi)達(dá)到了接近線性的微縮效率。在相同的訓(xùn)練數(shù)據(jù)集時,F(xiàn)acebook Inc.先前曾經(jīng)在60分鐘的訓(xùn)練時間內(nèi)實現(xiàn)89%的效率,。
而在ImageNet-22k的數(shù)據(jù)組合下,,IBM聲稱可在7個小時、750萬張影像的訓(xùn)練中,,達(dá)到了33.8%的驗證精確度,;在相同的條件下,微軟(Microsoft Corp.)原先的記錄是在10天訓(xùn)練中達(dá)到29.8%的準(zhǔn)確率,。IBM的處理器——PowerAI平臺,,可支援64節(jié)點的Power8叢集(加上256個Nvidia GPU),提供超過2PFLOPS的單精度浮點性能,。
該公司正為PowerAI平臺用戶免費提供其分散式深度學(xué)習(xí)套件,,同時,還為第三方開發(fā)人員提供各種應(yīng)用的編程介面,,讓他們能選擇與其應(yīng)用最相關(guān)的底層演算法,。