《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 阿里巴巴開源深度學習訓練框架EPL 可支持10萬億參數(shù)超大模型

阿里巴巴開源深度學習訓練框架EPL 可支持10萬億參數(shù)超大模型

2022-03-05
來源:阿里云

3月4日消息,阿里巴巴宣布完全開源支持10萬億模型的自研分布式深度學習訓練框架EPL(Easy Parallel Library,,原名whale),,進一步完善深度學習生態(tài)。

EPL由阿里云機器學習平臺PAI團隊自主研發(fā),,PAI是面向開發(fā)者和企業(yè)的機器學習/深度學習工程平臺,,提供包含數(shù)據(jù)標注、模型構建、模型訓練,、編譯優(yōu)化,、推理部署在內(nèi)的AI開發(fā)全鏈路服務,內(nèi)置140多種優(yōu)化算法,,具備豐富的行業(yè)場景插件,,為用戶提供低門檻、高性能的云原生AI工程化能力,。

EPL是PAI團隊一次面向大規(guī)模深度學習分布式自動化訓練的探索,,EPL希望能夠簡化深度學習模型從單機訓練到分布式開發(fā)調(diào)試的流程。EPL通過對不同并行化策略進行統(tǒng)一抽象,、封裝,,在一套分布式訓練框架中支持多種并行策略,并進行顯存,、計算,、通信等全方位優(yōu)化來提供易用、高效的分布式訓練框架,。

EPL適合不同場景的模型,,在阿里巴巴內(nèi)部已經(jīng)支持圖像、推薦,、語音,、視頻、自然語言,、多模態(tài)等多樣性的業(yè)務場景,。同時,EPL也支持不同規(guī)模的模型,,最大完成了10萬億規(guī)模的M6模型訓練,,相比之前發(fā)布的大模型GPT-3,M6實現(xiàn)同等參數(shù)規(guī)模能耗僅為其1%,。最新測試結果顯示,,使用EPL的流水+數(shù)據(jù)并行對Bert Large模型進行優(yōu)化,相比于數(shù)據(jù)并行,,訓練速度提升了66%,。

阿里云資深技術專家九豐表示,“近些年,,隨著深度學習的火爆,,模型的參數(shù)規(guī)模飛速增長,同時為訓練框架帶來更大挑戰(zhàn),。為應對這個問題,,我們研發(fā)了EPL,EPL功能也隨著業(yè)務需求的迭代逐漸完善。未來,,我們將在軟硬件一體優(yōu)化、全自動策略探索等幾個探索性方向上持續(xù)投入精力,。今天,,我們將EPL完全開源,希望和深度學習訓練框架的開發(fā)者或深度學習從業(yè)者之間有更多更好的交流和共建,,持續(xù)完善深度學習生態(tài),。”




最后文章空三行圖片.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章,、圖片,、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者,。如涉及作品內(nèi)容,、版權和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。