近期在法蘭克福舉辦的國際超級計算大會上,涌現(xiàn)了很多令人興奮的新技術,,驅動著廣泛應用于各行各業(yè)的人工智能和深度學習技術的發(fā)展,。英特爾為人工智能技術的各個層面提供了一套廣泛全面的產品組合,,其中包括即將推出的英特爾?至強?可擴展處理器以及英特爾現(xiàn)場可編程門陣列(FPGA),還有即將推出的代號為Knights Mill的英特爾?至強融核?處理器,將深度學習技術提升到了一個新高度。
這個英特爾至強融核系列的新成員是專門針對深度學習訓練進行了優(yōu)化,,預計在2017年第四季度投產。該處理器旨在滿足數(shù)據科學家,、工程師以及所有致力于機器學習技術應用領域的用戶獨特需求,。Knights Mill尤其能夠通過充分利用低精度計算優(yōu)勢而大大縮短訓練深度學習模型的時間。
為什么低精度如此重要,?
簡單地說,,數(shù)據科學家需要硬件能夠在訓練模型時加速融合。在過去,,深度學習模型可能要花上幾天甚至幾周的時間才能完成一個迭代的融合,,這使得他們很難在有限的時間內進行研究。如今的硬件能夠通過低精度計算把訓練時間縮短到幾個小時——這相當于加快了計算速度,。只要硬件能滿足深度學習框架的精度要求,,那么最重要的就是看硬件訓練模型的速度有多快,。因此低精度計算可用于解決深度學習負載問題,,并且與高性能計算相比是首選的計算方式,后者通常需要單或雙精度運算性能,。
那么Knights Mill和之前代號為Knights Landing的英特爾?至強融核?處理器有何不同呢,?
我們經常聽到專注于高性能計算、人工智能和機器學習的用戶提出這個問題,。
Knights Mill使用和Knights Landing相同的整體架構和分裝,,兩個CPU都是第二代英特爾?至強融核?處理器,,并使用相同的平臺。區(qū)別就是Knights Mill使用不同的指令集來改進低精度性能,,但犧牲了對許多傳統(tǒng)高性能計算負載非常重要的雙精度性能,。這意味著Knights Mill適用于處理深度學習負載,而Knights Landing則更適合高性能計算負載以及其它要求高精度的運算,。
這些不同的指令集被稱作“四倍融合乘加指令”(QFMA:Quad Fused MulTIply Add)和“四倍虛擬神經網絡指令”(QVNNI: Quad Virtual Neural Network InstrucTIon),。QFMA能把Knights Mill的單精度性能提高一倍,而QVNNI指令則可以進一步降低精度,,同時滿足深度學習框架的精度需求,。把單精度性能提高一倍并進一步降低精度的結果將使Knights Mill相比Knights Landing能夠為深度學習負載提供更高的運算性能。此外,,頻率,、電源和效率方面的改善也推動了性能的提升,但是指令集變化才是性能顯著提升的最大因素,。
退一步說,,Knights Mill處理器并不僅僅是為了加速深度學習負載,而且是在現(xiàn)有的基于英特爾技術的環(huán)境中獲得新的處理功能,。英特爾?至強融核?處理器平臺二進制兼容英特爾?至強?處理器,。幾乎所有運行在英特爾?至強?處理器上的負載都能運行在英特爾?至強融核?處理器上,這就讓用戶可以輕松地在英特爾平臺上共享軟件投資,。
另一方面,,英特爾正在統(tǒng)一深度學習實踐者在整個硬件平臺上使用深度學習框架的前進道路。這些都是受益于英特爾? Nervana? Graph把先進的功能帶到深度學習框架,。這個面向神經網絡的計算和執(zhí)行圖讓開發(fā)者能夠在多個硬件對象上自動進行優(yōu)化,,從而讓用戶能夠在不同的英特爾平臺上共享其軟件投資。
近年來英特爾不斷延伸人工智能技術布局,,收購深度學習和神經網絡芯片與軟件領域的領導廠商Nervana,,通過一系列投資和英特爾至強、至強融核產品,、FPGA相結合,,提供全棧實力處理端到端數(shù)據。即將推出的英特爾?至強融核?處理器Knights Mill,,更是顯著加速深度學習處理,,驅動人工智能領域的進一步發(fā)展。