《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 國內首個開源千億參數MoE大模型來了

國內首個開源千億參數MoE大模型來了

性能超Grok-1,,單張GPU可跑
2024-04-03
來源:智東西
關鍵詞: MoE 大模型

全球移動互聯(lián)網公司APUS與大模型創(chuàng)企新旦智能宣布,,聯(lián)手開源國內首個千億參數的MoE(混合專家模型)APUS-xDAN大模型4.0,這也是國內首個可以在消費級顯卡上運行的千億MoE中英文大模型,。

APUS-xDAN-4.0(MoE)參數規(guī)模為1360億,,可在消費級顯卡4090上運行,據APUS實測,,其綜合性能超過GPT-3.5,,達到GPT-4的90%。

數學能力上,,測評基準GSM8K的測評得分為79,,理解能力MMLU達到73分。

1.png

GitHub界面顯示,,APUS-xDAN-4.0(MoE)模型文件鏈接即將發(fā)布,。

一、數學,、推理能力碾壓,,推理成本下降400%

APUS-xDAN-4.0(MoE)在GitHub的頁面顯示了基準測評結果,其與Mixtral-8x7B(MoE)、Llama2-70B,、Grok-1(MoE)進行了對比,。

其中衡量模型語言理解、知識和推理能力的基準測試MMLU中,,APUS-xDAN-4.0(MoE)排名第一,,超過了Grok-1(MoE)。

在測試多步驟數學推理能力的單詞問題集合測試GSM-9K以及MATH中,,該模型得分均遠高于其他三大模型,。

四項測試中,APUS-xDAN-4.0(MoE)在多學科任務的BIG-Bench-Hard測試中,,得分為66.4,,接近Mixtral-8x7B(MoE),低于Grok-1(MoE)的71.7分,。

其中,,Mixtral-8x7B(MoE)由大模型創(chuàng)企Mistral AI于去年年底發(fā)布,并在多項基準測試中性能都基本達到GPT-3.5,;Llama2-70B是去年7月Meta開源的Llama 2大模型系列中,,參數規(guī)模最大的版本;Grok-1(MoE)為馬斯克旗下AI創(chuàng)企xAI本月初開源的大模型,,參數規(guī)模為3140億參數,,是目前開源大模型中參數規(guī)模之最。

此外,,在GitHub頁面顯示,,APUS-xDAN-4.0(MOE)開源模型在“IQ-Quantized Tech”上量化為1.5位、2位和4位,,可以在消費級顯卡4090上運行,。

2.png

具體來說,APUS-xDAN 大模型4.0(MoE)采用GPT-4類似的MoE架構,,特點是多專家模型組合,,同時激活使用只有2個子模塊,實際運行效率對比傳統(tǒng)Dense同尺寸模型效率提升200%,,推理成本下降400%,。在實際部署中,研究人員通過進一步高精度微調量化技術,,使得模型尺寸縮小500%,。

二、32個MoE Transformer塊組成,,可處理多線程復雜需求

在實際的效果中,,APUS-xDAN-4.0(MoE)可以理解復雜需求,,如撰寫廣告文案時,要求涵蓋“火焰人”,、固定口號,、搖滾樂歌詞等。

3.png

該模型還可以找出段落中的實時性錯誤,,并給出修改版本,,包括品牌所屬地區(qū)、語病等,。

43.png

APUS-xDAN-4.0(MOE)模型的架構特點為,,主要由32個相同的MoE Transformer塊組成,與普通Transformer塊相比,,MoE Transformer塊的FFN層被MoE FFN層替換,。

張量經過門層計算每個專家模型的分數,,根據專家分數從8個專家模型中選擇Top-K專家,。張量通過Top-K專家的輸出進行聚合,從而得到MoE FFN層的最終輸出,。

每個專家由3個線性層(Linear Layers)組成,。APUS-xDAN-4.0的所有Norm Layer都是用RMSNorm,與開源大模型Llama的方式一致,。

在注意力層中,,APUS-xDAN-4.0(MoE)中的QKV矩陣的Q矩陣形狀為(4096,4096),K和V矩陣形狀為(4096,1024),。

5.png

▲APUS-xDAN-4.0(MoE)模型架構圖

三,、APUS是投資方,7B模型表現(xiàn)超GPT-4

APUS-xDAN-4.0(MoE)背后的兩家公司均來自國內,,且APUS于今年3月投資了新旦智能,。

新旦智能成立于2023年5月,此前該公司發(fā)布的xDAN-7B-Global在用于衡量大模型在機器翻譯任務性能的綜合性評估指標MT-Bench中,,性能表現(xiàn)僅次于GPT-4,。

6.png

▲MT-Bench排名

今年3月,新旦智能完成千萬級別天使輪融資,,投資方包括APUS和AI投資人周弘揚,。

據了解,新旦智能的創(chuàng)始團隊匯集了清華,、伯克利等頂尖學府以及騰訊,、Meta等頭部科技玩家的員工,包括全球開源AI社區(qū)知名開發(fā)者,、騰訊云架構師等,。

與此同時,這也是APUS在開源大模型領域的最新進展。今年2月初,,APUS與深圳大學國家工程實驗室聯(lián)合開源了APUS大模型3.0伶荔,。

結語:更強開源MoE模型,或加速AI開發(fā)及應用創(chuàng)新

開源大模型對于全球大模型產業(yè)的技術進步與應用落地的重要性與日俱增,,并逐漸顯現(xiàn)出對標當下大模型頂流GPT-4的潛力,。

在這個趨勢下,APUS與新旦智能聯(lián)手,,既開源了目前國內參數規(guī)模最大的MoE模型,,同時降低了其部署成本,為更多開發(fā)者提供了應用大模型能力的可能性,,這或許將進一步加速AI開發(fā)及應用創(chuàng)新,。


雜志訂閱.jpg

本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,,并不代表本網站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。