9 月 13 日消息,,元象 XVERSE 發(fā)布中國最大 MoE 開源模型 XVERSE-MoE-A36B。
該模型總參數(shù) 255B,,激活參數(shù) 36B,,官方號(hào)稱效果能“大致達(dá)到”超過 100B 大模型的“跨級(jí)”性能躍升,,同時(shí)訓(xùn)練時(shí)間減少 30%,推理性能提升 100%,,使每 token 成本大幅下降,。
MoE(Mixture of Experts)混合專家模型架構(gòu),將多個(gè)細(xì)分領(lǐng)域的專家模型組合成一個(gè)超級(jí)模型,,在擴(kuò)大模型規(guī)模的同時(shí),,保持模型性能最大化,甚至還能降低訓(xùn)練和推理的計(jì)算成本,。谷歌 Gemini-1.5,、OpenAI 的 GPT-4 ,、馬斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。
在多個(gè)評(píng)測中,,元象 MoE 超過多個(gè)同類模型,,包括國內(nèi)千億 MoE 模型 Skywork-MoE、傳統(tǒng) MoE 霸主 Mixtral-8x22B 以及 3140 億參數(shù)的 MoE 開源模型 Grok-1-A86B 等,。
本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。