壁仞科技實(shí)現(xiàn)中國(guó)首個(gè)三種異構(gòu)GPU混訓(xùn)技術(shù)
2024-09-06
來源:快科技
9月5日消息,,據(jù)國(guó)內(nèi)媒體報(bào)道,國(guó)產(chǎn)AI芯片公司壁仞科技即將在2024全球AI芯片峰會(huì)上,,首次公布自主原創(chuàng)的異構(gòu)GPU協(xié)同訓(xùn)練方案HGCT,。
據(jù)了解,這將是中國(guó)首個(gè)三種異構(gòu)芯片混訓(xùn)技術(shù),,業(yè)界首次支持3種及以上異構(gòu)GPU混合訓(xùn)練同一個(gè)大模型(壁仞GPU+英偉達(dá)GPU+其他國(guó)產(chǎn)芯片),,用一套統(tǒng)一方案支持多種不同型號(hào)、不同廠商的GPU,,而且一行代碼適配多種框架,。
在此之前,AI Infra公司無(wú)問芯穹的4+2芯片,,最多僅支持2種GPU同時(shí)訓(xùn)練,。
性能方面,HGCT混訓(xùn)方案的異構(gòu)協(xié)同通信效率大于98%,、端到端訓(xùn)練效率90-95%,,一舉突破了大模型異構(gòu)算力孤島難題。
可靠性上,目前可以實(shí)現(xiàn)千卡集群,、千億參數(shù)的自動(dòng)斷點(diǎn)續(xù)訓(xùn)小于10分鐘,,15天連續(xù)訓(xùn)練不中斷,4天連續(xù)訓(xùn)練無(wú)故障,。
據(jù)悉,,壁仞科技正在聯(lián)合客戶、合作伙伴,、科研機(jī)構(gòu)共同推動(dòng)異構(gòu)GPU協(xié)同訓(xùn)練生態(tài),包括:中國(guó)移動(dòng),、中國(guó)電信,、商湯科技、國(guó)網(wǎng)智能電網(wǎng)研究院有限公司,、上海智能算力科技有限公司,、上海人工智能實(shí)驗(yàn)室、中國(guó)信息通信研究院等,。
公開資料顯示,,壁仞科技成立于2019年9月,主要研發(fā)通用 GPU(GPGPU),,用于人工智能訓(xùn)練和推理等領(lǐng)域,。
2021年3月,壁仞科技完成B輪融資,,累計(jì)融資額超47億元人民幣
20202年8月,,壁仞科技正式發(fā)布首款通用GPU芯片BR100,創(chuàng)下全球算力紀(jì)錄,,16位浮點(diǎn)算力達(dá)到1000T以上,、8位定點(diǎn)算力達(dá)到2000T以上,單芯片峰值算力達(dá)到PFLOPS級(jí)別,。
甚至與NVIDIA當(dāng)時(shí)4nm 旗艦H100相比,,BR100的紙面性能數(shù)據(jù)也毫不遜色。