6月14日,2024北京智源大會(huì)在中關(guān)村展示中心開幕,,北京智源人工智能研究院(簡(jiǎn)稱智源研究院)推出大模型“全家桶”,。
智源研究院院長(zhǎng)王仲遠(yuǎn)表示,,現(xiàn)階段語(yǔ)言大模型的發(fā)展已經(jīng)具備了通用人工智能非常核心的理解和推理能力,并且形成了一條以語(yǔ)言大模型為核心對(duì)齊和映射其他模態(tài)的技術(shù)路線,,從而讓模型具備了初步的多模態(tài)理解和生成能力,。但這并不是讓人工智能感知、理解物理世界的終極技術(shù)路線,,而是應(yīng)該采取統(tǒng)一模型的范式,,實(shí)現(xiàn)多模態(tài)的輸入和輸出,讓模型具備原生的多模態(tài)擴(kuò)展能力,,向世界模型演進(jìn),。未來,大模型將以數(shù)字智能體的形態(tài)與智能硬件融合,,以具身智能的形態(tài)從數(shù)字世界進(jìn)入物理世界,,同時(shí),大模型這一技術(shù)手段可為科學(xué)研究提供新的知識(shí)表達(dá)范式,,加速人類對(duì)微觀物理世界規(guī)律的探索與研究突破,,不斷趨近通用人工智能的終極目標(biāo)。
智源研究院此次推出的大模型“全家桶”,包括智源多模態(tài)大模型,、具身智能大模型,、生物計(jì)算大模型等。
針對(duì)大模型訓(xùn)練算力消耗高的問題,,智源研究院和中國(guó)電信人工智能研究院(TeleAI)基于模型生長(zhǎng)和損失預(yù)測(cè)等關(guān)鍵技術(shù),,聯(lián)合研發(fā)并推出全球首個(gè)低碳單體稠密萬(wàn)億語(yǔ)言模型Tele-FLM-1T。該模型與百億級(jí)的52B版本,、千億級(jí)的102B版本共同構(gòu)成Tele-FLM系列模型,。Tele-FLM系列模型僅以業(yè)界普通訓(xùn)練方案9%的算力資源,基于112臺(tái)A800服務(wù)器,,用4個(gè)月完成3個(gè)模型總計(jì)2.3T tokens的訓(xùn)練,,訓(xùn)練出萬(wàn)億稠密模型Tele-FLM-1T。
針對(duì)大模型幻覺等問題,,智源研究院自主研發(fā)了通用語(yǔ)義向量模型BGE(BAAI General Embedding)系列,,基于檢索增強(qiáng)RAG技術(shù),實(shí)現(xiàn)數(shù)據(jù)之間精準(zhǔn)的語(yǔ)義匹配,,支持大模型調(diào)用外部知識(shí)的調(diào)用,。
行業(yè)現(xiàn)有的多模態(tài)大模型多為對(duì)于不同任務(wù)而訓(xùn)練的專用模型,例如Stable Diffusion之于文生圖,,Sora之于文生視頻,,GPT-4V之于圖生文。每類模型都有對(duì)應(yīng)的架構(gòu)和方法,,例如對(duì)于視頻生成,,行業(yè)普遍參照Sora選擇了DiT架構(gòu)。但是現(xiàn)有模型的能力多為單一分散的能力組合,,而不是原生的統(tǒng)一能力,,例如目前Sora還做不到圖像和視頻的理解。為了實(shí)現(xiàn)多模態(tài),、統(tǒng)一,、端到端的下一代大模型,智源研究院推出Emu3原生多模態(tài)世界模型,,采用智源自研多模態(tài)自回歸技術(shù)路徑,在圖像,、視頻,、文字上聯(lián)合訓(xùn)練,使模型具備原生多模態(tài)能力,,實(shí)現(xiàn)圖像,、視頻、文字的統(tǒng)一輸入和輸出。
在具身大模型方面,,對(duì)于具身智能通用抓取能力,,智源針對(duì)跨任意形狀和材質(zhì)的泛化難題,突破95%的真機(jī)實(shí)驗(yàn)成功率,,實(shí)現(xiàn)商業(yè)級(jí)動(dòng)作執(zhí)行水平,。借助這項(xiàng)技術(shù),即使在復(fù)雜光線透射,、反射的情況下,,機(jī)器人依然能準(zhǔn)確感知透明、高反光物體的形狀和姿態(tài),,并預(yù)測(cè)出高成功率的抓取位姿,。
在分級(jí)具身大模型系統(tǒng)方面,智源研發(fā)了能夠從失敗中重思考,、再嘗試的鉸接物體操作大模型系統(tǒng)SAGE,。該系統(tǒng)結(jié)合三維視覺小模型對(duì)空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識(shí),使大模型驅(qū)動(dòng)的機(jī)器人能夠在任務(wù)執(zhí)行失敗時(shí)重新思考并再次嘗試新的交互方式,,實(shí)現(xiàn)傳統(tǒng)機(jī)器人技術(shù)無法企及的智能性和魯棒性,。此外,智源研究院探索了生成式人工智能在分子生物學(xué)中的應(yīng)用,,推出全原子生物分子模型OpenComplex 2,,以及實(shí)時(shí)孿生心臟計(jì)算模型。