10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的擴(kuò)散模型架構(gòu) OmniGen,,這是一種用于統(tǒng)一圖像生成的多模態(tài)模型,。
▲ 文本生成圖像,編輯生成圖像的部分元素,,根據(jù)生成圖像的人體姿態(tài)生成重繪圖像,,從另一圖像中提取所需對(duì)象與新圖像融合
官方表示,OmniGen 具有以下特點(diǎn):
統(tǒng)一性:OmniGen 天然地支持各種圖像生成任務(wù),,例如文生圖,、圖像編輯、主題驅(qū)動(dòng)生成和視覺(jué)條件生成等,。此外,,OmniGen 可以處理經(jīng)典的計(jì)算機(jī)視覺(jué)任務(wù),,將其轉(zhuǎn)換為圖像生成任務(wù),。
簡(jiǎn)單性:OmniGen 的架構(gòu)高度簡(jiǎn)化。此外,,與現(xiàn)有模型相比,,它更加用戶友好,可以通過(guò)指令完成復(fù)雜的任務(wù),,而不需要冗長(zhǎng)的處理步驟和額外的模塊 (如 ControlNet 或 IP-Adapter),,從而大大簡(jiǎn)化了工作流程。
知識(shí)遷移:受益于統(tǒng)一格式的學(xué)習(xí),,OmniGen 有效地跨不同任務(wù)遷移知識(shí),,應(yīng)對(duì)未見過(guò)的任務(wù)和領(lǐng)域,并展示新穎的功能,。我們還探討了模型的推理能力和思維鏈機(jī)制的在圖像生成領(lǐng)域的潛在應(yīng)用,。
▲ 指代表達(dá)生成
本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]。