2 月 18 日消息,昆侖萬(wàn)維今日宣布開源國(guó)內(nèi)首個(gè)面向 AI 短劇創(chuàng)作的視頻生成模型 SkyReels-V1,、國(guó)內(nèi)首個(gè) SOTA 級(jí)別基于視頻基座模型的表情動(dòng)作可控算法 SkyReels-A1,。
昆侖萬(wàn)維官方介紹稱,SkyReels-V1 針對(duì)表演細(xì)節(jié)做了打標(biāo),,還對(duì)情緒,、場(chǎng)景、表演訴求等進(jìn)行處理,,利用“千萬(wàn)級(jí)別,、高質(zhì)量”的好萊塢級(jí)別數(shù)據(jù)進(jìn)行訓(xùn)練微調(diào)。
此外,,SkyReels-V1 可實(shí)現(xiàn)“影視級(jí)人物微表情表演生成”,,支持 33 種人物表情與 400 + 種自然動(dòng)作組合,還原真人情感表達(dá),,支持生成大笑,、怒吼、驚訝,、哭泣等微表情,。
基于好萊塢級(jí)的影視數(shù)據(jù)訓(xùn)練,,當(dāng)前 SkyReels 生成的每一幀畫面,在構(gòu)圖,、演員站位,、相機(jī)角度等號(hào)稱都具備“電影級(jí)的質(zhì)感”。
SkyReels-V1 不僅支持文生視頻,,還支持圖生視頻,,號(hào)稱是“開源視頻生成模型中參數(shù)最大的支持圖生視頻的模型”,在同等分辨率下各項(xiàng)指標(biāo)實(shí)現(xiàn)開源 SOTA,。
總結(jié)來(lái)看,,SkyReels-V1 可以實(shí)現(xiàn):
影視化表情識(shí)別體系:11 種針對(duì)影視戲劇中的人物表情理解,如不屑,、不耐煩,、無(wú)助、厭惡等表情的理解,;
人物空間位置感知:基于人體三維重建技術(shù),,實(shí)現(xiàn)對(duì)視頻中多人的空間相對(duì)關(guān)系理解,助力模型生成影視級(jí)人物站位,;
行為意圖理解:構(gòu)建超過(guò) 400 種行為語(yǔ)義單元,,實(shí)現(xiàn)對(duì)人物行為的精準(zhǔn)理解;
表演場(chǎng)景理解:實(shí)現(xiàn)人物-服裝-場(chǎng)景-劇情的關(guān)聯(lián)分析,。
性能方面,,在自研推理優(yōu)化框架「SkyReels-Infer」的加持下,該模型可實(shí)現(xiàn) 544p 分辨率,,推理基于單臺(tái) 4090 用時(shí) 80s,,還支持分布式多卡并行,支持 Context Parallel,,CFG Parallel,,和 VAE Parallel。
此外,,模型采取 fp8 quantization 以及 parameter-level offload,,滿足低顯存用戶級(jí)顯卡運(yùn)行需求;支持 flash attention,、SageAttention,,模型編譯優(yōu)化等,進(jìn)一步優(yōu)化延遲,;基于開源 diffuser 庫(kù),,提升易用性。
為了實(shí)現(xiàn)更加精準(zhǔn)可控的人物視頻生成,,昆侖萬(wàn)維還開源了 SOTA 級(jí)別的基于視頻基座模型的表情動(dòng)作可控算法 SkyReels-A1,,對(duì)標(biāo) Runway 的 Act-One,,SkyReels-A1 支持視頻驅(qū)動(dòng)的電影級(jí)表情捕捉。
SkyReels-A1 能夠基于任意人體比例(包括肖像,、半身及全身構(gòu)圖)生成人物動(dòng)態(tài)視頻,。