谷歌研究院推出了一款名為Lumiere的“文生視頻”擴散模型,,主打采用自家最新開發(fā)的“Space-Time U-Net”基礎架構,號稱能夠一次生成“完整、真實,、動作連貫”的視頻,。這是一種新的生成式AI工具,可幫助您通過基于文本的命令創(chuàng)建更逼真的圖像和視頻。
谷歌表示,,業(yè)界絕大多數(shù)“文生視頻”模型無法生成時間長,、質量佳、動作連貫逼真的內容,,這是因為此類模型通?!胺侄紊梢曨l”,首先產(chǎn)生幾張關鍵幀,,接著用“時間超級分辨率(Temporal Super-Resolution)”技術,,生成關鍵幀之間的視頻文件,這種方法雖然能夠節(jié)省 RAM,,但難以生成“連貫逼真”的視頻,。
谷歌稱他們的新模型 Lumiere的亮點之一是,相對于業(yè)界模型最大的不同是采用了全新“Space-Time U-Net”基礎架構,,該架構能夠在空間和時間上同時“降采樣(Downsample)”信號,從而在“更緊湊的時空中進行更多運算”,,令Lumiere能夠生成持續(xù)時間更長,、動作更連貫的視頻。
Lumiere 可用于創(chuàng)建以下內容:
谷歌還為我們介紹了 Lumiere 的基礎特性,,該 AI 建立在一個經(jīng)過預先訓練的“文生圖”模型基礎上,,研究人員首先讓基礎模型生成視頻分幀的基本像素草稿,接著通過空間超分辨率(SSR)模型,,逐步提升分幀分辨率及細節(jié),,并利用“Multidiffusion”通用生成框架提升模型穩(wěn)定性,從而保證了最終輸出的視頻一致性和連續(xù)性,。
Lumiere是谷歌在AI視頻生成技術上的一次重大突破,。值得注意的是,如果您想嘗試使用Lumiere,,你需要強大的GPU來驅動電腦的圖形功能,。