2月18日,,由OpenAI 發(fā)布的文生視頻AI工具Sora引發(fā)的討論仍在繼續(xù),,范圍涉及科技圈,、資本圈,、影視圈等,,同時(shí)對(duì)Sora尚存在的問(wèn)題研究也逐漸深入,。
例如針對(duì)OpenAI定位“世界模擬器”的觀點(diǎn),,圖靈獎(jiǎng)得主,、Meta首席AI科學(xué)家楊立昆(YannLeCun)表示,,根據(jù)提示詞生成的大部分逼真視頻并不表明這樣的AI系統(tǒng)理解物理世界,,生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。
翻閱OpenAI披露的數(shù)十份視頻,,楊立昆的觀點(diǎn)具體表現(xiàn)為老奶奶吹蠟燭火苗卻不動(dòng),、東京街頭步伐錯(cuò)誤的女郎、玻璃杯碎后錯(cuò)誤的液體流向,、在跑步機(jī)上反向跑步的男子等,。
雖然OpenAI的明星效應(yīng)為其帶來(lái)大量關(guān)注,同日谷歌發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro也變?yōu)榕浣?,但不論是美?guó)硅谷AI項(xiàng)目還是中國(guó)大模型創(chuàng)業(yè)公司,,外界關(guān)注的核心均為實(shí)際應(yīng)用效果,。
視頻雖驚艷bug仍存在
目前,Sora所生成的視頻內(nèi)容得到影視行業(yè)人士的普遍認(rèn)可,。Mystery Novel視覺(jué)預(yù)演工作室創(chuàng)始人,、導(dǎo)演牛萌琛對(duì)第一財(cái)經(jīng)記者表示,Sora視頻中的畫質(zhì),,畫面內(nèi)容中的細(xì)節(jié),、光影、色彩都較精細(xì),,對(duì)導(dǎo)演來(lái)說(shuō),,為其在拍攝前期做一個(gè)簡(jiǎn)單的鏡頭樣板是夠用的。對(duì)廣告片拍攝來(lái)說(shuō),,也可以用這種樣板來(lái)與客戶更好地進(jìn)行概念上的溝通和確認(rèn),。但如果涉及鏡頭運(yùn)動(dòng)角度,與更精細(xì)內(nèi)容調(diào)控——如色彩,、光影,、道具、人物動(dòng)作等,,目前AI還不能達(dá)到令客戶滿意的程度,。
一位紀(jì)錄片從業(yè)者對(duì)記者表示,目前Sora還不能直接用于影視作品,,因?yàn)榫?xì)度還不夠,。但已經(jīng)足夠震撼,完全可以用于前期開(kāi)發(fā),,尤其是概念設(shè)計(jì),。一位宣傳片從業(yè)者表示,工作室目前還沒(méi)試過(guò)用AI生成來(lái)做素材,,Sora 只發(fā)布了部分作品,,且未開(kāi)放公測(cè),能不能用來(lái)代替剪輯不確定,。無(wú)論如何,,這些工具最后都是為人服務(wù)的,人的個(gè)人感情復(fù)雜性的表達(dá)不可替代,。
攝影專業(yè)人士孟凡對(duì)記者表示,,Sora視頻幀率較高,說(shuō)明計(jì)算能力比較強(qiáng),,且影片的寬容度更高,,如調(diào)色、細(xì)節(jié)表現(xiàn),、高速鏡頭展現(xiàn)等,。在直觀感受上,,Sora 模型產(chǎn)出的視頻運(yùn)鏡自然,物體運(yùn)動(dòng)符合規(guī)律,,鏡頭間邏輯一致性好,,但是Sora視頻的邏輯性會(huì)差一點(diǎn)。
具體表現(xiàn)在Sora視頻內(nèi)容中,,如一分鐘的東京街頭女郎漫步,女郎走路過(guò)程中存在腿部變形,、腿部交叉換位時(shí)錯(cuò)亂,、右腿連續(xù)兩次在前方邁步等錯(cuò)誤;一段提示詞為“一個(gè)人跑步的場(chǎng)景”中,,主角在跑步機(jī)上反向奔跑,;提示詞為“考古學(xué)家在沙漠發(fā)現(xiàn)塑料椅子”的視頻中,椅子呈現(xiàn)懸浮狀態(tài),。
針對(duì)目前Sora存在的不成熟之處,,OpenAI表示,Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,,可能無(wú)法理解因果關(guān)系,,可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時(shí)間推移發(fā)生的事件,,如遵循特定的相機(jī)軌跡等,。
OpenAI方面在《作為世界模擬器的視頻生成模型》技術(shù)報(bào)告中表示,Sora作為一個(gè)模擬器,,目前表現(xiàn)出許多限制,,它并沒(méi)有準(zhǔn)確地模擬許多基本互動(dòng)的物理效應(yīng),比如玻璃破碎,。吃食物之類的互動(dòng)不總是產(chǎn)生正確的物體狀態(tài)變化,。還有在長(zhǎng)時(shí)間樣本中發(fā)展的不連貫性或物體的自發(fā)出現(xiàn)。
對(duì)于這些問(wèn)題,,多位人工智能領(lǐng)域人士對(duì)記者表示,,皆因概率模式的邏輯硬傷所致。中科深智創(chuàng)始人兼CEO成維忠表示,,Sora因其并非嚴(yán)格的推理模型,,目前還存在因果關(guān)系推理問(wèn)題,但這個(gè)問(wèn)題不是Sora自身的問(wèn)題,,而是目前所有類似模型均存在的問(wèn)題,,類似于大模型普遍存在的幻覺(jué)問(wèn)題。未來(lái)會(huì)隨著訓(xùn)練的加強(qiáng)而得到改善,。
宜遠(yuǎn)智能CEO吳博對(duì)記者表示,,通過(guò)加大訓(xùn)練量,、增加訓(xùn)練數(shù)據(jù)與物理邏輯,該問(wèn)題會(huì)逐漸得到改善,,但無(wú)法根治,。
南洋理工大學(xué)副教授張含望此前在GAIR全球人工智能與機(jī)器人大會(huì)上表示,想要真正突破最底層邏輯上的問(wèn)題,,因果關(guān)系(Causality)是一條必經(jīng)之路,。如果不把因果關(guān)系加上去,大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián),,幸運(yùn)的話,,模型在回答問(wèn)題時(shí)能夠給出正確答案,否則就會(huì)“胡說(shuō)八道”,。這是因?yàn)樗澈蟮年P(guān)聯(lián)是錯(cuò)誤的——把共生關(guān)系當(dāng)成了因果關(guān)系,。
實(shí)際使用價(jià)值待解
Sora之所以能引發(fā)廣泛關(guān)注,除了畫面超過(guò)同行的質(zhì)量原因外,,更在于外界對(duì)其即將帶來(lái)的行業(yè)迭代充滿好奇,。
就影視行業(yè)而言,得知Sora視頻發(fā)布后,,時(shí)光矩陣聯(lián)合創(chuàng)始人郁剛稱自己的心態(tài)冰火兩重天,,一方面對(duì)于影視特效公司而言,該消息算不上一個(gè)好消息,,自己第一個(gè)感覺(jué)是“特效公司要死了嗎,?”很想將過(guò)去學(xué)的特效工具“埋了”。
郁剛稱自己過(guò)去能想象到AI視頻會(huì)發(fā)展到這個(gè)精度,,但沒(méi)有想過(guò)會(huì)這么快,,其原本的預(yù)測(cè)時(shí)間是三到五年,結(jié)果在一年時(shí)間內(nèi)就達(dá)到——從兔年春節(jié)到龍年春節(jié),,OpenAI實(shí)現(xiàn)了從文生文到文生視頻的迭代,。但從另一個(gè)角度來(lái)說(shuō),郁剛稱自己很欣喜,,從導(dǎo)演角色來(lái)說(shuō),,過(guò)去最痛苦的就是拿到劇本之后找錢、找投資方,,開(kāi)了四年公司,,賬上虧損欠賬三百萬(wàn)人民幣,但看了Sora之后,,拍視頻,、做成特效并放到熒幕上這步最貴的動(dòng)態(tài)預(yù)演環(huán)節(jié),完全可以通過(guò)AI實(shí)現(xiàn)成本節(jié)省,。
郁剛預(yù)計(jì),,未來(lái)AI視頻生態(tài)將發(fā)生巨大變化,,影視行業(yè)或?qū)⒆優(yōu)榉?wù)業(yè),視頻生產(chǎn)的概念也將發(fā)生變化,。
專業(yè)動(dòng)畫師Owen Fern不認(rèn)可當(dāng)下“Sora顛覆行業(yè)”的極端觀點(diǎn),,他稱,作為一名動(dòng)畫師,,目前并不對(duì)Sora視頻感到害怕,,因?yàn)閯?dòng)畫制作本質(zhì)上是需要反復(fù)修正的過(guò)程,特別是在為客戶服務(wù)時(shí)更是如此,。目前 AI 還無(wú)法提供給客戶一個(gè)精雕細(xì)琢的作品,,而只是一些粗制濫造的東西。這些細(xì)節(jié)看似挑剔,,但它們正是客戶對(duì)知識(shí)產(chǎn)權(quán)(IP)或產(chǎn)品所持的態(tài)度,。
Owen Fern強(qiáng)調(diào)稱,,Sora視頻的質(zhì)量的確是令人驚嘆的高,,只是就目前而言,它們除了作為展示AI潛力的范例作用外,,實(shí)用價(jià)值仍待觀察,。
新加坡Vibranium Consulting副總裁陳沛近期實(shí)際使用和觀察了RunwayML、Stable Video Diffusion(SVD),、Adobe Firefly等主流AI視頻服務(wù),,通過(guò)對(duì)比發(fā)現(xiàn),目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果,,還會(huì)在物體行進(jìn)方向,、人物四肢等方面出現(xiàn)明顯錯(cuò)誤,無(wú)法滿足實(shí)際應(yīng)用的需求,。
Perplexity AI 創(chuàng)始人之一的Aravind Srinivas表示,,Sora雖然令人驚嘆,但其還沒(méi)有做好準(zhǔn)確模擬物理的準(zhǔn)備——正如Sora研究員在報(bào)告中提及的那樣,。并且,,行業(yè)并不能很快地在家庭清潔機(jī)器人上運(yùn)行這些巨大的“世界模擬器”的模擬推理。
浙商證券認(rèn)為,,短期內(nèi),,Sora及同類產(chǎn)品可大幅提升圖像和短視頻的制作效率,改變創(chuàng)意生產(chǎn)及營(yíng)銷工作流,,提升短視頻產(chǎn)品生產(chǎn)力,。對(duì)于業(yè)態(tài)更加復(fù)雜的長(zhǎng)視頻和游戲,受限于模型還無(wú)法準(zhǔn)確理解因果關(guān)系及其他技術(shù)難點(diǎn),,現(xiàn)階段或以提供美術(shù)靈感支持為主,。
中長(zhǎng)期來(lái)看,,浙商證券表示,Sora及同類產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進(jìn)程中,,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),,UGC(用戶生成內(nèi)容)將借助AI 工具逐步替代PGC。此間,,AI生成視頻工具的商業(yè)化將提速,。