Sora刷屏視頻出現(xiàn)多處失誤模擬真實(shí)世界仍需闖關(guān)-AET-電子技術(shù)應(yīng)用

Sora刷屏視頻出現(xiàn)多處失誤模擬真實(shí)世界仍需闖關(guān)

日期： 2024-02-19

來(lái)源：第一財(cái)經(jīng)

關(guān)鍵詞： Sora 文生視頻 OpenAI

2月18日，由OpenAI 發(fā)布的文生視頻AI工具Sora引發(fā)的討論仍在繼續(xù)，范圍涉及科技圈、資本圈、影視圈等，同時(shí)對(duì)Sora尚存在的問(wèn)題研究也逐漸深入。

例如針對(duì)OpenAI定位“世界模擬器”的觀點(diǎn)，圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆（YannLeCun）表示，根據(jù)提示詞生成的大部分逼真視頻并不表明這樣的AI系統(tǒng)理解物理世界，生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。

翻閱OpenAI披露的數(shù)十份視頻，楊立昆的觀點(diǎn)具體表現(xiàn)為老奶奶吹蠟燭火苗卻不動(dòng)、東京街頭步伐錯(cuò)誤的女郎、玻璃杯碎后錯(cuò)誤的液體流向、在跑步機(jī)上反向跑步的男子等。

雖然OpenAI的明星效應(yīng)為其帶來(lái)大量關(guān)注，同日谷歌發(fā)布的多模態(tài)通用模型Gemini 1.5 Pro也變?yōu)榕浣牵徽撌敲绹?guó)硅谷AI項(xiàng)目還是中國(guó)大模型創(chuàng)業(yè)公司，外界關(guān)注的核心均為實(shí)際應(yīng)用效果。

視頻雖驚艷bug仍存在

目前，Sora所生成的視頻內(nèi)容得到影視行業(yè)人士的普遍認(rèn)可。Mystery Novel視覺(jué)預(yù)演工作室創(chuàng)始人、導(dǎo)演牛萌琛對(duì)第一財(cái)經(jīng)記者表示，Sora視頻中的畫(huà)質(zhì)，畫(huà)面內(nèi)容中的細(xì)節(jié)、光影、色彩都較精細(xì)，對(duì)導(dǎo)演來(lái)說(shuō)，為其在拍攝前期做一個(gè)簡(jiǎn)單的鏡頭樣板是夠用的。對(duì)廣告片拍攝來(lái)說(shuō)，也可以用這種樣板來(lái)與客戶(hù)更好地進(jìn)行概念上的溝通和確認(rèn)。但如果涉及鏡頭運(yùn)動(dòng)角度，與更精細(xì)內(nèi)容調(diào)控——如色彩、光影、道具、人物動(dòng)作等，目前AI還不能達(dá)到令客戶(hù)滿(mǎn)意的程度。

一位紀(jì)錄片從業(yè)者對(duì)記者表示，目前Sora還不能直接用于影視作品，因?yàn)榫?xì)度還不夠。但已經(jīng)足夠震撼，完全可以用于前期開(kāi)發(fā)，尤其是概念設(shè)計(jì)。一位宣傳片從業(yè)者表示，工作室目前還沒(méi)試過(guò)用AI生成來(lái)做素材，Sora 只發(fā)布了部分作品，且未開(kāi)放公測(cè)，能不能用來(lái)代替剪輯不確定。無(wú)論如何，這些工具最后都是為人服務(wù)的，人的個(gè)人感情復(fù)雜性的表達(dá)不可替代。

攝影專(zhuān)業(yè)人士孟凡對(duì)記者表示，Sora視頻幀率較高，說(shuō)明計(jì)算能力比較強(qiáng)，且影片的寬容度更高，如調(diào)色、細(xì)節(jié)表現(xiàn)、高速鏡頭展現(xiàn)等。在直觀感受上，Sora 模型產(chǎn)出的視頻運(yùn)鏡自然，物體運(yùn)動(dòng)符合規(guī)律，鏡頭間邏輯一致性好，但是Sora視頻的邏輯性會(huì)差一點(diǎn)。

具體表現(xiàn)在Sora視頻內(nèi)容中，如一分鐘的東京街頭女郎漫步，女郎走路過(guò)程中存在腿部變形、腿部交叉換位時(shí)錯(cuò)亂、右腿連續(xù)兩次在前方邁步等錯(cuò)誤；一段提示詞為“一個(gè)人跑步的場(chǎng)景”中，主角在跑步機(jī)上反向奔跑；提示詞為“考古學(xué)家在沙漠發(fā)現(xiàn)塑料椅子”的視頻中，椅子呈現(xiàn)懸浮狀態(tài)。

針對(duì)目前Sora存在的不成熟之處，OpenAI表示，Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理，可能無(wú)法理解因果關(guān)系，可能混淆提示的空間細(xì)節(jié)，可能難以精確描述隨著時(shí)間推移發(fā)生的事件，如遵循特定的相機(jī)軌跡等。

OpenAI方面在《作為世界模擬器的視頻生成模型》技術(shù)報(bào)告中表示，Sora作為一個(gè)模擬器，目前表現(xiàn)出許多限制，它并沒(méi)有準(zhǔn)確地模擬許多基本互動(dòng)的物理效應(yīng)，比如玻璃破碎。吃食物之類(lèi)的互動(dòng)不總是產(chǎn)生正確的物體狀態(tài)變化。還有在長(zhǎng)時(shí)間樣本中發(fā)展的不連貫性或物體的自發(fā)出現(xiàn)。

對(duì)于這些問(wèn)題，多位人工智能領(lǐng)域人士對(duì)記者表示，皆因概率模式的邏輯硬傷所致。中科深智創(chuàng)始人兼CEO成維忠表示，Sora因其并非嚴(yán)格的推理模型，目前還存在因果關(guān)系推理問(wèn)題，但這個(gè)問(wèn)題不是Sora自身的問(wèn)題，而是目前所有類(lèi)似模型均存在的問(wèn)題，類(lèi)似于大模型普遍存在的幻覺(jué)問(wèn)題。未來(lái)會(huì)隨著訓(xùn)練的加強(qiáng)而得到改善。

宜遠(yuǎn)智能CEO吳博對(duì)記者表示，通過(guò)加大訓(xùn)練量、增加訓(xùn)練數(shù)據(jù)與物理邏輯，該問(wèn)題會(huì)逐漸得到改善，但無(wú)法根治。

南洋理工大學(xué)副教授張含望此前在GAIR全球人工智能與機(jī)器人大會(huì)上表示，想要真正突破最底層邏輯上的問(wèn)題，因果關(guān)系（Causality）是一條必經(jīng)之路。如果不把因果關(guān)系加上去，大模型只是在進(jìn)行強(qiáng)行關(guān)聯(lián)，幸運(yùn)的話(huà)，模型在回答問(wèn)題時(shí)能夠給出正確答案，否則就會(huì)“胡說(shuō)八道”。這是因?yàn)樗澈蟮年P(guān)聯(lián)是錯(cuò)誤的——把共生關(guān)系當(dāng)成了因果關(guān)系。

實(shí)際使用價(jià)值待解

Sora之所以能引發(fā)廣泛關(guān)注，除了畫(huà)面超過(guò)同行的質(zhì)量原因外，更在于外界對(duì)其即將帶來(lái)的行業(yè)迭代充滿(mǎn)好奇。

就影視行業(yè)而言，得知Sora視頻發(fā)布后，時(shí)光矩陣聯(lián)合創(chuàng)始人郁剛稱(chēng)自己的心態(tài)冰火兩重天，一方面對(duì)于影視特效公司而言，該消息算不上一個(gè)好消息，自己第一個(gè)感覺(jué)是“特效公司要死了嗎？”很想將過(guò)去學(xué)的特效工具“埋了”。

郁剛稱(chēng)自己過(guò)去能想象到AI視頻會(huì)發(fā)展到這個(gè)精度，但沒(méi)有想過(guò)會(huì)這么快，其原本的預(yù)測(cè)時(shí)間是三到五年，結(jié)果在一年時(shí)間內(nèi)就達(dá)到——從兔年春節(jié)到龍年春節(jié)，OpenAI實(shí)現(xiàn)了從文生文到文生視頻的迭代。但從另一個(gè)角度來(lái)說(shuō)，郁剛稱(chēng)自己很欣喜，從導(dǎo)演角色來(lái)說(shuō)，過(guò)去最痛苦的就是拿到劇本之后找錢(qián)、找投資方，開(kāi)了四年公司，賬上虧損欠賬三百萬(wàn)人民幣，但看了Sora之后，拍視頻、做成特效并放到熒幕上這步最貴的動(dòng)態(tài)預(yù)演環(huán)節(jié)，完全可以通過(guò)AI實(shí)現(xiàn)成本節(jié)省。

郁剛預(yù)計(jì)，未來(lái)AI視頻生態(tài)將發(fā)生巨大變化，影視行業(yè)或?qū)⒆優(yōu)榉?wù)業(yè)，視頻生產(chǎn)的概念也將發(fā)生變化。

專(zhuān)業(yè)動(dòng)畫(huà)師Owen Fern不認(rèn)可當(dāng)下“Sora顛覆行業(yè)”的極端觀點(diǎn)，他稱(chēng)，作為一名動(dòng)畫(huà)師，目前并不對(duì)Sora視頻感到害怕，因?yàn)閯?dòng)畫(huà)制作本質(zhì)上是需要反復(fù)修正的過(guò)程，特別是在為客戶(hù)服務(wù)時(shí)更是如此。目前 AI 還無(wú)法提供給客戶(hù)一個(gè)精雕細(xì)琢的作品，而只是一些粗制濫造的東西。這些細(xì)節(jié)看似挑剔，但它們正是客戶(hù)對(duì)知識(shí)產(chǎn)權(quán)（IP）或產(chǎn)品所持的態(tài)度。

Owen Fern強(qiáng)調(diào)稱(chēng)，Sora視頻的質(zhì)量的確是令人驚嘆的高，只是就目前而言，它們除了作為展示AI潛力的范例作用外，實(shí)用價(jià)值仍待觀察。

新加坡Vibranium Consulting副總裁陳沛近期實(shí)際使用和觀察了RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI視頻服務(wù)，通過(guò)對(duì)比發(fā)現(xiàn)，目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果，還會(huì)在物體行進(jìn)方向、人物四肢等方面出現(xiàn)明顯錯(cuò)誤，無(wú)法滿(mǎn)足實(shí)際應(yīng)用的需求。

Perplexity AI 創(chuàng)始人之一的Aravind Srinivas表示，Sora雖然令人驚嘆，但其還沒(méi)有做好準(zhǔn)確模擬物理的準(zhǔn)備——正如Sora研究員在報(bào)告中提及的那樣。并且，行業(yè)并不能很快地在家庭清潔機(jī)器人上運(yùn)行這些巨大的“世界模擬器”的模擬推理。

浙商證券認(rèn)為，短期內(nèi)，Sora及同類(lèi)產(chǎn)品可大幅提升圖像和短視頻的制作效率，改變創(chuàng)意生產(chǎn)及營(yíng)銷(xiāo)工作流，提升短視頻產(chǎn)品生產(chǎn)力。對(duì)于業(yè)態(tài)更加復(fù)雜的長(zhǎng)視頻和游戲，受限于模型還無(wú)法準(zhǔn)確理解因果關(guān)系及其他技術(shù)難點(diǎn)，現(xiàn)階段或以提供美術(shù)靈感支持為主。

中長(zhǎng)期來(lái)看，浙商證券表示，Sora及同類(lèi)產(chǎn)品將參與到改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進(jìn)程中，PGC(專(zhuān)業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn)，UGC(用戶(hù)生成內(nèi)容)將借助AI 工具逐步替代PGC。此間，AI生成視頻工具的商業(yè)化將提速。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：[email protected]。

Sora刷屏視頻出現(xiàn)多處失誤 模擬真實(shí)世界仍需闖關(guān)

日期： 2024-02-19

來(lái)源：第一財(cái)經(jīng)

相關(guān)內(nèi)容

Sora刷屏視頻出現(xiàn)多處失誤模擬真實(shí)世界仍需闖關(guān)