據(jù)報道,,谷歌正在組建一個新的團(tuán)隊,專注于開發(fā)可以模擬物理世界的人工智能模型,。
該團(tuán)隊的負(fù)責(zé)人是蒂姆·布魯克斯(Tim Brooks),,他原先是OpenAI視頻生成器Sora的聯(lián)合負(fù)責(zé)人之一,后于2024年10月離開OpenAI,,跳槽至谷歌的人工智能研究實驗室谷歌DeepMind,。
根據(jù)Brooks周一(1月6日)在社交媒體X上的最新發(fā)帖,他領(lǐng)導(dǎo)的這個新團(tuán)隊隸屬于DeepMind,,將致力于開發(fā)可以模擬物理世界的人工智能模型,。
Brooks寫道,“DeepMind有雄心勃勃的計劃,,要制造大規(guī)模的生成模型來模擬世界,。我正在招聘一個新的團(tuán)隊來完成這個任務(wù)?!?/p>
根據(jù)描述,,Brooks的新團(tuán)隊將著眼于開發(fā)“實時交互生成”工具,并研究如何將他們的模型與現(xiàn)有的多模式模型(如Gemini)集成,。
新的團(tuán)隊還將與谷歌現(xiàn)有的Gemini,、Veo和Genie團(tuán)隊合作,并以后者團(tuán)隊的工作為基礎(chǔ),,將模型擴(kuò)展到“最高水平的計算”,。
據(jù)了解,Gemini是谷歌的旗艦AI模型系列,,用于分析圖像和生成文本等任務(wù),;Veo是谷歌的視頻生成模型;至于Genie,,它是谷歌的基礎(chǔ)世界模型,,為用戶提供了前所未有的交互體驗,支持用戶借助文本,、合成圖像,、照片乃至草圖等方式,創(chuàng)造出可玩性強(qiáng)的交互式環(huán)境和可控的虛擬世界,。
去年12月,,谷歌還推出了升級版的Genie 2,能夠模擬出動作可控,、極具可玩性的逼真3D虛擬世界,。
世界模型
Brooks發(fā)布的工作描述是這樣寫的:“我們認(rèn)為,在視頻和多模態(tài)數(shù)據(jù)上擴(kuò)展人工智能訓(xùn)練是實現(xiàn)通用人工智能(AGI,,指能夠完成人類能完成的任何任務(wù)的人工智能)的關(guān)鍵途徑,。世界模型將為許多領(lǐng)域提供動力,,比如視覺推理和模擬、具體化代理的規(guī)劃以及實時互動娛樂,?!?/p>
“世界模型”是目前技術(shù)流派中難度最高的一種,其特點在于讓機(jī)器能夠像人類一樣對真實世界有一個全面而準(zhǔn)確的認(rèn)知,。
目前,,許多初創(chuàng)公司和大型科技公司都在追逐世界模型,包括有影響力的人工智能研究員李飛飛的World Labs,、以色列新貴Decart和初創(chuàng)公司Odyssey等,。他們認(rèn)為,世界模型有一天可以用來創(chuàng)建互動媒體,,如視頻游戲和電影,,并運行逼真的模擬,如機(jī)器人訓(xùn)練環(huán)境,。
不過,,世界模型的發(fā)展似乎對一些創(chuàng)意人士并不友好。
著名雜志《連線》最近的一項調(diào)查發(fā)現(xiàn),,像動視暴雪(Activision Blizzard)這樣的游戲工作室,已經(jīng)解雇了大量員工,,而他們正在利用人工智能來提高生產(chǎn)率,,并彌補(bǔ)人員流失。美國動畫協(xié)會在2024年委托進(jìn)行的一項研究估計,,到2026年,,美國將有超過10萬個電影、電視和動畫工作崗位被人工智能取代,。
相較于被取代,,合作似乎是一種更友好的方式。一些新興的世界模特領(lǐng)域的初創(chuàng)公司,,比如Odyssey,,已經(jīng)承諾與有創(chuàng)意的專業(yè)人士合作。這是否會成為谷歌的做法,,仍有待觀察,。
另外,對于世界模型而言,,版權(quán)問題懸而未決,。一些世界模型是根據(jù)視頻游戲播放的片段進(jìn)行訓(xùn)練的,這可能會使開發(fā)這些模型的公司在視頻未經(jīng)許可的情況下成為訴訟的目標(biāo),。
而擁有Youtube的谷歌聲稱,,根據(jù)平臺的服務(wù)條款,,它有權(quán)基于YouTube視頻訓(xùn)練自己的模型。但該公司并未透露將為培訓(xùn)采購哪些具體視頻,。