當(dāng)?shù)貢r(shí)間 1 月 27 日,,谷歌發(fā)布全新 AI 模型 ——MusicLM,。通過(guò) AI 模型 MusicLM,,文字可以直接生成高保真的音樂(lè)。
這是繼文字生成 AI 模型 Wordcraft,、視頻生成工具 Imagen Video 之后,,谷歌又一次推出生成式 AI 模型工具,這一次谷歌將目標(biāo)瞄準(zhǔn)了音樂(lè)領(lǐng)域,。
透過(guò) MusicLM,,不難看到,這兩年生成式 AI 賽道正在迎來(lái)爆發(fā),。
01,、MusicLM 挑戰(zhàn)更復(fù)雜場(chǎng)景
谷歌最新推出的 AI 模型 MusicLM,可直接將文字,、圖像自動(dòng)生成音樂(lè),,并且曲風(fēng)多樣,凡是想聽(tīng)的音樂(lè),,基本都能自動(dòng)生成,。
MusicLM 并非是第一個(gè)可自動(dòng)生成音樂(lè)的 AI 模型,此前,,可視化 AI 工具 Riffusion 也能自動(dòng)創(chuàng)作音樂(lè),,還有 Dance Diffusion,此外,,當(dāng)前最熱門(mén)的聊天機(jī)器人 ChatGPT 的研發(fā)者 OpenAI 也推出過(guò) Jukebox,。
但值得注意的是,這些可自動(dòng)生成音樂(lè)的 AI 系統(tǒng),,受限于技術(shù)和數(shù)據(jù)等因素,,創(chuàng)作的音樂(lè)都比較簡(jiǎn)單,相對(duì)而言并不復(fù)雜,。
和前輩們不同的是,,MusicLM 可創(chuàng)作特別復(fù)雜和保真度特別高的音樂(lè),也可通過(guò)圖像生成音樂(lè),。這算是實(shí)現(xiàn)了全新突破,,通過(guò) AI 技術(shù)不僅可以識(shí)別樂(lè)器,融合音樂(lè)流派,,還可以通過(guò)更抽象的概念生成音樂(lè),。
比如,想要街機(jī)游戲配樂(lè),,只要輸入“街機(jī)游戲的主配樂(lè),,它節(jié)奏快且樂(lè)觀”等文字,MusicLM 便可自動(dòng)生成音樂(lè),。MusicLM 也可通過(guò)圖像生成音樂(lè),,例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來(lái)源。
不過(guò),,值得一提的是,,目前谷歌只是發(fā)布了 MusicLM 的研究成果,因?yàn)榘鏅?quán)等問(wèn)題,,谷歌還未向公眾開(kāi)放 MusicLM,。
02、AI 生成音樂(lè)難在哪,?
去年 10 月,,谷歌在生成式 AI 模型上已經(jīng)推出過(guò) AudioLM,只需輸入短時(shí)音頻,,就能生成相似風(fēng)格的音頻,。彼時(shí) AudioLM 只是純音頻模型,這個(gè)技術(shù)類(lèi)似于語(yǔ)言模型,,根據(jù)提示的語(yǔ)音內(nèi)容,,自主判斷并生成相似內(nèi)容。
從這個(gè)角度看,,AudioLM 可視為是 MusicLM 的前身,。AudioLM 在不進(jìn)行轉(zhuǎn)錄或標(biāo)記的情況下,可以模仿音頻的音色,、響度和清晰度等,。但是,AudioLM 生成的音頻和原版并無(wú)太大區(qū)別,,并未得到公開(kāi)應(yīng)用,。
通過(guò) AI 模型創(chuàng)作音樂(lè),這件事并不容易,,因?yàn)樯傻囊魳?lè)包括音頻信號(hào),、環(huán)境聲音、人的聲音等多個(gè)維度,,是由很多信號(hào)相互作用形成的,,而人體每次向外發(fā)出的聲音,,無(wú)論聲音響度大小、音色好差,,都由句法,、音律等組成,這是非常復(fù)雜的綜合性系統(tǒng),。
也恰恰是這些原因,,在早期的探索過(guò)程中,自動(dòng)生成的音頻合成痕跡明顯,,聲音聽(tīng)起來(lái)并不自然,,發(fā)音也都不標(biāo)準(zhǔn)。因此 AI 模型要想實(shí)現(xiàn)真正意義上的自動(dòng)生成音頻,,依靠海量的數(shù)據(jù)訓(xùn)練和模擬,,是必不可少的基礎(chǔ)性步驟。
針對(duì)這些挑戰(zhàn),,作為 AudioLM 的“升級(jí)版”,,MusicLM 的訓(xùn)練數(shù)據(jù)更加龐大。據(jù)了解,,谷歌在 28 萬(wàn)小時(shí)的音樂(lè)數(shù)據(jù)集中,,才訓(xùn)練出 MusicLM,為理解深度和復(fù)雜的音樂(lè)場(chǎng)景提供了基礎(chǔ),。
此外值得一提的是,,針對(duì)任務(wù)缺乏評(píng)估數(shù)據(jù)等問(wèn)題,谷歌專(zhuān)門(mén)引入了 MusicCaps,,用于文本到音樂(lè)的生成任務(wù)評(píng)估,。
03、生成式 AI 迎來(lái)爆發(fā)
此次谷歌推出 MusicLM,,可視為拓展 AI 應(yīng)用的注腳,,背后則是生成式 AI 賽道的爆發(fā)。事實(shí)上,,生成式 AI 一直是近兩年最炙手可熱的話題,。
2021 年,OpenAI 相繼發(fā)布了劃時(shí)代的 DALL-E,、DALL-E 2 模型,,實(shí)現(xiàn)了文本生成圖像的跨越;去年,,Meta 發(fā)布了 AI 短視頻生成模型 Make-A-Video,,同樣可由文本內(nèi)容生成視頻;谷歌也發(fā)布了短視頻 AI 生成模型 Imagen Video 與 Phenaki。
不止是國(guó)外,,國(guó)內(nèi)也有很多生成式 AI 應(yīng)用,。比如,字節(jié)跳動(dòng)旗下剪映 APP,,可根據(jù)文字內(nèi)容自動(dòng)生成匹配的視頻畫(huà)面,。去年初,網(wǎng)易推出了“網(wǎng)易天音”,,也是一站式 AI 音樂(lè)創(chuàng)作平臺(tái),可將用戶編輯的內(nèi)容通過(guò) AI 自動(dòng)生成為歌曲,。
可以看到,,生成式 AI 應(yīng)用的場(chǎng)景越來(lái)越廣泛,寫(xiě)作,、繪畫(huà),、剪視頻等等,都可以通過(guò) AI 技術(shù)實(shí)現(xiàn),?;谏墒?AI 廣泛的應(yīng)用前景,谷歌,、微軟,、Meta 等巨頭們紛紛推進(jìn)研發(fā),將生成式 AI 技術(shù)融合到產(chǎn)品中,,這加速了生成式 AI 賽道的爆發(fā),。
事實(shí)上,生成式 AI 高速發(fā)展并非是這兩年的事,,只是因技術(shù)門(mén)檻過(guò)高,,其前沿動(dòng)態(tài)一直在科技圈小范圍流傳。直到 AI 繪畫(huà),、AI 寫(xiě)作等頻繁出圈,,生成式 AI 得到了更廣泛的關(guān)注。
生成式 AI 賽道爆發(fā)有必然原因,,大數(shù)據(jù)和算法應(yīng)用越來(lái)越成熟,,模型工具越來(lái)越完善,這都加速了生成式 AI 應(yīng)用的迭代,。當(dāng)前,,生成式 AI 已經(jīng)迎來(lái)爆發(fā),未來(lái)還有巨大的發(fā)展?jié)摿?。根?jù) Gartner 統(tǒng)計(jì)數(shù)據(jù),,預(yù)計(jì)到 2025 年,生成式 AI 將占所有生成數(shù)據(jù)的 10%,而目前的比例還不到 1%,。
當(dāng)然,,任何技術(shù)都是一把“雙刃劍”,生成式 AI 也面臨著版權(quán)問(wèn)題等挑戰(zhàn),,此外還面臨由 AI 生成“錯(cuò)誤”引發(fā)的各種損失,,就目前來(lái)看,還離不開(kāi)人為干預(yù),。但長(zhǎng)期而言,,生成式 AI 巨大的發(fā)展?jié)摿σ呀?jīng)成為共識(shí)。
更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<