谷歌發(fā)布 AI 前沿成果 MusicLM，生成式 AI 迎來爆發(fā)-AET-電子技術(shù)應(yīng)用

谷歌發(fā)布 AI 前沿成果 MusicLM，生成式 AI 迎來爆發(fā)

日期： 2023-02-01

來源：出新研究

關(guān)鍵詞： 谷歌 AI MusicLM 機(jī)器人

當(dāng)?shù)貢r間 1 月 27 日，谷歌發(fā)布全新 AI 模型 ——MusicLM。通過 AI 模型 MusicLM，文字可以直接生成高保真的音樂。

這是繼文字生成 AI 模型 Wordcraft、視頻生成工具 Imagen Video 之后，谷歌又一次推出生成式 AI 模型工具，這一次谷歌將目標(biāo)瞄準(zhǔn)了音樂領(lǐng)域。

透過 MusicLM，不難看到，這兩年生成式 AI 賽道正在迎來爆發(fā)。

01、MusicLM 挑戰(zhàn)更復(fù)雜場景

谷歌最新推出的 AI 模型 MusicLM，可直接將文字、圖像自動生成音樂，并且曲風(fēng)多樣，凡是想聽的音樂，基本都能自動生成。

MusicLM 并非是第一個可自動生成音樂的 AI 模型，此前，可視化 AI 工具 Riffusion 也能自動創(chuàng)作音樂，還有 Dance Diffusion，此外，當(dāng)前最熱門的聊天機(jī)器人 ChatGPT 的研發(fā)者 OpenAI 也推出過 Jukebox。

但值得注意的是，這些可自動生成音樂的 AI 系統(tǒng)，受限于技術(shù)和數(shù)據(jù)等因素，創(chuàng)作的音樂都比較簡單，相對而言并不復(fù)雜。

和前輩們不同的是，MusicLM 可創(chuàng)作特別復(fù)雜和保真度特別高的音樂，也可通過圖像生成音樂。這算是實(shí)現(xiàn)了全新突破，通過 AI 技術(shù)不僅可以識別樂器，融合音樂流派，還可以通過更抽象的概念生成音樂。

比如，想要街機(jī)游戲配樂，只要輸入“街機(jī)游戲的主配樂，它節(jié)奏快且樂觀”等文字，MusicLM 便可自動生成音樂。MusicLM 也可通過圖像生成音樂，例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來源。

不過，值得一提的是，目前谷歌只是發(fā)布了 MusicLM 的研究成果，因?yàn)榘鏅?quán)等問題，谷歌還未向公眾開放 MusicLM。

02、AI 生成音樂難在哪？

去年 10 月，谷歌在生成式 AI 模型上已經(jīng)推出過 AudioLM，只需輸入短時音頻，就能生成相似風(fēng)格的音頻。彼時 AudioLM 只是純音頻模型，這個技術(shù)類似于語言模型，根據(jù)提示的語音內(nèi)容，自主判斷并生成相似內(nèi)容。

從這個角度看，AudioLM 可視為是 MusicLM 的前身。AudioLM 在不進(jìn)行轉(zhuǎn)錄或標(biāo)記的情況下，可以模仿音頻的音色、響度和清晰度等。但是，AudioLM 生成的音頻和原版并無太大區(qū)別，并未得到公開應(yīng)用。

通過 AI 模型創(chuàng)作音樂，這件事并不容易，因?yàn)樯傻囊魳钒ㄒ纛l信號、環(huán)境聲音、人的聲音等多個維度，是由很多信號相互作用形成的，而人體每次向外發(fā)出的聲音，無論聲音響度大小、音色好差，都由句法、音律等組成，這是非常復(fù)雜的綜合性系統(tǒng)。

也恰恰是這些原因，在早期的探索過程中，自動生成的音頻合成痕跡明顯，聲音聽起來并不自然，發(fā)音也都不標(biāo)準(zhǔn)。因此 AI 模型要想實(shí)現(xiàn)真正意義上的自動生成音頻，依靠海量的數(shù)據(jù)訓(xùn)練和模擬，是必不可少的基礎(chǔ)性步驟。

針對這些挑戰(zhàn)，作為 AudioLM 的“升級版”，MusicLM 的訓(xùn)練數(shù)據(jù)更加龐大。據(jù)了解，谷歌在 28 萬小時的音樂數(shù)據(jù)集中，才訓(xùn)練出 MusicLM，為理解深度和復(fù)雜的音樂場景提供了基礎(chǔ)。

此外值得一提的是，針對任務(wù)缺乏評估數(shù)據(jù)等問題，谷歌專門引入了 MusicCaps，用于文本到音樂的生成任務(wù)評估。

03、生成式 AI 迎來爆發(fā)

此次谷歌推出 MusicLM，可視為拓展 AI 應(yīng)用的注腳，背后則是生成式 AI 賽道的爆發(fā)。事實(shí)上，生成式 AI 一直是近兩年最炙手可熱的話題。

2021 年，OpenAI 相繼發(fā)布了劃時代的 DALL-E、DALL-E 2 模型，實(shí)現(xiàn)了文本生成圖像的跨越；去年，Meta 發(fā)布了 AI 短視頻生成模型 Make-A-Video，同樣可由文本內(nèi)容生成視頻；谷歌也發(fā)布了短視頻 AI 生成模型 Imagen Video 與 Phenaki。

不止是國外，國內(nèi)也有很多生成式 AI 應(yīng)用。比如，字節(jié)跳動旗下剪映 APP，可根據(jù)文字內(nèi)容自動生成匹配的視頻畫面。去年初，網(wǎng)易推出了“網(wǎng)易天音”，也是一站式 AI 音樂創(chuàng)作平臺，可將用戶編輯的內(nèi)容通過 AI 自動生成為歌曲。

可以看到，生成式 AI 應(yīng)用的場景越來越廣泛，寫作、繪畫、剪視頻等等，都可以通過 AI 技術(shù)實(shí)現(xiàn)。基于生成式 AI 廣泛的應(yīng)用前景，谷歌、微軟、Meta 等巨頭們紛紛推進(jìn)研發(fā)，將生成式 AI 技術(shù)融合到產(chǎn)品中，這加速了生成式 AI 賽道的爆發(fā)。

事實(shí)上，生成式 AI 高速發(fā)展并非是這兩年的事，只是因技術(shù)門檻過高，其前沿動態(tài)一直在科技圈小范圍流傳。直到 AI 繪畫、AI 寫作等頻繁出圈，生成式 AI 得到了更廣泛的關(guān)注。

生成式 AI 賽道爆發(fā)有必然原因，大數(shù)據(jù)和算法應(yīng)用越來越成熟，模型工具越來越完善，這都加速了生成式 AI 應(yīng)用的迭代。當(dāng)前，生成式 AI 已經(jīng)迎來爆發(fā)，未來還有巨大的發(fā)展?jié)摿Α８鶕?jù) Gartner 統(tǒng)計數(shù)據(jù)，預(yù)計到 2025 年，生成式 AI 將占所有生成數(shù)據(jù)的 10%，而目前的比例還不到 1%。

當(dāng)然，任何技術(shù)都是一把“雙刃劍”，生成式 AI 也面臨著版權(quán)問題等挑戰(zhàn)，此外還面臨由 AI 生成“錯誤”引發(fā)的各種損失，就目前來看，還離不開人為干預(yù)。但長期而言，生成式 AI 巨大的發(fā)展?jié)摿σ呀?jīng)成為共識。

更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

谷歌發(fā)布 AI 前沿成果 MusicLM，生成式 AI 迎來爆發(fā)

日期： 2023-02-01

來源：出新研究

相關(guān)內(nèi)容