繪聲繪色：NVIDIA在Interspeech大會(huì)上分享情感語(yǔ)音合成研究成果-AET-電子技術(shù)應(yīng)用

繪聲繪色：NVIDIA在Interspeech大會(huì)上分享情感語(yǔ)音合成研究成果

日期： 2021-09-01

來(lái)源：互聯(lián)網(wǎng)

關(guān)鍵詞： NVIDIA AI 語(yǔ)音合成對(duì)話式AI

　　開發(fā)者和創(chuàng)作者可以使用最先進(jìn)的對(duì)話式AI模型進(jìn)行情感語(yǔ)音合成，為角色、虛擬助手和個(gè)性化形象生成聲音。

　　AI已將合成語(yǔ)音從單調(diào)的機(jī)器人呼叫和傳統(tǒng)GPS導(dǎo)航系統(tǒng)轉(zhuǎn)變成智能手機(jī)和智能音箱中動(dòng)聽的虛擬助手。

　　但AI合成語(yǔ)音與我們?cè)谌粘?duì)話和媒體中聽到的人類語(yǔ)音之間仍有差距。這是因?yàn)槿嗽谡f(shuō)話時(shí)會(huì)有復(fù)雜的節(jié)奏、音調(diào)和音色，而AI很難在這些方面進(jìn)行模仿。

　　但這一差距正在迅速縮小。NVIDIA研究人員正在創(chuàng)建高質(zhì)量、可控制的語(yǔ)音合成模型和工具，這些模型和工具能夠捕捉人類語(yǔ)音的豐富性，并且不會(huì)出現(xiàn)音頻雜音。

　　NVIDIA研究人員目前正在INTERSPEECH 2021大會(huì)上展示他們的最新項(xiàng)目。本屆大會(huì)將持續(xù)到9月3日。

　　這些模型有助于為銀行和零售商的自動(dòng)客戶服務(wù)熱線配音、使視頻游戲和書籍中的人物變得栩栩如生，并為數(shù)字化身提供實(shí)時(shí)語(yǔ)音合成。

　　NVIDIA的內(nèi)部創(chuàng)意團(tuán)隊(duì)甚至使用該技術(shù)為一個(gè)關(guān)于AI力量的系列視頻制作了動(dòng)人的解說(shuō)。

　　情感語(yǔ)音合成只是NVIDIA 研究院在對(duì)話式AI領(lǐng)域的重點(diǎn)工作之一。該領(lǐng)域還包括自然語(yǔ)言處理、自動(dòng)語(yǔ)音識(shí)別、關(guān)鍵詞檢測(cè)、音頻增強(qiáng)等。

　　這些前沿工作經(jīng)過(guò)優(yōu)化后可以在NVIDIA GPU上高效運(yùn)行，其中的一些工作已經(jīng)通過(guò)NVIDIA NeMo工具包開放源代碼，可在NVIDIA NGC 容器和其他軟件中心獲得。

　　I AM AI幕后花絮

　　NVIDIA研究人員和專業(yè)創(chuàng)作人員并不是在針對(duì)對(duì)話式AI進(jìn)行紙上談兵。他們通過(guò)身體力行，將突破性的語(yǔ)音合成模型應(yīng)用于I AM AI系列視頻中。該系列視頻介紹了重塑各個(gè)行業(yè)的全球 AI 創(chuàng)新者。

　　不久之前，這些視頻還都是由人類配音的。以前的語(yǔ)音合成模型對(duì)合成聲音節(jié)奏和音調(diào)的控制十分有限，因此AI配音無(wú)法喚起觀眾的情感反應(yīng)，只有富有感情的人類聲音才能做到這一點(diǎn)。

　　在過(guò)去的一年中，NVIDIA文本-語(yǔ)音研究團(tuán)隊(duì)開發(fā)出更強(qiáng)大、更可控的語(yǔ)音合成模型（如RAD-TTS），使得上述情況發(fā)生了變化。NVIDIA在SIGGRAPH Real-Time Live比賽中的獲獎(jiǎng)演示就采用了這個(gè)模型。通過(guò)使用人類語(yǔ)音音頻來(lái)訓(xùn)練文本-語(yǔ)音模型，RAD-TTS可以將任何文本轉(zhuǎn)換成說(shuō)話人的聲音。

　　該模型的另一項(xiàng)功能是語(yǔ)音轉(zhuǎn)換，即使用一名說(shuō)話人的聲音講述另一名說(shuō)話人的話語(yǔ)（甚至歌唱）。RAD-TTS界面的靈感來(lái)自于將人的聲音作為一種樂(lè)器這一創(chuàng)意。用戶可以使用它對(duì)合成聲音的音調(diào)、持續(xù)時(shí)間和強(qiáng)度進(jìn)行精細(xì)的幀級(jí)控制。

　　通過(guò)這個(gè)接口，視頻制作者可以在錄制中自行閱讀視頻文本，然后使用AI模型將他作為男敘述者的語(yǔ)音轉(zhuǎn)換成女?dāng)⑹稣叩穆曇簟Ｖ谱髡呖梢允褂眠@個(gè)基準(zhǔn)敘述，像指導(dǎo)配音演員一樣指示AI，比如通過(guò)調(diào)整合成語(yǔ)音來(lái)強(qiáng)調(diào)特定的詞語(yǔ)、修改敘述節(jié)奏以更好地表達(dá)視頻中的語(yǔ)氣等。

　　該AI模型的能力已超出了配音工作的范圍：文本-語(yǔ)音轉(zhuǎn)換可以用于游戲、為有聲音障礙的人提供幫助、或幫助用戶用自己的聲音進(jìn)行不同語(yǔ)言的敘述。它甚至可以重現(xiàn)標(biāo)志性歌手的表演，不僅能夠匹配歌曲的旋律，還能匹配人聲背后的情感表達(dá)。

　　為AI開發(fā)者和研究者提供強(qiáng)大的語(yǔ)音功能

　　NVIDIA NeMo是一款用于GPU加速對(duì)話式AI的開源Python工具包。研究者、開發(fā)者和創(chuàng)作者通過(guò)使用該工具包，能夠在自己的應(yīng)用實(shí)驗(yàn)和和微調(diào)語(yǔ)音模型方面取得先機(jī)。

　　NeMo中易于使用的API和預(yù)訓(xùn)練模型能夠幫助研究人員開發(fā)和自定義用于文本-語(yǔ)音轉(zhuǎn)換、自然語(yǔ)言處理和實(shí)時(shí)自動(dòng)語(yǔ)音識(shí)別的模型。其中幾個(gè)模型是在NVIDIA DGX 系統(tǒng)上使用數(shù)萬(wàn)小時(shí)的音頻數(shù)據(jù)訓(xùn)練而成。開發(fā)者可以根據(jù)自己的使用情況對(duì)任何模型進(jìn)行微調(diào)，運(yùn)用NVIDIA Tensor Core GPU上的混合精度計(jì)算加快訓(xùn)練速度。

　　NVIDIA NeMo還通過(guò)NGC提供在Mozilla Common Voice上訓(xùn)練的模型，該數(shù)據(jù)集擁有76種語(yǔ)言、近14000小時(shí)的眾包語(yǔ)音數(shù)據(jù)。該項(xiàng)目的目標(biāo)是在NVIDIA的支持下，通過(guò)全球最大的開源數(shù)據(jù)語(yǔ)音數(shù)據(jù)集實(shí)現(xiàn)語(yǔ)音技術(shù)的普及化。

　　語(yǔ)音技術(shù)的盛宴：NVIDIA研究人員展示AI語(yǔ)音技術(shù)的最新進(jìn)展

　　INTERSPEECH匯聚了1000多名研究人員，他們展示了語(yǔ)音技術(shù)方面的突破性進(jìn)展。在本周的會(huì)議上，NVIDIA研究院將展示對(duì)話式AI模型架構(gòu)以及供開發(fā)者使用的完全格式化語(yǔ)音數(shù)據(jù)集。

　　請(qǐng)關(guān)注以下由NVIDIA 嘉賓帶來(lái)的相關(guān)演講：

兼容任何場(chǎng)景的多麥克風(fēng)語(yǔ)音去混響 — 8月31日（周二）
SPGISpeech：用于完全格式化端到端語(yǔ)音識(shí)別的5000小時(shí)轉(zhuǎn)錄金融音頻 — 9月1日（周三）
Hi-Fi多講話者英語(yǔ)TTS數(shù)據(jù)集 — 9月1日（周三）
TalkNet 2：用于語(yǔ)音合成（具有明確音高和持續(xù)時(shí)間預(yù)測(cè)）的非自回歸深度可分離卷積模型 — 9月2日（周四）
使用稀疏隨機(jī)三元矩陣壓縮一維時(shí)間通道可分離卷積 — 9月3日（周五）
NeMo逆向文本正則化：從開發(fā)到生產(chǎn) — 9月3日（周五）

　　可在NGC目錄中搜索NeMo模型并收聽NVIDIA研究人員在 INTERSPEECH大會(huì)上的講座。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

繪聲繪色：NVIDIA在Interspeech大會(huì)上分享情感語(yǔ)音合成研究成果

日期： 2021-09-01

來(lái)源：互聯(lián)網(wǎng)

相關(guān)內(nèi)容