AI 變聲范圍擴(kuò)大，未來(lái)將是絕處逢生？-AET-電子技術(shù)應(yīng)用

AI 變聲范圍擴(kuò)大，未來(lái)將是絕處逢生？

日期： 2019-06-17

關(guān)鍵詞： 變聲技術(shù) AI

　　AI語(yǔ)音技術(shù)是AI的一個(gè)分支，隨著AI技術(shù)的發(fā)展，AI語(yǔ)音技術(shù)也在突飛猛進(jìn)換代升級(jí)。現(xiàn)在，科大訊飛、搜狗等科技公司相繼發(fā)布了語(yǔ)音合成技術(shù)的應(yīng)用。通過(guò)AI手段，用戶(hù)可以一秒變聲為社會(huì)名人或者其他想要模仿的聲音。

　　AI的這種音色遷移技術(shù)可稱(chēng)為變聲技術(shù)，可以將任何人的聲音轉(zhuǎn)換成特定人的聲音（Any-to-One）。與國(guó)內(nèi)的IT公司比較起來(lái)，搜狗公司的AI變聲功能已經(jīng)達(dá)到實(shí)用的階段。搜狗CEO王小川在一場(chǎng)大會(huì)上進(jìn)行了展示。通過(guò)手機(jī)軟件，王小川用AI變聲模擬了高曉松和東北妹子的聲音，引得現(xiàn)場(chǎng)連連發(fā)笑。

　　比起AI之前的語(yǔ)音服務(wù)，如導(dǎo)航、智能音箱、問(wèn)題解讀等，變聲技術(shù)是AI語(yǔ)音技術(shù)的重要升級(jí)，如果說(shuō)之前的AI語(yǔ)音服務(wù)還在追求以什么樣的語(yǔ)音，以及如何使AI的語(yǔ)音更像人的聲調(diào)和音色為用戶(hù)和公眾提供更好的服務(wù)，那么現(xiàn)在的AI變聲技術(shù)則進(jìn)一步擴(kuò)大了AI的應(yīng)用范圍，既有可能讓AI語(yǔ)音更好為公眾服務(wù)，也有可能讓AI語(yǔ)音步入歧途，成為詐騙的工具。前者是向善和行善，后者是從惡和行惡。

　　AI的變聲技術(shù)是一種逼真的語(yǔ)音合成技術(shù)，它的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過(guò)程，對(duì)輸入數(shù)據(jù)進(jìn)行處理，從大量樣本數(shù)據(jù)中總結(jié)出共同特征，再通過(guò)機(jī)器學(xué)習(xí)模擬特定人的聲音，達(dá)到以假亂真的效果。顯然，這樣的變音技術(shù)有很多用武之地，凡是可以采用語(yǔ)音或有聲服務(wù)的地方，都可能獲得這類(lèi)服務(wù)和應(yīng)用，如語(yǔ)音交互、有聲讀物、新媒體、智能客服、大眾娛樂(lè)等。不過(guò)，AI變聲技術(shù)的短板也是顯著的，如果有人利用這種技術(shù)向任何特定的人打電話(huà)以扮演其親人、朋友、同事、上級(jí)的聲音，就會(huì)讓人難以辨別真假。

　　不過(guò)，與AI變聲技術(shù)相似的另一種AI語(yǔ)音技術(shù)似乎向善的成分大一些，這就是“講話(huà)到面孔”技術(shù)，也可稱(chēng)為“聞聲識(shí)人”技術(shù)。研究人員設(shè)計(jì)了一種智能軟件，把網(wǎng)上搜集的數(shù)百萬(wàn)段教學(xué)和音像視頻中的每個(gè)人的面部特征與其講話(huà)的聲音特點(diǎn)匹配和相聯(lián)，形成一種可供計(jì)算機(jī)學(xué)習(xí)的大數(shù)據(jù)，通過(guò)深度學(xué)習(xí)，這種智能軟件僅僅通過(guò)聽(tīng)一個(gè)人的聲音就可以畫(huà)出（顯示）其相貌，而且八九不離十，但是，現(xiàn)在這種軟件還不成熟。

　　“講話(huà)到面孔”的AI語(yǔ)音技術(shù)完全可以應(yīng)用到刑事鑒識(shí)中，可以與較早的模擬畫(huà)像技術(shù)一道成為刑事鑒識(shí)的補(bǔ)充技術(shù)。模擬畫(huà)像技術(shù)是基于找不到嫌疑人的影視資料、聲音和照片，或者是嫌疑人的圖像很模糊，只能通過(guò)受害人或目擊者的口述，由刑偵人員畫(huà)出嫌疑人的相貌。2017年6月9日，克里斯滕森殺害中國(guó)訪(fǎng)問(wèn)學(xué)者章瑩穎，在案件偵查之初，美國(guó)聯(lián)邦調(diào)查局（FBI）就向擅長(zhǎng)模擬畫(huà)像的中國(guó)警官林宇輝發(fā)出邀請(qǐng)，請(qǐng)他協(xié)助畫(huà)出嫌犯的畫(huà)像，而當(dāng)時(shí)能提供的嫌犯圖片就來(lái)自街邊監(jiān)控?cái)z像頭上的模糊截圖。

　　無(wú)論是AI變聲技術(shù)，還是“講話(huà)到面孔”的AI語(yǔ)音（聞聲識(shí)人）技術(shù)，都是AI語(yǔ)音技術(shù)的升級(jí)。技術(shù)是中立的，關(guān)鍵在于如何使用這類(lèi)技術(shù)。在這類(lèi)技術(shù)應(yīng)用于社會(huì)生活和工作之前，制定對(duì)其嚴(yán)格管理的措施極為緊迫和必須。

　　2019年4月，全國(guó)人大常委會(huì)審議的《民法典人格權(quán)編（草案）》里加了一條規(guī)定：任何組織和個(gè)人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán)。同樣，如果AI語(yǔ)音技術(shù)發(fā)展了，也應(yīng)當(dāng)加上不得以信息技術(shù)手段偽造的方式侵害他人的聲音權(quán)，同時(shí)要單獨(dú)在人工智能立法中涉及AI合成不得侵犯他人的肖像權(quán)、聲音權(quán)等。任何未經(jīng)授權(quán)的合成肖像、合成音頻均屬于侵權(quán)違法行為。

　　盡管如此，還是需要有一部明確的法律來(lái)規(guī)范包括語(yǔ)音、肖像等在內(nèi)的AI新產(chǎn)品和應(yīng)用，使其只能向善行善，而非向惡行惡。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：[email protected]。

AI 變聲范圍擴(kuò)大，未來(lái)將是絕處逢生？

日期： 2019-06-17

相關(guān)內(nèi)容