《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 業(yè)界動態(tài) > AI 變聲范圍擴大,未來將是絕處逢生?

AI 變聲范圍擴大,,未來將是絕處逢生?

2019-06-17
關(guān)鍵詞: 變聲技術(shù) AI

  AI語音技術(shù)是AI的一個分支,,隨著AI技術(shù)的發(fā)展,AI語音技術(shù)也在突飛猛進換代升級。現(xiàn)在,,科大訊飛,、搜狗等科技公司相繼發(fā)布了語音合成技術(shù)的應(yīng)用。通過AI手段,,用戶可以一秒變聲為社會名人或者其他想要模仿的聲音,。

  AI的這種音色遷移技術(shù)可稱為變聲技術(shù),可以將任何人的聲音轉(zhuǎn)換成特定人的聲音(Any-to-One),。與國內(nèi)的IT公司比較起來,,搜狗公司的AI變聲功能已經(jīng)達到實用的階段。搜狗CEO王小川在一場大會上進行了展示,。通過手機軟件,,王小川用AI變聲模擬了高曉松和東北妹子的聲音,引得現(xiàn)場連連發(fā)笑,。

  比起AI之前的語音服務(wù),,如導(dǎo)航、智能音箱,、問題解讀等,,變聲技術(shù)是AI語音技術(shù)的重要升級,如果說之前的AI語音服務(wù)還在追求以什么樣的語音,,以及如何使AI的語音更像人的聲調(diào)和音色為用戶和公眾提供更好的服務(wù),那么現(xiàn)在的AI變聲技術(shù)則進一步擴大了AI的應(yīng)用范圍,,既有可能讓AI語音更好為公眾服務(wù),,也有可能讓AI語音步入歧途,成為詐騙的工具,。前者是向善和行善,,后者是從惡和行惡。

  AI的變聲技術(shù)是一種逼真的語音合成技術(shù),,它的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí),。神經(jīng)網(wǎng)絡(luò)模擬電信號在人腦神經(jīng)元之間的傳遞過程,對輸入數(shù)據(jù)進行處理,,從大量樣本數(shù)據(jù)中總結(jié)出共同特征,,再通過機器學(xué)習(xí)模擬特定人的聲音,達到以假亂真的效果,。顯然,,這樣的變音技術(shù)有很多用武之地,凡是可以采用語音或有聲服務(wù)的地方,,都可能獲得這類服務(wù)和應(yīng)用,,如語音交互、有聲讀物、新媒體,、智能客服,、大眾娛樂等。不過,,AI變聲技術(shù)的短板也是顯著的,,如果有人利用這種技術(shù)向任何特定的人打電話以扮演其親人、朋友,、同事,、上級的聲音,就會讓人難以辨別真假,。

  不過,,與AI變聲技術(shù)相似的另一種AI語音技術(shù)似乎向善的成分大一些,這就是“講話到面孔”技術(shù),,也可稱為“聞聲識人”技術(shù),。研究人員設(shè)計了一種智能軟件,把網(wǎng)上搜集的數(shù)百萬段教學(xué)和音像視頻中的每個人的面部特征與其講話的聲音特點匹配和相聯(lián),,形成一種可供計算機學(xué)習(xí)的大數(shù)據(jù),,通過深度學(xué)習(xí),這種智能軟件僅僅通過聽一個人的聲音就可以畫出(顯示)其相貌,,而且八九不離十,,但是,現(xiàn)在這種軟件還不成熟,。

  “講話到面孔”的AI語音技術(shù)完全可以應(yīng)用到刑事鑒識中,,可以與較早的模擬畫像技術(shù)一道成為刑事鑒識的補充技術(shù)。模擬畫像技術(shù)是基于找不到嫌疑人的影視資料,、聲音和照片,,或者是嫌疑人的圖像很模糊,只能通過受害人或目擊者的口述,,由刑偵人員畫出嫌疑人的相貌,。2017年6月9日,克里斯滕森殺害中國訪問學(xué)者章瑩穎,,在案件偵查之初,,美國聯(lián)邦調(diào)查局(FBI)就向擅長模擬畫像的中國警官林宇輝發(fā)出邀請,請他協(xié)助畫出嫌犯的畫像,,而當(dāng)時能提供的嫌犯圖片就來自街邊監(jiān)控攝像頭上的模糊截圖,。

  無論是AI變聲技術(shù),還是“講話到面孔”的AI語音(聞聲識人)技術(shù),,都是AI語音技術(shù)的升級,。技術(shù)是中立的,,關(guān)鍵在于如何使用這類技術(shù)。在這類技術(shù)應(yīng)用于社會生活和工作之前,,制定對其嚴(yán)格管理的措施極為緊迫和必須,。

  2019年4月,全國人大常委會審議的《民法典人格權(quán)編(草案)》里加了一條規(guī)定:任何組織和個人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán),。同樣,,如果AI語音技術(shù)發(fā)展了,也應(yīng)當(dāng)加上不得以信息技術(shù)手段偽造的方式侵害他人的聲音權(quán),,同時要單獨在人工智能立法中涉及AI合成不得侵犯他人的肖像權(quán),、聲音權(quán)等。任何未經(jīng)授權(quán)的合成肖像,、合成音頻均屬于侵權(quán)違法行為,。

  盡管如此,還是需要有一部明確的法律來規(guī)范包括語音,、肖像等在內(nèi)的AI新產(chǎn)品和應(yīng)用,,使其只能向善行善,而非向惡行惡,。

5d0728ff43114-thumb.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。