融合CNN和Transformer編碼器的變聲語音鑒別與還原AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計資源平臺

融合CNN和Transformer編碼器的變聲語音鑒別與還原
所屬分類：技術(shù)論文
上傳者：zhoubin333
文檔大小：774 K
標(biāo)簽：基頻變聲語音鑒偽變聲還原
所需積分：0分積分不夠怎么辦？
文檔介紹：語音變聲偽裝會導(dǎo)致人耳感知和聲紋識別出現(xiàn)錯誤，從而達(dá)到隱匿說話人真實身份的目的。為削弱變聲語音的影響，提出一種融合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)和Transformer編碼器的模型，提取變聲語音的局部特征和全局特征用于判別變聲因子，并根據(jù)變聲因子的數(shù)值實施變聲語音還原。在中英文真實場景錄音數(shù)據(jù)集上驗證了所提方法的有效性，對變聲因子判別實現(xiàn)了95%以上的準(zhǔn)確率。利用所提出的方法，在黑箱條件下對某型商用硬件變聲器輸出的語音進(jìn)行鑒別與還原，取得了較好的效果。
現(xiàn)在下載
VIP會員，AET專家下載不扣分；重復(fù)下載不扣分，本人上傳資源不扣分。

活動