基于深度學(xué)習(xí)的詞語級中文唇語識別 | |
所屬分類:技術(shù)論文 | |
上傳者:aetmagazine | |
文檔大?。?span>653 K | |
標(biāo)簽: 唇語識別 ResNet Bi-LSTM | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:在無聲或噪聲干擾嚴(yán)重的環(huán)境下,或?qū)τ诖嬖诼犛X障礙的人群,,唇語識別至關(guān)重要,。針對詞語級中文唇語識別的問題,提出了SinoLipReadingNet模型,,前端采用Conv3D+ResNet34結(jié)構(gòu)用于時空特征提取,,后端分別采用Conv1D結(jié)構(gòu)和Bi-LSTM結(jié)構(gòu)用于分類預(yù)測,并引入Self-Attention,、CTCLoss對Bi-LSTM后端進(jìn)行改進(jìn),。最終在新網(wǎng)銀行唇語識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),,結(jié)果表明,SinoLipReadingNet模型在識別準(zhǔn)確率上明顯優(yōu)于中科院D3D模型,,多模型融合的預(yù)測準(zhǔn)確率達(dá)到了77.64%,,平均字錯率為21.68%。 | |
現(xiàn)在下載 | |
VIP會員,,AET專家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2