文獻(xiàn)標(biāo)識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 劉偉,孫蒙,,張玥,,等. 正交約束型SincNet可微分前端及在音頻分類中的應(yīng)用[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,,41(2):92-98.
0 引言
音頻分類是計算機自動實施聽覺感知和理解的重要步驟,,也是一項非常具有挑戰(zhàn)性的任務(wù),,如自動音樂標(biāo)記、音樂類型分類,、說話人識別,、音頻場景分類和多媒體檢索等。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展使得音頻分類任務(wù)的準(zhǔn)確率取得了顯著提升,。當(dāng)前,,深度神經(jīng)網(wǎng)絡(luò)一般是建立在對輸入音頻提取時頻特征等預(yù)處理的基礎(chǔ)上,如首先通過廣泛使用的梅爾濾波器組提取時頻譜圖特征,,然后將時頻譜圖特征輸入到各種后端分類網(wǎng)絡(luò),。
特征提取的預(yù)處理過程通常采用固定的時頻參數(shù)和濾波器類型,難以保證對所有的后端分類網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)提取出最優(yōu)特征,。此外,,這些預(yù)處理過程一般需要線下完成,不能無縫對接到神經(jīng)網(wǎng)絡(luò)分類器中,,因此難以適用于一些需要對聲音波形進(jìn)行反向求導(dǎo)的任務(wù),如求解對抗樣本[1]等,。這些局限性推動了研究者們尋求構(gòu)建端到端模型來完成音頻分類任務(wù),。所謂端到端的分類網(wǎng)絡(luò)結(jié)構(gòu)是指直接輸入聲音波形,然后輸出類別標(biāo)簽,,而無須用戶通過額外的特征提取工具來提取特征,。例如,Dai等提出了具有不同網(wǎng)絡(luò)結(jié)構(gòu)和不同數(shù)量參數(shù)的端到端卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,,CNN)用于音頻分類[2],。Tokozume等提出了一種含有8層網(wǎng)絡(luò)并以原始波形為輸入的端到端網(wǎng)絡(luò)結(jié)構(gòu),通過調(diào)節(jié)超參數(shù)并選擇適當(dāng)大小的卷積核來提高分類性能[3],。此外,,還有端到端的CNN架構(gòu)AclNet[4],,受到MobileNet[5]的啟發(fā),其計算僅需155k參數(shù)和每秒4 930萬次乘法加法即可高效完成分類任務(wù),。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000004865
作者信息:
劉 偉,,孫 蒙,張 玥,,張雄偉
(中國人民解放軍陸軍工程大學(xué),,江蘇 南京210007)