文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.233869
引用格式: 苑婧,周楊,,胡校飛,,等. 融合多教師模型的知識蒸餾文本分類[J]. 電子技術(shù)應(yīng)用,2023,,49(11):42-48.
【引言】
文本分類為輿情監(jiān)控、廣告推送,、挖掘社交媒體用戶的時空行為,、追蹤敏感信息發(fā)揮了重要作用,其主要任務(wù)是根據(jù)文本內(nèi)容或主題自動識別其所屬類別,。目前文本分類主要有機(jī)器學(xué)習(xí)[1],、深度學(xué)習(xí)[2]和預(yù)訓(xùn)練模型,其中預(yù)訓(xùn)練模型分類準(zhǔn)確率最高,。
深度學(xué)習(xí)模型通過捕捉文本的上下文特征完成文本分類任務(wù),,包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3],、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,,RNN)[4]、長短期記憶網(wǎng)絡(luò)(Long and Short Term Memory,,LSTM)[5],、門控循環(huán)單元(Gated Recurrent Unit GRU)[6]等。結(jié)合不同的模型可以有效提高模型的性能,,例如Sandhya結(jié)合長LSTM和RNN對文本文檔進(jìn)行特征提取[7],,陳可嘉[8]使用BiGRU-CNN模型結(jié)合自注意力機(jī)制進(jìn)行文本分類,均全面提取了文本的局部和整體特征,,提高了模型的準(zhǔn)確性,。
預(yù)訓(xùn)練文本分類模型模型使用大量無標(biāo)注語料,在多個自然語言處理任務(wù)中有著良好的效果[9],,包括Bert[10],、ELMo[11]、XLNet[12]等,。翟劍峰使用Bert模型用于用戶畫像[13],,王浩暢使用ELMo模型用于機(jī)器翻譯[14],李東金使用XLNet模型用于情感分析[15],。但是預(yù)訓(xùn)練模型參數(shù)量大,、結(jié)構(gòu)復(fù)雜、運(yùn)行時間長,在實(shí)際生產(chǎn)環(huán)境直接使用難度較大,,因此需在保證準(zhǔn)確率的前提下對模型進(jìn)行壓縮,。
合理的模型壓縮可以在保證準(zhǔn)確率的前提下有效降低模型參數(shù)量和內(nèi)存以提高實(shí)際應(yīng)用的時間效率[16],常見的模型壓縮方法包括網(wǎng)絡(luò)剪枝[17],、參數(shù)量化,、知識蒸餾[18]等。葉榕使用知識蒸餾的方法結(jié)合Bert和CNN模型用于新聞文本分類[19],,楊澤使用知識蒸餾的方法改進(jìn)網(wǎng)絡(luò)問答系統(tǒng)[20],,都在不影響準(zhǔn)確率的前提下,大大縮短了運(yùn)行時間,。
本文提出了一種多教師模型知識蒸餾的方法,,在不顯著降低性能的前提下,減小模型了的復(fù)雜度,。結(jié)合預(yù)訓(xùn)練模型XLNet和BERT-wwm-ext輸出的概率分布融合作為軟標(biāo)簽,,在訓(xùn)練過程中指導(dǎo)學(xué)生模型BiGRU-CNN網(wǎng)絡(luò),提高了模型的泛化能力,。
文章詳細(xì)內(nèi)容下載請點(diǎn)擊:融合多教師模型的知識蒸餾文本分類AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計資源平臺 (chinaaet.com)
【作者信息】
苑婧1,,周楊1,胡校飛1,,孫姝婭2,,張呈龍1,劉龍輝1
(1.戰(zhàn)略支援部隊信息工程大學(xué),, 河南 鄭州 450001;2.華北水利水電大學(xué),, 河南 鄭州 450000)