文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190248
中文引用格式: 殷曉雨,,阿力木江·艾沙,,庫爾班·吾布力. 基于卷積遞歸模型的文本分類研究[J].電子技術(shù)應(yīng)用,2019,,45(10):29-32,,36.
英文引用格式: Yin Xiaoyu,Alimjan Aysa,,Kurban Ubul. Research of text classification based on convolution recursive model[J]. Application of Electronic Technique,,2019,45(10):29-32,,36.
0 引言
隨著人類一直以來在互聯(lián)網(wǎng)上產(chǎn)生的非結(jié)構(gòu)化文本數(shù)據(jù)量的不斷增長,,迫切需要更加智能地處理這些龐大的數(shù)據(jù)并從中提取不同類型的知識,。自然語言處理(Natural Language Processing,NLP)是計算機(jī)科學(xué)領(lǐng)域的一個廣泛的研究領(lǐng)域,它關(guān)注計算機(jī)與人類語言之間的交互過程,。文本分類在許多NLP應(yīng)用程序中起著重要作用,,例如垃圾郵件過濾、電子郵件分類,、信息檢索、Web搜索以及排名和文檔分類[1-2],,在這些功能中都需要將預(yù)定義類別分配給序列文本,。文本分類關(guān)注的核心問題是文本中詞語的表示以及分類模型的選擇。相比較傳統(tǒng)的文本分類方法,,深度學(xué)習(xí)文本分類框架不需要人為地獲取特征,,并且具有更好的分類準(zhǔn)確率以及更高的效率,因而在自然語言處理領(lǐng)域獲得越來越廣泛的應(yīng)用,。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,,CNN)最初在計算機(jī)視覺領(lǐng)域取得了非常成功的結(jié)果。CNN將特征提取和分類視為一個聯(lián)合任務(wù),。通過堆疊多個卷積和池化層來改進(jìn)這一過程,,并且充分利用其多層感知器的結(jié)構(gòu),具備了學(xué)習(xí)高維,、復(fù)雜和非線性映射關(guān)系的能力,,在語音識別以及圖像領(lǐng)域都取得了很好的成果。KIM Y[3]等人提出將文本中經(jīng)過預(yù)處理的詞向量組合為二維的詞向量矩陣,,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,,通過卷積池化等操作來提取文本局部特征,從而實(shí)現(xiàn)句子級別的文本分類,。雖然卷積神經(jīng)網(wǎng)絡(luò)模型為文本分類研究打開了新的研究方向并且取得了顯著的成果,,但是卷積神經(jīng)網(wǎng)絡(luò)過于關(guān)注局部特征而忽略詞序以及語法結(jié)構(gòu),也對其分類準(zhǔn)確率造成了一定的影響,。所以本文中引用卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,,RNN)[4]來解決單獨(dú)卷積神經(jīng)網(wǎng)絡(luò)忽略全局特征的問題。
本文所提出的架構(gòu)受到最近RNN在NLP應(yīng)用中的成功以及RNN即使只有一個單層也可以捕獲長期依賴性這一事實(shí)的啟發(fā)[5],。NLP的大多數(shù)深度學(xué)習(xí)架構(gòu)需要堆疊許多層來捕獲由于卷積和池化層的局部性而導(dǎo)致的長期依賴性[6],。因而本文研究了長短時記憶網(wǎng)絡(luò)(LSTM)作為卷積神經(jīng)網(wǎng)絡(luò)語言模型中池化層的替代方法,以執(zhí)行短文本的情感分析,。本文將提出一種聯(lián)合CNN和RNN的架構(gòu),,它將CNN提取的局部特征作為RNN的輸入,用于短文本的情感分析,。本文的主要貢獻(xiàn):利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的池化層,,通過卷積結(jié)構(gòu)提取的局部特征和LSTM模型獲得長期依賴關(guān)系,以較少的參數(shù)并實(shí)現(xiàn)有競爭力的結(jié)果[7],并在反復(fù)試驗(yàn)后實(shí)現(xiàn)對這一模型參數(shù)的優(yōu)化,。
1 模型結(jié)構(gòu)
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)是一種包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),,是深度學(xué)習(xí)的代表算法之一[8],通常包含輸入層,、卷積層,、池化層、全連接層以及輸出層等,。本文利用卷積神經(jīng)網(wǎng)絡(luò)模型提取文本的局部特征,,通過反向傳播算法進(jìn)行參數(shù)優(yōu)化[9]。由KIM Y提出的CNN短文本分類模型如圖1所示,。
(1)輸入層,。輸入層是由句子中詞語的詞向量組成的詞向量矩陣。本文為了實(shí)現(xiàn)文本單詞特征的提取盡可能地保留其所在語句中的含義,,因而將每條文本中所有的詞向量縱向堆疊得到二維的文本向量矩陣[10],。主要是利用Word2vec將詞W(i)轉(zhuǎn)換為詞向量V(W(i)),并且將詞W(i)組成的句子映射成為句子矩陣Sj,,假設(shè)詞向量的維度為n,,這個句包含詞的數(shù)量為k,因此該文本中包含k個子矩陣的大小就是n×k,。
(2)卷積層,。卷積層通過一組不同大小的卷積核(Fliter)r×k對句子矩陣Sj進(jìn)行卷積運(yùn)算操作,提取的局部特征:
其中,,F(xiàn)代表r×k大小的的卷積核,,b表示偏置量,f表示非線性激活函數(shù),,ci表示通過卷積操作得到的局部特征,。隨著卷積核以步長為1從上向下掃描完整個詞向量矩陣后,最終會得到局部特征向量集合C:
其中,,h是卷積層參數(shù),,對應(yīng)卷積步長。
(3)池化層,。池化層主要負(fù)責(zé)對卷積層的輸出進(jìn)行保留壓縮,,進(jìn)一步減少參數(shù)數(shù)量并提取主要特征,它通常包括平均池化和最大池化,,本文選取最大池化操作,,通過調(diào)整k-max池化窗口參數(shù)來提取特征矩陣中最具有價值的重要信息,。
(4)輸出層,。將池化層的所有輸出特征在全連接層組合輸出為向量U,之后通過softmax分類器計算文本在各個類別下的概率,,最終模型利用實(shí)際的分類標(biāo)簽,通過反向傳播算法進(jìn)行模型參數(shù)的優(yōu)化[11],。
其中,,y代表目標(biāo)輸出的實(shí)際分類。
1.2 長短時記憶網(wǎng)絡(luò)
為了在文本中獲得較長的序列信息,,僅僅依賴于卷積神經(jīng)網(wǎng)絡(luò)是難以實(shí)現(xiàn)的,,因此自然語言處理中更常用到循環(huán)神經(jīng)網(wǎng)絡(luò)。它利用定向循環(huán)操作將前一刻的隱層狀態(tài)參與下一時刻隱層狀態(tài)的計算,,從而解決了輸入間的前后關(guān)聯(lián)問題[12],。
長短期記憶網(wǎng)絡(luò)(Long Short_Term Memory Network,LSTM)[13]是一種特殊的RNN,,其核心是利用記憶細(xì)胞記住長期的歷史信息和門機(jī)制進(jìn)行管理,從而更新每一層的隱狀態(tài),。LSTM遞歸神經(jīng)網(wǎng)絡(luò)的隱藏層向前公式可表示為:
1.3 融合模型
文本分類特征融合模型由卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)組成,。第一層是嵌入層,將輸入文本轉(zhuǎn)換為可供處理的詞向量矩陣,,矩陣的列數(shù)就是詞向量的維度,,行數(shù)就是單詞序列的長度。
對其進(jìn)行卷積操作,,通過文獻(xiàn)[15]中對基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)的研究,,本文經(jīng)過分析測試后認(rèn)為,當(dāng)詞向量取100維,,且卷積核分別設(shè)置為3×100,、4×100、5×100時,,卷積神經(jīng)網(wǎng)絡(luò)會取得比較好的分類效果,。在得到卷積運(yùn)算所產(chǎn)生特征向量矩陣之后,將其作為輸入直接進(jìn)入長短時記憶網(wǎng)絡(luò)以捕獲文本的長期依賴關(guān)系,,提取文本中的全局性特征,。卷積循環(huán)網(wǎng)絡(luò)模型圖如圖2所示。
將融合后的特征保存在output中,,再連接第二個全連接層,,其中θ代表函數(shù)的輸入向量,在第二個全連接層之后使用dropout機(jī)制,,舍棄每次訓(xùn)練中得到的部分參數(shù),,且dropout參數(shù)設(shè)置為0.5,防止過擬合,,將最后將得到的結(jié)果輸入到softmax函數(shù)中得到x被分類成j類的概率計算公式為:
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境參數(shù)配置如表1所示,。
2.2 實(shí)驗(yàn)數(shù)據(jù)
本文的數(shù)據(jù)集為斯坦福大學(xué)的大型標(biāo)準(zhǔn)互聯(lián)網(wǎng)電影資料庫IMDB,,是英文情感分析的標(biāo)準(zhǔn)試驗(yàn)數(shù)據(jù),其任務(wù)是判斷電影評論是正面還是負(fù)面的,。IMDB數(shù)據(jù)集有5萬條來自網(wǎng)絡(luò)電影數(shù)據(jù)庫的評論,,其中2.5萬用來訓(xùn)練,2.5萬用來測試,,每個部分正負(fù)評論各占50%,。使用15%已經(jīng)標(biāo)注過的文檔作為驗(yàn)證數(shù)據(jù)。
IMDB數(shù)據(jù)集是Keras內(nèi)部集成的,,初次使用需下載導(dǎo)入,,之后便可以直接使用,并且該數(shù)據(jù)集已經(jīng)經(jīng)過預(yù)處理,,所有的影評文本已經(jīng)被轉(zhuǎn)換為整數(shù)序列,。在輸入神經(jīng)網(wǎng)絡(luò)前首先要將整數(shù)列表轉(zhuǎn)換為詞向量,將文本轉(zhuǎn)化為低維,、稠密的詞向量矩陣,。目前有很多詞向量訓(xùn)練工具,最具代表性的是斯坦福大學(xué)的Glove以及Google發(fā)布的Word2Vec等,。
2.3 實(shí)驗(yàn)參數(shù)
通過使用隨機(jī)最速下降法SGD訓(xùn)練網(wǎng)絡(luò)以及反向傳播算法來計算梯度,。本文通過添加一個循環(huán)層模型作為池化層的替代,有效地減少所需的卷積層數(shù)并捕獲長期依賴關(guān)系,。因此,,本文考慮將卷積和循環(huán)層合并為一個單獨(dú)的模型。本架構(gòu)目標(biāo)是減少網(wǎng)絡(luò)中的多個卷積和池化層堆疊數(shù)量并進(jìn)一步減少局部詳細(xì)信息的丟失,。從而,,在提出的模型中,卷積核的大小設(shè)置為3×256,、4×256,、5×256,使用ReLU作為激活函數(shù),。對于循環(huán)層LSTM,,本文將其隱藏層的參數(shù)設(shè)置為128,訓(xùn)練迭代數(shù)量為50,。表2中顯示了所提出的架構(gòu)的所選參數(shù)值,。
2.4 實(shí)驗(yàn)結(jié)果及分析
為了驗(yàn)證本文所提出的CNN與LSTM融合模型的分類性能,分別將本文中的模型與單獨(dú)CNN模型,、LSTM模型,、傳統(tǒng)分類模型以及其他文本分類模型做了比較試驗(yàn)。
圖3~圖5分別給出了3層CNN模型,、單LSTM模型以及融合模型的準(zhǔn)確率,。單獨(dú)模型與融合模型準(zhǔn)確率對比如表3所示,。從表3中可知,本文所提出的融合模型在準(zhǔn)確率方面要優(yōu)于單獨(dú)的卷積神經(jīng)網(wǎng)絡(luò)模型以及LSTM模型,。通過卷積神經(jīng)網(wǎng)絡(luò)提取局部特征之后,,直接將文本的局部特征作為長短時記憶網(wǎng)絡(luò)的輸入,可以取得比單獨(dú)模型更高的分類準(zhǔn)確率,。
本文不僅與單獨(dú)文本分類模型進(jìn)行對比,,還與傳統(tǒng)的機(jī)器學(xué)習(xí)算法SVM以及其他模型進(jìn)行比較。通過表4可以看出,,文獻(xiàn)[15]提出的基于風(fēng)險最小化的分類決策樹雖然在原有的基礎(chǔ)上有了較大進(jìn)步,,但本文所提出的融合模型在分類準(zhǔn)確率上顯然效果更好。
在用LSTM進(jìn)行分類時,,由于需要將全部的文本特征信息編碼到隱藏層中,,顯然這種長距離特征依賴對于長文本的效果更為明顯,在加入了注意力機(jī)制之后顯然對LSTM的準(zhǔn)確率有較為顯著的影響,,但本文所提出的的融合模型通過卷積計算提取局部特征和LSTM兼顧文本序列以及語法結(jié)構(gòu)的長距離特征在分類效果上表現(xiàn)要更好,,本文所提出的文本特征融合模型的確可以有效提高文本分類的準(zhǔn)確率。
3 結(jié)論
本文提出了一種利用LSTM替代卷積神經(jīng)網(wǎng)絡(luò)模型中池化層的特征融合模型用于文本分類研究,。該模型既可以利用卷積結(jié)構(gòu)提取文本的局部特征,又可以利用LSTM保留文本的全局特征,,減少局部特征在多層卷積池化結(jié)構(gòu)中的的特征損失問題,。在實(shí)驗(yàn)階段,本文將所提出的文本分類融合模型與單模型,、傳統(tǒng)文本分類模型以及其他深度學(xué)習(xí)模型進(jìn)行對比實(shí)驗(yàn),,本文所提出的融合模型有效提升了文本分類的準(zhǔn)確率。然而本文所提出的融合模型并沒有采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),,在接下來的研究中將針對結(jié)構(gòu)更加復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)與LSTM的融合模型來開展,。
參考文獻(xiàn)
[1] Li Juntao,Cao Yimin,,Wang Yadi,,et al.Online learning algorithms for double-weighted least squares twin bounded support vector machines[J].Neural Processing Letters,2017,,45(1):319-339.
[2] KALCHBRENNER N,,GREFENSTETTE E,BLUNSOM P A.Convolutional neural network for modelling sentences[J].Information Sciences,,2016(1):217-253.
[3] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the EMNLP,,2014.
[4] 李云紅,梁思程,,任劼,,等.基于循環(huán)神經(jīng)網(wǎng)絡(luò)變體和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),,2019(4):1337-5003.
[5] GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg:Springer,2012.
[6] ANDRIY M,,GEOFFREY H.A scalable hierarchical distributed language model[C].The Conference on Neural Information Processing Systems(NIPS),,2008:1081-1088.
[7] 蘇豐龍,謝慶華.基于深度學(xué)習(xí)的領(lǐng)域?qū)嶓w屬性詞聚類抽取研究[J].電子技術(shù)應(yīng)用,,2016,,42(6):1674-7720.
[8] 字云飛,李業(yè)麗,,孫華艷.基于深度神經(jīng)網(wǎng)絡(luò)的個性化推薦系統(tǒng)研究[J].電子技術(shù)應(yīng)用,,2019,45(1):14-18,,22.
[9] MIKOLOV T,,SUTSKEVER I,CHEN K,,et al.Distribtedrep-resentations of words and phrases and their compositionality[C].Proceedings of the Advances in Neural Information Processing Systems,,2013:3111-3119.
[10] 王靜.基于機(jī)器學(xué)習(xí)的文本分類算法研究與應(yīng)用[D].成都:電子科技大學(xué),2015.
[11] 張沖.基于Attention -Based LSTM模型的文本分類技術(shù)的研究[D].南京:南京大學(xué),,2016.
[12] MANNING C D,,RAGHAVAN P,SCHUTZE H.An introduction to information retrieval[M].Cambridge:Cambridge University Press,,2008.
[13] 李華,,屈丹,張文林,,等.結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J].信號處理,,2016,32(6):715-723.
[14] VIGLIOCCO G,,VINSON D P,,DRUKS J,et al.Nouns and verbs in the brain:a review of behavioural,,electrophysiological,,neuropsychological and imaging studies[J].Neuroscience and Biobehavioral Reviews,2010(3):167-198.
[15] ZHANG X,,ZHAO J,,LECUN Y.Character-level convolutional networks for text classification[C].Advances in Neural Information Processing Systems,2015:649-657.
作者信息:
殷曉雨,,阿力木江·艾沙,,庫爾班·吾布力
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)