文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.182177
中文引用格式: 王潔,喬藝璇,,彭巖,,等. 基于深度學(xué)習(xí)的美國媒體“一帶一路”輿情的情感分析[J].電子技術(shù)應(yīng)用,,2018,44(11):102-106,,110.
英文引用格式: Wang Jie,,Qiao Yixuan,Peng Yan,,et al. Sentiment analysis about “One Belt, One Road” public opinion of American media based on deep learning[J]. Application of Electronic Technique,,2018,44(11):102-106,,110.
0 引言
“一帶一路”倡議自2013年提出以來,,受到國內(nèi)外媒體的廣泛關(guān)注。隨著相關(guān)建設(shè)的逐步推進(jìn),,世界各國媒體對“一帶一路”的相關(guān)報(bào)道呈快速增長趨勢,,新聞報(bào)道中蘊(yùn)含該國對“一帶一路”倡議的關(guān)注熱點(diǎn)與情感傾向,是衡量該國對中國快速發(fā)展所持態(tài)度的重要素材?,F(xiàn)有“一帶一路”國際輿情相關(guān)研究中普遍存在使用的樣本量偏少,、分析方法較單一等問題。利用網(wǎng)絡(luò)大數(shù)據(jù),,結(jié)合文獻(xiàn)計(jì)量方法和深度學(xué)習(xí)技術(shù),從客觀角度分析海外輿情情感是本文的研究重點(diǎn),。
傳統(tǒng)的基于詞典和機(jī)器學(xué)習(xí)的情感分析存在分類時(shí)靈活度不高和需要大量標(biāo)注的訓(xùn)練數(shù)據(jù)等問題,,本文基于深度學(xué)習(xí)技術(shù),構(gòu)建了基于自動(dòng)摘要-CNN的集成式文檔級情感分析模型,。具體方法為:首先提取新聞?wù)?,去除原始文檔中非重要數(shù)據(jù)的干擾,;再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子級情感分析,通過基于語義指向的方法獲得文檔級的情感分?jǐn)?shù),,利用Gensim等工具庫計(jì)算媒體關(guān)注重點(diǎn),,并對情感波動(dòng)異常文章給予二次研究。本文提出的基于自動(dòng)摘要-CNN與未摘要新聞的單一CNN進(jìn)行了對比實(shí)驗(yàn),,實(shí)驗(yàn)結(jié)果驗(yàn)證了集成模型的有效性,。本文的研究有助于了解美國新聞媒體關(guān)于“一帶一路”倡議的輿情熱點(diǎn)和情感態(tài)度,分析和總結(jié)我國在“一帶一路”傳播過程中的經(jīng)驗(yàn)及問題,,增強(qiáng)未來我國“一帶一路”對外傳播的針對性,、有效性和感召力。
1 相關(guān)工作
1.1 “一帶一路”國際輿情研究現(xiàn)狀
“一帶一路”倡議是我國加強(qiáng)與亞歐非及世界各國互聯(lián)互通,,推動(dòng)沿線各國貿(mào)易往來的重大舉措,,隨著相關(guān)項(xiàng)目的簽約與實(shí)施,國內(nèi)外新聞媒體的報(bào)道量快速上升,。根據(jù)《“一帶一路”大數(shù)據(jù)報(bào)告(2017)》[1]分析結(jié)果,,美國對“一帶一路”倡議的關(guān)注度超過亞洲各國。本文選取的美國主流新聞媒體網(wǎng)站在報(bào)道的寬度,、深度,、時(shí)效性等方面發(fā)展迅速,報(bào)道內(nèi)容覆蓋政界,、學(xué)界,、商界及普通民眾的觀點(diǎn)與深層分析的結(jié)論。
近年國內(nèi)外學(xué)者,、智庫,、研究機(jī)構(gòu)等從不同角度對“一帶一路”倡議的國際輿情展開了大量研究。張巖[2]基于支持與肯定,、理性評價(jià)與分析,、觀望與保留態(tài)度、質(zhì)疑與否定4個(gè)視角,,對比分析3家主流阿拉伯網(wǎng)站的情感傾向與報(bào)道主題,。趙雅瑩[3]定量分析英國3家主流媒體關(guān)于“一帶一路”的報(bào)道中所使用的情感、判定和鑒別三類態(tài)度詞,。清華大學(xué)愛潑斯坦對外傳播研究中心[4]通過對報(bào)紙,、電視新聞網(wǎng)、雜志等國外部分主流媒體涉及“一帶一路”倡議的報(bào)道進(jìn)行分析,,研究國際新聞媒體報(bào)道的輿情演變,。米拉[5]分析中印尼“一帶一路”合作的機(jī)遇與挑戰(zhàn)。薛慶國[6]研究 “一帶一路”倡議在阿拉伯世界的傳播,。ERGENC C[7]提出“一帶一路”倡議標(biāo)志著中國對中亞和西亞地區(qū)政策的積極轉(zhuǎn)變,。
1.2 情感分析研究現(xiàn)狀
目前,,情感分析主要利用兩種方法:基于詞典的情感分析與基于機(jī)器學(xué)習(xí)的情感分析。根據(jù)文本粒度可以分為:短語級,、句子級與文檔級[8],。基于詞典的方法依賴于詞典與規(guī)則的構(gòu)建,,由于詞典的容量和詞典適用程度的問題,,以及規(guī)則構(gòu)建需要大量人力勞動(dòng),基于詞典的方法逐漸機(jī)器學(xué)習(xí)所取代[9],。
2002年P(guān)ANG B等人首次利用機(jī)器學(xué)習(xí)解決二元情感分類問題[10],。從此相關(guān)研究工作分為兩個(gè)主要方向,即設(shè)計(jì)更多有效的分類特征和采用更多高效的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),。KIM Y[11]針對句子級別的分類任務(wù),,利用卷積神經(jīng)網(wǎng)絡(luò)做了一系列的實(shí)驗(yàn),闡述了不同的架構(gòu)的神經(jīng)網(wǎng)絡(luò)對實(shí)驗(yàn)結(jié)果的影響,,展示了卷積神經(jīng)網(wǎng)絡(luò)在情感分析領(lǐng)域的重要作用,。JOHNSON R等[12]通過分析卷積神經(jīng)網(wǎng)絡(luò)在圖像處理上的處理方式,將句子,、單詞與圖像,、像素對應(yīng),使得卷積神經(jīng)網(wǎng)絡(luò)在情感分類問題上展現(xiàn)出較好的效果,。近幾年,,國內(nèi)關(guān)于卷積情感分析的研究多基于微博、評論等短文本[13-14],。
2 情感分析
本文研究主要分為4個(gè)步驟:(1)網(wǎng)絡(luò)爬蟲抓取新聞,;(2)利用基于自動(dòng)摘要-CNN的集成式文檔級情感分析模型進(jìn)行情感分析,并對比單一CNN模型分析結(jié)果,;(3)利用Gensim等工具庫統(tǒng)計(jì)新聞高頻詞,,了解媒體關(guān)注熱點(diǎn);(4)對情感波動(dòng)異常文章給予二次研究,。整體技術(shù)思路如圖1所示,。
2.1 提取新聞?wù)?/strong>
由于研究對象為多源的美國主流新聞媒體,且不同媒體數(shù)據(jù)的長度與格式均不相同,。因此本文在進(jìn)行信息抽取時(shí),,采用自動(dòng)化文本摘要的方法以保留新聞關(guān)鍵內(nèi)容及總體含義。
以摘要的準(zhǔn)確性和可讀性為標(biāo)準(zhǔn),,選擇基于Gensim主題建模程序的方法,。利用構(gòu)建無向加權(quán)圖的方法,以文章中的語句為節(jié)點(diǎn),規(guī)格化后的句子相似度為節(jié)點(diǎn)的鏈接,,避免句子長度對摘要結(jié)果的影響。摘要過程中,,關(guān)鍵詞不局限于單個(gè)詞,,達(dá)到提升摘要可讀性的目的。
2.2 句子級情感分析
卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層,、卷積層,、池化層、全連接層,、輸出層組成,。如圖2所示,模型為采用一種卷積窗口,,一種池化窗口,,且輸入僅為一個(gè)特征面的卷積神經(jīng)網(wǎng)絡(luò)。其特殊的網(wǎng)絡(luò)結(jié)構(gòu),,使其可以捕捉細(xì)小的特征信息,,最初在圖像識(shí)別領(lǐng)域應(yīng)用廣泛。近幾年隨著機(jī)器學(xué)習(xí)領(lǐng)域的不斷發(fā)展,,卷積神經(jīng)網(wǎng)絡(luò)逐漸被應(yīng)用到語音識(shí)別,、文本分類、語義分析等方面,。
本文參照KIM Y[11]的建議設(shè)置模型參數(shù),,對圖2的模型改進(jìn),進(jìn)行句子級的情感分析,,具體實(shí)現(xiàn)方法如下,。
輸入層(embedding):embedding層將文本轉(zhuǎn)換為向量并擴(kuò)充維度,以滿足卷積神經(jīng)網(wǎng)絡(luò)對參數(shù)的要求,。
卷積層與池化層(conv-maxpool):用于獲取局部特征與得到最重要特征,。卷積層通過局部連接的方式與上層特征面相連,利用權(quán)值共享的特性,,減小模型的復(fù)雜度,。訓(xùn)練過程中采用3種大小的窗口篩選不同的特征,完善對詞向量的特征提取,。池化層采用最大池化的方式提取最重要的特征,。訓(xùn)練過程中,使用修正線性單元(Rectified Liner Unit,,ReLU)作為激活函數(shù),,使線性的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變?yōu)榉蔷€性的神經(jīng)網(wǎng)絡(luò),即使輸出結(jié)果由式(1)中的f(x)轉(zhuǎn)變?yōu)槭剑?)中的gj(x),,同時(shí)加快收斂速度,。
其中,,Isize表示每一個(gè)輸入特征面的大小,;K′∈[3,,4,5] 為卷積核即窗口的大??;step表示卷積核在其上一層的滑動(dòng)步長,Wsize為池化窗口的大小,。模型通過調(diào)整卷積層訓(xùn)練的參數(shù)數(shù)目使Oi(輸出特征面大?。檎麛?shù)。
全連接層:由卷積層和池化層訓(xùn)練的特征作為全連接層的輸入,、輸出分類結(jié)果,,即依據(jù)句子在不同類別上的概率分布,為每句話輸出情感等級標(biāo)簽,。p(yk)為文本在第k種情感傾向上的輸出,,代表了文本歸為第k種情感傾向的概率,p(yk)通過softmax歸一化后表示為:
2.3 文檔級情感分析
本文采用基于語義指向的方法分析文章情感,。即在句子級情感分析的結(jié)果基礎(chǔ)上,,依據(jù)各子句的情感極性與該句在文檔中的權(quán)重,計(jì)算文檔的情感等級[13],。第j篇文章(j=1,,2,3,,…,,400)的情感分?jǐn)?shù)為:
其中,scorej為文檔j的情感分?jǐn)?shù),;Pi代表第i個(gè)句子的極性,,即句子級情感分析的結(jié)果;Weights代表句子在文中的權(quán)重,,即占文章篇幅的比例,。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.1.1 新聞篩選
新聞媒體選取標(biāo)準(zhǔn)主要有兩條,首先為Alexa網(wǎng)站對美國新聞?lì)惥W(wǎng)站排名的綜合結(jié)果,,其次為搜索結(jié)果與“一帶一路”倡議的相關(guān)程度,。通過Python語言編寫爬蟲自動(dòng)采集相關(guān)新聞,因?yàn)椤耙粠б宦贰背h多與經(jīng)濟(jì)建設(shè)有關(guān),,因此數(shù)據(jù)采集中對財(cái)經(jīng)類報(bào)紙略有側(cè)重,。
檢索結(jié)果經(jīng)過兩步篩選:限制時(shí)間范圍為2015年1月~2018年7月;辨別文章標(biāo)題相關(guān)度,刪除不相關(guān)的文章,。篩選后的數(shù)據(jù)描述如表1所示,。
3.1.2 模型數(shù)據(jù)
訓(xùn)練集數(shù)據(jù)由810篇隨機(jī)抽取的“一帶一路”倡議相關(guān)新聞與190篇以“China”作為關(guān)鍵字檢索所得新聞的自動(dòng)摘要構(gòu)成。其中,,“一帶一路”倡議相關(guān)新聞按照篩選結(jié)果中的時(shí)間及篇數(shù)比例隨機(jī)抽取,。190篇與中國相關(guān)的新聞均來自表1所示的10家媒體,并按照相同比例隨機(jī)抽取2015年1月~2018年7月的新聞,,以確保媒體報(bào)道的行文風(fēng)格不對訓(xùn)練結(jié)果產(chǎn)生影響。人工對每句話進(jìn)行標(biāo)注,,共標(biāo)注12 307句,。測試集由202篇文章構(gòu)成,由所收集到的1 012篇新聞中排除被選擇作為訓(xùn)練集的810篇新聞構(gòu)成,,采取與訓(xùn)練集相同的標(biāo)注方法,。
3.2 評價(jià)方法
本文情感分析結(jié)果評價(jià)標(biāo)準(zhǔn)采用精確率(Precision)、召回率(Recall)以及F1值(F1-Score),。
3.3 實(shí)驗(yàn)結(jié)果分析
3.3.1 模型訓(xùn)練
本文設(shè)計(jì)了4組實(shí)驗(yàn)來訓(xùn)練模型,,以確定卷積神經(jīng)網(wǎng)絡(luò)卷積層窗口的尺寸。如圖3所示,,train表示訓(xùn)練集的結(jié)果,,test表示測試集的結(jié)果。圖3(a)表示卷積層窗口尺寸為2,、3,、4時(shí),預(yù)測最終準(zhǔn)確率為89.1%,;圖3(b)表示卷積層窗口尺寸為3,、4、5時(shí),,最終準(zhǔn)確率為92.6%,;圖3(c)表示卷積層窗口尺寸為4、5,、6時(shí),,最終準(zhǔn)確率為91.2%;圖3(d)表示卷積層窗口尺寸為5,、6,、7時(shí),最終準(zhǔn)確率為87.3%,。因此,,本文卷積神經(jīng)網(wǎng)絡(luò)采用窗口尺寸為3、4、5的卷積層,。
3.3.2 模型訓(xùn)練
本文對基于自動(dòng)摘要-CNN的集成式文檔級情感分析模型和單一CNN模型進(jìn)行了對比實(shí)驗(yàn),,測試結(jié)果如表2所示。自動(dòng)摘要-CNN模型相較于CNN模型在Precision,、Recall,、F1-Score上分別有了5.69%、4.29%,、4.97%的提升,。
3.3.3 情感分析結(jié)果展示
基于卷積神經(jīng)網(wǎng)絡(luò)的分析結(jié)果如圖4所示。從圖中可以看出,,87.25%的新聞情感為中性及中性以上,。最高值為3.1分,最低值為1.45分,,極值分?jǐn)?shù)的文章僅有6篇,,說明美國新聞媒體對“一帶一路”倡議的相關(guān)報(bào)道較為客觀,不會(huì)對美國民眾產(chǎn)生極強(qiáng)的情緒影響,。
利用Gensim工具庫,,本文對1 012篇新聞的高頻詞進(jìn)行了分析,經(jīng)去停用詞處理后,,出現(xiàn)次數(shù)排序?yàn)榍?6名的詞語如表3所示,。
由表3可知,高頻詞集中在“一帶一路”倡議的對象,、相關(guān)內(nèi)容及相關(guān)言論的來源,。
3.3.4 負(fù)向情感文章分析
文檔級情感分?jǐn)?shù)低于2分的文章歸為負(fù)向情感,1 012篇相關(guān)新聞中有64篇負(fù)向情感文章,。時(shí)間分布為2015年2篇,、2016年4篇、2017年28篇,、2018年30篇,。情感評分較低的原因可以主要?dú)w納為5個(gè)方面:
(1)美國擔(dān)心中國會(huì)影響其在亞非歐各國的利益。分析結(jié)果中顯示的4個(gè)異常低分的偏離值,,大肆宣揚(yáng)“中國威脅論”,,認(rèn)為中國試圖通過經(jīng)濟(jì)、軍事力量主導(dǎo)世界政治發(fā)展,,對美國民眾的態(tài)度產(chǎn)生較大影響,。然而,我國從不做地緣博弈或拉幫結(jié)派,、恃強(qiáng)凌弱的事情,。因此,,美國對此表示警惕,也說明了我國在各國實(shí)施建設(shè)“一帶一路”相關(guān)經(jīng)濟(jì)項(xiàng)目時(shí)做到了和平共處,,并在世界范圍內(nèi)產(chǎn)生了積極效果,。
(2)美國懷疑中國沒有能力促使“一帶一路”倡議的順利實(shí)施。截至2017年5月,,我國已與43個(gè)沿線國家發(fā)布聯(lián)合聲明/公報(bào),。簽署的多領(lǐng)域合作文件證明了我國的實(shí)力能夠推動(dòng)“一帶一路”倡議的順利實(shí)施。
(3)資金融通問題,。美國質(zhì)疑中國在經(jīng)濟(jì)貿(mào)易方面仍不愿意開放,,不愿意接受外國的投資。然而,,中國的政策鼓勵(lì)外資銀行把握當(dāng)前各項(xiàng)政策紅利,,對投資審查嚴(yán)格是對中外兩方資金的負(fù)責(zé),資金融通將不再是問題,。
(4)中國收緊對海外收購的監(jiān)管。相關(guān)新聞?wù)J為這些新的監(jiān)管措施大部分不適用于與“一帶一路”倡議有關(guān)的海外收購,。相關(guān)政策顯示,,雖然對海外收購監(jiān)管更加嚴(yán)格,但是戰(zhàn)略性的有益的活動(dòng)仍會(huì)被批準(zhǔn),。所以,,“一帶一路”倡議相關(guān)活動(dòng)的實(shí)施不會(huì)受到影響。
(5)文章中對被投資國家的描述比例較大,。多篇新聞存在大篇幅描述阿富汗等國混亂現(xiàn)狀的內(nèi)容,,使得文章摘要內(nèi)即便存在如“China has long been seen as one of the most promising prospects for such help.”的語句,文章整體情感也被前文的描述語句拉低,。
綜上所述,,美國對中國的日益強(qiáng)大存在一定的質(zhì)疑與抵觸心理,但中國將會(huì)用客觀的數(shù)據(jù)向世界證明中國的實(shí)力,。
4 結(jié)論
現(xiàn)階段,,互聯(lián)網(wǎng)“一帶一路”倡議搜索量和報(bào)道量仍呈上升趨勢。研究國外媒體對“一帶一路”倡議的報(bào)道,,能夠知悉外國媒體的觀點(diǎn)與態(tài)度,,及時(shí)針對國外輿情做出適當(dāng)?shù)姆磻?yīng),提升我國的形象,。本文構(gòu)建了基于自動(dòng)摘要-CNN的集成式文檔級情感分析模型,,對美國主流新聞媒體 “一帶一路”倡議相關(guān)新聞進(jìn)行情感分析。模型基于單一CNN模型,,增加自動(dòng)摘要過程進(jìn)行句子級情感分析,,并以此為基礎(chǔ)通過基于語義的方法,,分析文檔級情感。通過對比未摘要新聞與摘要新聞的情感分析結(jié)果,,發(fā)現(xiàn)經(jīng)過自動(dòng)摘要的文章避免了整文分析帶來的主題不清晰問題,,情感更加明確,模型測試效果優(yōu)于單一的CNN模型,。
此外,,根據(jù)《“一帶一路”大數(shù)據(jù)報(bào)告(2017)》[1]顯示,除美國外,,印度,、英國、俄羅斯,、澳大利亞等國對“一帶一路”倡議的關(guān)注度提升明顯,。因此,未來將完善對其他各國的研究,,對比分析各國輿論發(fā)展情況,,提出關(guān)于“一帶一路”倡議宣傳的針對性意見。在研究方法方面,,改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),,使文本特征的提取更有效,提高模型的準(zhǔn)確率,。
參考文獻(xiàn)
[1] 國家信息中心“一帶一路”大數(shù)據(jù)中心.“一帶一路”大數(shù)據(jù)報(bào)告(2017)[M]. 北京:商務(wù)印書館,,2017.
[2] 張巖.“一帶一路”峰會(huì)期間阿拉伯網(wǎng)站輿情調(diào)查分析——以三家主流阿拉伯網(wǎng)站為例[J].對外傳播,2017(7):30-32.
[3] 趙雅瑩,,郭繼榮,,車向前.評價(jià)理論視角下英國對“一帶一路”態(tài)度研究[J].情報(bào)雜志,2016,,35(10):37-41.
[4] 清華大學(xué)愛潑斯坦對外傳播研究中心.“一帶一路”議題的國際輿情分析[J]. 對外傳播,,2017(5):24-26.
[5] 米拉,施雪琴.印尼對中國“一帶一路”倡議的認(rèn)知和反應(yīng)述評[J].南洋問題研究,,2016(4):79-91.
[6] 薛慶國.“一帶一路”倡議在阿拉伯世界的傳播:輿情,、實(shí)踐與建議[J].西亞非洲,2015(6):36-52.
[7] ERGENC C.Can two ends of asia meet?An overview of contemporary Turkey-China relations[J].East Asia,,2015,,32(3):289-308.
[8] 姜杰.社交媒體文本情感分析[D].南京:南京理工大學(xué),2017.
[9] 陳龍,,管子玉,,何金紅,等.情感分類研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,,2017,,54(6):1150-1170.
[10] PANG B,,LEE L,VAITHYANATHAN S.Thumbs up? Sen-timent classification using machine learning techniques[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,,Philadelphia,,2002.
[11] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing,Doha,,2014.
[12] JOHNSON R,,ZHANG T.Effective use of word order for text categorization with convolutional neural networks[C].Proceedings of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Denver,,2015.
[13] 何炎祥,,孫松濤,牛菲菲,,等.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),,2017,40(4):773-790.
[14] 馮興杰,,張志偉,,史金釧.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J].計(jì)算機(jī)應(yīng)用研究,2018,,35(5):1434-1436.
作者信息:
王 潔1,,2,喬藝璇1,,彭 巖1,許嫻曉1
(1.首都師范大學(xué) 管理學(xué)院,,北京100089,;2.中山大學(xué) 機(jī)器智能與先進(jìn)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,廣東 廣州510006)