文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.179024
中文引用格式: 李剛,,黃永峰. 一種面向微博文本的命名實體識別方法[J].電子技術(shù)應(yīng)用,,2018,44(1):118-120,,124.
英文引用格式: Li Gang,,Huang Yongfeng. An approach to named entity recognition towards micro-blog[J]. Application of Electronic Technique,2018,,44(1):118-120,,124.
0 引言
命名實體識別(Named Entity Recognition)是指識別文本中的各種實體,如人名,、地名,、機(jī)構(gòu)名或其他特有標(biāo)識[1],是自然語言處理(Natural Language Processing,,NLP)中非常重要的一項基礎(chǔ)性技術(shù),。近年來,Twitter,、新浪微博等新型社交平臺發(fā)展迅速,,成為命名實體識別的新方向,。RITTER A[2]等人設(shè)計了一個應(yīng)用于Twitter上的T-NER系統(tǒng),重構(gòu)了命名實體識別的流程,。TURIAN J等人[3]利用半監(jiān)督的系統(tǒng)進(jìn)行命名實體識別,,大大減少了識別的成本。Liu Xiaohua等人[4]在一個半監(jiān)督的框架下把K近鄰分類器和CRF模型結(jié)合起來,,識別Twitter中的命名實體,,取得了較好的效果。
上述工作都是基于Twitter的,,沒有考慮中文的深層語義,,且多使用有限自建數(shù)據(jù)集,沒有考慮人工標(biāo)記的代價和不足,,因此需要加以改進(jìn),。本文研究面向中文微博的命名實體識別,將識別視為一個序列標(biāo)注問題,,通過改進(jìn)的基于概率模型的算法優(yōu)化識別效果,。針對微博文本短小、信息量少和文體不正規(guī),、語意含糊的特點,,引入外部數(shù)據(jù)源提取深層語義特征;針對微博數(shù)據(jù)集人工處理代價大的問題,,引入主動學(xué)習(xí)算法,以較小的人工代價獲得識別效果的提升,。
1 面向微博的命名實體識別方法
參照CoNLL2003的標(biāo)準(zhǔn),,給定一條微博,需要識別出其中的人名,、地名,、機(jī)構(gòu)名和其他實體共4類命名實體[5]。
研究的基礎(chǔ)模型采用了CRF[6]模型,。
1.1 特征選取
基礎(chǔ)特征采用當(dāng)前詞和前后位置詞的詞型和詞性特征,,這也是大多數(shù)CRF模型會采用的特征。由此生成的模型作為基礎(chǔ)模型,,對應(yīng)的實驗結(jié)果作為基線,。
1.1.1 主題特征
(Latent Dirichlet Allocation,LDA)模型[7]是一種無監(jiān)督的概率主題模型,。每個主題下都分布著出現(xiàn)概率較高的詞語,,這些詞都與這個主題有很強的相關(guān)性,利用這種相關(guān)性能在一定程度上解決一詞多義,、同義詞等問題,。模型的訓(xùn)練使用了外部數(shù)據(jù)源,,主題個數(shù)k可以事先指定。
獲得LDA模型后,,對于給定k個主題,,通過p(w|t),將每個主題視為一個特征,,將訓(xùn)練集中的每個詞看作是由k個特征表示的K維向量,,則每個詞都可以表示成一個k維向量,即:
其中,,vi表示第i個詞的向量,,λk表示該詞在第k個主題上的權(quán)重,N是詞表的大小,。
1.1.2 詞向量特征
詞向量源于HINTON G E[8]提出的Distributed Representation,。一個流行的詞向量訓(xùn)練工具是word2vec,由MIKOLOV T[9]于2013年提出,。word2vec能把詞映射到d維的向量空間,,用向量空間的相似度表示文本語義上的相似度,有利于解決微博語義含糊的問題,。
詞向量一般有200~500維,,如果直接將詞向量作為特征引入CRF模型,則計算量過大,。這里需要利用的是其相似性,,因此可以用聚類的方法進(jìn)行簡化。實驗中選擇將詞語表示為200~500維的詞向量,,再利用k-means進(jìn)行聚類,,將類別作為特征輸入模型。特別需要指出的是,,相比采用單一的聚類結(jié)果,,更好的辦法是多層聚類(multi-layer cluster)。
1.2 模型強化
人工處理微博語料人工處理代價高昂,,為了以最小的人工代價獲得最大的系統(tǒng)性能提升,,研究采用了主動學(xué)習(xí)算法。主動學(xué)習(xí)算法包含兩部分,,一個是分類器,,另一個是抽樣策略[10]。分類器采用前文所述的改進(jìn)型CRF模型,。抽樣策略可采用如下方法,。
抽樣不確定度是一中常見的衡量樣本信息含量的方法,在序列標(biāo)注模型中,可以根據(jù)最小置信度(Least Confidence)φLC(x)來確定抽樣不確定度,。
其中,,x表示一個樣本,y*是對應(yīng)概率最大的標(biāo)記,。對于一個訓(xùn)練好的CRF模型,,可以在對每條微博進(jìn)行標(biāo)記的同時輸出對應(yīng)概率P。現(xiàn)給出整個算法框架,。
算法1:基于置信度的主動學(xué)習(xí)算法
輸入:有標(biāo)記語料DL,、未標(biāo)記語料DU
輸出:分類器C
用DL訓(xùn)練分類器C(CRF classifier)
重復(fù):
2 實驗
實驗用到了3個數(shù)據(jù)集,分別是訓(xùn)練集,、擴(kuò)展集和測試集,。其中3 000條標(biāo)記語料作為訓(xùn)練集,2 000條標(biāo)記語料作為測試集,。另外2 000條作為擴(kuò)展集用于主動學(xué)習(xí),,不需標(biāo)注。另有500萬條經(jīng)過除重去噪的微博作為外部源,,分別用于LDA模型訓(xùn)練和詞向量模型訓(xùn)練,,供抽取外部特征使用。
2.1 評價標(biāo)準(zhǔn)
本文采用的評價標(biāo)準(zhǔn)包括準(zhǔn)確率P(Precision),、召回率R(Recall)和F1值(F1-measure)3個指標(biāo),。F1是準(zhǔn)確率和召回率的調(diào)和平均值,是一個綜合性的指標(biāo),。
2.2 實驗數(shù)據(jù)及分析
(1)使用訓(xùn)練集提取基礎(chǔ)特征,,建立基礎(chǔ)模型,在測試集上進(jìn)行評估,。結(jié)果如表1所示,。此結(jié)果將作為基線與后續(xù)實驗結(jié)果進(jìn)行對比。
(2)引入外部特征進(jìn)行了多組實驗,。圖1左側(cè)是引入主題特征后的提升效果,雖然有效果但不明顯,。圖1右側(cè)是將400維的詞向量進(jìn)行聚類后作為特征引入模型的效果,。F1值在聚類個數(shù)為400時達(dá)到了63.96%,較基線有明顯提升,。究其原因,,主要是詞向量的分量中隱含了豐富的上下文語法和語義信息,而LDA模型內(nèi)部采用了詞袋模型,,僅考慮了詞的共現(xiàn)關(guān)系而沒有考慮上下文關(guān)系,,這樣簡化了模型,但不可避免地帶來了信息的損失。
多層聚類的實驗效果如圖2所示,,每個維度下前4個柱圖表示單層聚類(分別是聚成200,、300、400,、500個類簇)時的效果,,最后一個表示同時使用前4個聚類結(jié)果作為多層聚類時的效果,顯然效果比單層聚類更好,。
同時將所有的外部特征添加到基礎(chǔ)模型進(jìn)行實驗,,F(xiàn)1值提高到65.41%。
(3)采用主動學(xué)習(xí)的方法進(jìn)一步強化模型,。提升效果如圖3所示,。詳細(xì)的數(shù)據(jù)參見表2。曲線Model_ba表示僅用外部特征而不進(jìn)行主動學(xué)習(xí)的模型效果,。曲線Model_la表示把一次性把包括訓(xùn)練集DL和擴(kuò)展集DU在內(nèi)的所有語料都進(jìn)行標(biāo)記(label all)并用于模型訓(xùn)練,。Model_al1、Model_al2和model_al3是使用主動學(xué)習(xí)策略但閾值不同的模型,??傮w看,無論是取哪個閾值,,相比不進(jìn)行主動學(xué)習(xí),,主動學(xué)習(xí)都能提高F1值,且收斂速度很快,。
表2進(jìn)一步說明了主動學(xué)習(xí)的優(yōu)點,。Model_la需要標(biāo)記微博2 080條,約9萬個詞,,人工代價太大,。相比之下,3個主動學(xué)習(xí)模型能明顯降低人工標(biāo)記量,。其中Model_al2比Model_al3的F1值要高0.25%,,標(biāo)記量僅提升了12.9%;而Model_al1與Model_al2相比,,F(xiàn)1值僅提升了0.1%,,但代價是標(biāo)記量提升了17%,且多迭代了兩次,。綜合考慮,,取Model_al2作為最終的實驗結(jié)果。此時僅需標(biāo)記457條微博,,約37 000個標(biāo)記,,F(xiàn)1值達(dá)到67.23%,,相較最初的模型提升4.54%。
3 結(jié)語
本文提出了一種面向中文微博的命名實體識別方法,,先引入外部特征訓(xùn)練CRF模型,,再采用主動學(xué)習(xí)算法強化訓(xùn)練結(jié)果。實際工作中發(fā)現(xiàn),,中文分詞效果不佳影響了后續(xù)的工作,,主動學(xué)習(xí)仍然引入了二次標(biāo)記,不利于大規(guī)模的識別任務(wù),。這些都需要在以后的工作中加以改進(jìn),。
參考文獻(xiàn)
[1] NADEAU D,SEKINE S.A survey of named entity recognition and classification[J].Lingvisticae Investigationes,,2007,,30(1):3-26.
[2] RITTER A,CLARK S,,ETZIONI O.Named entity recognition in tweets: an experimental study[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,,2011:1524-1534.
[3] TURIAN J,RATINOV L,,BENGIO Y.Word representations:a simple and general method for semi-supervised learning[C].Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,,2010:384-394.
[4] Liu Xiaohua,Zhang Shaodian,,Wei Furu,,et al.Recognizing named entities in tweets[C].Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1. Association for Computational Linguistics,2011:359-367.
[5] TJONG KIM SANG E F,,DE MEULDER F.Introduction to the CoNLL-2003 shared task:Language-independent named entity recognition[C].Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vol-ume 4.Association for Computational Linguistics,,2003:142-147.
[6] LAFFERTY J D,MCCALLUM A,,PEREIRA F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.,,2001:282-289.
[7] BLEI D M,NG A Y,,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,,2003,3:993-1022.
[8] HINTON G E.Learning distributed representations of concepts[C].Proceedings of the Eighth Annual Conference of the Cognitive Science Society,,1986,,1:12.
[9] MIKOLOV T,SUTSKEVER I,,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems,,2013:3111-3119.
[10] WU Y,,KOZINTSEV I,BOUGUET J Y,et al.Sampling strategies for active learning in personal photo retrieval[C].Multimedia and Expo,,2006 IEEE International Conference on.IEEE,,2006:529-532.