文獻(xiàn)標(biāo)志碼:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 樂楊,胡軍國,,李耀. 基于RoBERTa和多層次特征的中文事件抽取方法[J]. 電子技術(shù)應(yīng)用,,2023,49(11):49-54.
【引言】
事件抽取作為一種信息抽取技術(shù),,旨在從文本中識別和提取出事件的關(guān)鍵要素[1],,以自動化處理大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù),在知識圖譜[2],、信息檢索[3],、自動問答[4]、情報收集[5]等領(lǐng)域均有著廣泛的應(yīng)用,。
近年來,,隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)在事件抽取任務(wù)中取得了廣泛的應(yīng)用且取得了優(yōu)異的效果,?;谏疃葘W(xué)習(xí)的事件抽取方法,先將文本中的詞轉(zhuǎn)換成向量,再將向量作為模型的輸入進(jìn)行特征抽取和分類,。目前使用最廣泛的詞向量工具是Word2Vec,,但通過Word2Vec得到的詞向量是靜態(tài)的,,只針對單獨(dú)的詞,無法解決中文詞語在不同環(huán)境下?lián)碛胁煌Z義信息的問題[6],。
同時大部分的神經(jīng)網(wǎng)絡(luò)模型著重于抽取向量中部分特征信息,,無法覆蓋所有的特征信息。如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,,CNN)通過卷積操作提取向量中的局部特征,,但由于卷積核大小和步幅的限制,可能導(dǎo)致一些全局上下文相關(guān)的特征被局部特征所掩蓋或丟失[7],;雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,,BiLSTM)可以處理長序列數(shù)據(jù),提取全局特征,,但無法直接捕捉文本中的詞與詞之間的關(guān)系[8],。
針對上述提到的中文語義復(fù)雜和特征信息抽取不全面,,提出一種基于RoBERTa預(yù)訓(xùn)練模型[9]和多層次特征的中文事件抽取方法,。本文的主要貢獻(xiàn)在于:
(1)采用RoBERTa預(yù)訓(xùn)練模型訓(xùn)練的詞向量,拼接詞性特征向量,,獲取含有豐富語音的向量表示,。并在論元抽取中基于Layer Normalization將觸發(fā)詞語義信息融入句子中,拼接字與觸發(fā)詞的距離向量,,增強(qiáng)句子與觸發(fā)詞的關(guān)聯(lián),。
(2)利用CNN和BiLSTM抽取詞級特征和句子級特征,并采用注意力機(jī)制將特征聚焦于與事件更相關(guān)的特征上,,滿足事件抽取的特征要求,。
(3)將事件抽取視為序列標(biāo)注任務(wù),通過CRF和BIO序列標(biāo)注對句子中的每個字進(jìn)行標(biāo)注,,得到多個觸發(fā)詞或事件論元,,解決多事件抽取問題。
文章詳細(xì)內(nèi)容下載請點(diǎn)擊:基于RoBERTa和多層次特征的中文事件抽取方法AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計資源平臺 (chinaaet.com)
【作者信息】
樂楊,,胡軍國,,李耀
(浙江農(nóng)林大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,浙江 杭州 311300)