文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 樂楊,,胡軍國,,李耀. 基于RoBERTa和多層次特征的中文事件抽取方法[J]. 電子技術(shù)應(yīng)用,2023,,49(11):49-54.
【引言】
事件抽取作為一種信息抽取技術(shù),旨在從文本中識別和提取出事件的關(guān)鍵要素[1],,以自動化處理大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù),,在知識圖譜[2]、信息檢索[3],、自動問答[4],、情報收集[5]等領(lǐng)域均有著廣泛的應(yīng)用。
近年來,,隨著深度學習的發(fā)展,,深度學習在事件抽取任務(wù)中取得了廣泛的應(yīng)用且取得了優(yōu)異的效果?;谏疃葘W習的事件抽取方法,先將文本中的詞轉(zhuǎn)換成向量,,再將向量作為模型的輸入進行特征抽取和分類。目前使用最廣泛的詞向量工具是Word2Vec,,但通過Word2Vec得到的詞向量是靜態(tài)的,,只針對單獨的詞,無法解決中文詞語在不同環(huán)境下?lián)碛胁煌Z義信息的問題[6],。
同時大部分的神經(jīng)網(wǎng)絡(luò)模型著重于抽取向量中部分特征信息,,無法覆蓋所有的特征信息。如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,,CNN)通過卷積操作提取向量中的局部特征,,但由于卷積核大小和步幅的限制,可能導致一些全局上下文相關(guān)的特征被局部特征所掩蓋或丟失[7];雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,,BiLSTM)可以處理長序列數(shù)據(jù),,提取全局特征,但無法直接捕捉文本中的詞與詞之間的關(guān)系[8],。
針對上述提到的中文語義復雜和特征信息抽取不全面,,提出一種基于RoBERTa預訓練模型[9]和多層次特征的中文事件抽取方法。本文的主要貢獻在于:
(1)采用RoBERTa預訓練模型訓練的詞向量,,拼接詞性特征向量,,獲取含有豐富語音的向量表示。并在論元抽取中基于Layer Normalization將觸發(fā)詞語義信息融入句子中,,拼接字與觸發(fā)詞的距離向量,,增強句子與觸發(fā)詞的關(guān)聯(lián)。
(2)利用CNN和BiLSTM抽取詞級特征和句子級特征,,并采用注意力機制將特征聚焦于與事件更相關(guān)的特征上,,滿足事件抽取的特征要求。
(3)將事件抽取視為序列標注任務(wù),,通過CRF和BIO序列標注對句子中的每個字進行標注,,得到多個觸發(fā)詞或事件論元,解決多事件抽取問題,。
文章詳細內(nèi)容下載請點擊:基于RoBERTa和多層次特征的中文事件抽取方法AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計資源平臺 (chinaaet.com)
【作者信息】
樂楊,,胡軍國,李耀
(浙江農(nóng)林大學 數(shù)學與計算機科學學院,,浙江 杭州 311300)