《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于分層信息過(guò)濾的生成式文本摘要模型
基于分層信息過(guò)濾的生成式文本摘要模型
信息技術(shù)與網(wǎng)絡(luò)安全
符升旗,,李金龍
(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230026)
摘要: 文本摘要模型的輸入數(shù)據(jù)中通常包含被視為噪聲的冗余信息,,對(duì)輸入數(shù)據(jù)中的噪聲進(jìn)行過(guò)濾可以提高摘要模型的表現(xiàn),。提出了基于動(dòng)態(tài)路由指導(dǎo)的分層信息過(guò)濾(Dynamic Routing Based Hierarchical Information Filtering,DRBHIF)層,,該層首先通過(guò)動(dòng)態(tài)路由模塊根據(jù)編碼器的輸出動(dòng)態(tài)地計(jì)算全局向量,,然后根據(jù)全局向量從詞層面和語(yǔ)義層面對(duì)輸入文本中的噪聲進(jìn)行過(guò)濾。具體來(lái)說(shuō),,首先通過(guò)全局向量和編碼器的輸出從詞層面上對(duì)原文中的關(guān)鍵字進(jìn)行選擇,,然后通過(guò)雙門語(yǔ)義噪聲過(guò)濾算法在語(yǔ)義層面上進(jìn)行噪聲過(guò)濾。在Gigaword和CNN/Daily Mail兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,,DRBHIF能夠有效地對(duì)輸入文本中的噪聲進(jìn)行過(guò)濾,,并且能提升摘要模型的表現(xiàn)。
關(guān)鍵詞: 自然語(yǔ)言處理,自動(dòng)文本摘要,噪聲過(guò)濾
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.011
引用格式: 符升旗,,李金龍. 基于分層信息過(guò)濾的生成式文本摘要模型[J].信息技術(shù)與網(wǎng)絡(luò)安全,,2021,40(5):62-67.
Dynamic routing based hierarchical information filtering for abstractive text summarization
Fu Shengqi,,Li Jinlong
(School of Computer Science and Technology,,University of Science and Technology of China,Hefei 230026,,China)
Abstract: The input data of a text summarization model usually contains redundant information that is regarded as noise, and filtering the noise in the input data can improve the performance of the summarization model. In this paper, a Dynamic Routing Based Hierarchical Information Filtering(DRBHIF) layer is proposed, which first dynamically computes a global vector based on the output of the encoder through the dynamic routing module, and then filters the noise in the input text at the word level and semantic level based on the global vector. Specifically, keywords in the original text are first selected at the word level using the global vector and the encoder output, and then noise is filtered at the semantic level using a two-gate semantic noise filtering algorithm. Experimental results on both Gigaword and CNN/Daily Mail datasets show that DRBHIF is effective in filtering noise in the input text and can improve the performance of the summarization model.
Key words : natural language processing,;automatic text summarization;noise filtering

0 引言

自動(dòng)文本摘要模型旨在提取出原文中的關(guān)鍵信息并生成摘要,。對(duì)自動(dòng)文本摘要的研究可以分為兩大類:抽取式文本摘要和生成式文本摘要,。抽取式文本摘要直接從原文中抽取出一些句子組成摘要,而生成式文本摘要首先構(gòu)建一個(gè)模型對(duì)原文中的信息進(jìn)行理解,,然后根據(jù)對(duì)原文的理解以模擬人類的方式輸出摘要,。本文主要關(guān)注生成式文本摘要模型。

目前,,生成式文本摘要模型主要基于序列到序列(sequence-to-sequence,,seq2seq)模型構(gòu)建[1-2]。seq2seq模型包含一個(gè)編碼器和一個(gè)解碼器。編碼器對(duì)輸入的原文進(jìn)行編碼得到文本表示,,解碼器對(duì)編碼器的輸出進(jìn)行解碼生成摘要,。在實(shí)際中,輸入文本通常包含冗余信息,,即噪聲[3],,而seq2seq模型會(huì)將輸入文本的所有信息進(jìn)行編碼,包括噪聲,,這會(huì)導(dǎo)致最終生成的摘要不能很好地體現(xiàn)原文中的關(guān)鍵信息[4],。最近的一些研究[4-5]表明,對(duì)輸入文本中的噪聲進(jìn)行過(guò)濾能提高摘要模型的表現(xiàn),。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000003553




作者信息:

符升旗,,李金龍

(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230026)


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。