EMNLP 2018 | 為什么使用自注意力機制？-AET-電子技術應用

EMNLP 2018 | 為什么使用自注意力機制？

日期： 2018-09-17

關鍵詞： 非循環(huán)架構神經(jīng)機器翻譯

近期，非循環(huán)架構（CNN、基于自注意力機制的 Transformer 模型）在神經(jīng)機器翻譯任務中的表現(xiàn)優(yōu)于 RNN，因此有研究者認為原因在于 CNN 和自注意力網(wǎng)絡連接遠距離單詞的路徑比 RNN 短。本文在主謂一致任務和詞義消歧任務上評估了當前 NMT 領域中最流行的三種模型：基于 CNN、RNN 和自注意力機制的模型，發(fā)現(xiàn)實驗結果與上述論斷并不一致。該論文已被 EMNLP 2018 接收。

多種不同架構對神經(jīng)機器翻譯（NMT）都很有效，從循環(huán)架構 (Kalchbrenner and Blunsom, 2013; Bahdanau et al., 2015; Sutskever et al., 2014; Luong et al., 2015) 到卷積架構 (Kalchbrenner and Blunsom, 2013; Gehring et al., 2017)，以及最近提出的完全自注意力（Transformer）模型 (Vaswani et al., 2017)。由于框架之間的對比主要依據(jù) BLEU 值展開，因此弄清楚哪些架構特性對 BLEU 值有貢獻從本質上講是比較困難的。

循環(huán)神經(jīng)網(wǎng)絡（RNN）(Elman, 1990) 可以輕松處理可變長度的輸入句子，因此是 NMT 系統(tǒng)的編碼器和解碼器的自然選擇。RNN 的大部分變體（如 GRU 和 LSTM）解決了訓練循環(huán)神經(jīng)網(wǎng)絡的長距離依賴難題。Gehring 等人（2017）介紹了一種編碼器和解碼器都基于 CNN 的神經(jīng)架構，并報告其 BLEU 值高于基于 RNN 的 NMT 模型。此外，該模型訓練期間對所有分詞的計算可以完全并行執(zhí)行，提高了計算效率。Vaswani 等人（2017）提出 Transformer 模型，該模型完全基于注意力層，沒有卷積或循環(huán)結構。他們報告該模型在英語-德語和英語-法語翻譯取得了當前最優(yōu)的 BLEU 值。但 BLEU 值指標比較粗糙，無法幫助觀察不同架構如何改善機器翻譯質量。

為了解釋 BLEU 值的提高，之前的研究進行了理論論證。Gehring 等人（2017）和 Vaswani 等人（2017）都認為神經(jīng)網(wǎng)絡中共依賴因素（co-dependent element）之間的路徑長度會影響模型學習這些依賴關系的能力：路徑越短，模型學習此類依賴關系就越容易。這兩篇論文認為 Transformer 和 CNN 比 RNN 更擅長捕捉長距離依賴。

但是，這一斷言僅基于理論論證，并未經(jīng)過實驗驗證。本文作者認為非循環(huán)網(wǎng)絡的其它能力可能對其強大性能貢獻巨大。具體來說，本文作者假設 BLEU 值的提高取決于具備強大語義特征提取能力的 CNN 和 Transformer。

該論文評估了三種流行的 NMT 架構：基于 RNN 的模型（下文用 RNNS2S 表示）、基于 CNN 的模型（下文用 ConvS2S 表示）和基于自注意力的模型（下文用 Transformer 表示）。受到上述關于路徑長度和語義特征提取關系的理論陳述的啟發(fā)，研究者在主謂一致任務（需要建模長距離依賴）和詞義消歧（WSD）任務（需要提取語義特征）上對三種模型的性能進行了評估。這兩項任務分別基于對照翻譯對（contrastive translation pair）測試集 Lingeval97 (Sennrich, 2017) 和 ContraWSD (Rios et al., 2017)。

本論文的主要貢獻如下：

檢驗了這一理論斷言：具備更短路徑的架構更擅長捕捉長距離依賴。研究者在建模長距離主謂一致任務上的實驗結果并沒有表明，Transformer 或 CNN 在這方面優(yōu)于 RNN。

通過實驗證明 Transformer 中注意力頭的數(shù)量對其捕捉長距離依賴的能力有所影響。具體來說，多頭注意力對使用自注意力機制建模長距離依賴是必要的。

通過實驗證明 Transformer 擅長 WSD，這表明 Transformer 是強大的語義特征提取器。

論文：Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

微信圖片_20180917220642.jpg

論文鏈接：https://arxiv.org/pdf/1808.08946.pdf

摘要：近期，非循環(huán)架構（卷積、自注意力）在神經(jīng)機器翻譯任務中的表現(xiàn)優(yōu)于 RNN。CNN 和自注意力網(wǎng)絡連接遠距離單詞的路徑比 RNN 短，有研究人員推測這正是其建模長距離依賴能力得到提高的原因。但是，這一理論論斷并未得到實驗驗證，對這兩種網(wǎng)絡的強大性能也沒有其他深入的解釋。我們假設 CNN 和自注意力網(wǎng)絡的強大性能也可能來自于其從源文本提取語義特征的能力。我們在兩個任務（主謂一致任務和詞義消歧任務）上評估了 RNN、CNN 和自注意力網(wǎng)絡的性能。實驗結果證明：1）自注意力網(wǎng)絡和 CNN 在建模長距離主謂一致時性能并不優(yōu)于 RNN；2）自注意力網(wǎng)絡在詞義消歧方面顯著優(yōu)于 RNN 和 CNN。

微信圖片_20180917220708.jpg

圖 1：NMT 中不同神經(jīng)網(wǎng)絡的架構。

主謂一致

主謂一致任務是評估模型捕捉長距離依賴能力的最流行選擇，曾在多項研究中使用 (Linzen et al., 2016; Bernardy and Lappin, 2017; Sennrich, 2017; Tran et al., 2018)。因此，我們也使用該任務評估不同 NMT 架構的捕捉長距離依賴能力。

微信圖片_20180917222031.jpg

表 2：不同 NMT 模型的結果，包括在 newstest2014 和 newstest2017 上的 BLEU 值、在驗證集上的困惑度，以及長距離依賴的準確率。

微信圖片_20180917222056.jpg

圖 2：不同的 NMT 模型在主謂一致任務上的準確率。

微信圖片_20180917223037.jpg

圖 3：ConvS2S 模型和 RNNS2S 模型在不同距離處的結果。

微信圖片_20180917223100.jpg

圖 4：在小型數(shù)據(jù)集上訓練的 Transformer 和 RNNS2S 模型的結果。

WSD

主謂一致任務上的實驗結果展示了 CNN 和 Transformer 在捕捉長距離依賴方面并沒有優(yōu)于 RNN，即使 CNN 和 Transformer 中的路徑更短。這一發(fā)現(xiàn)與上文提到的理論斷言相悖。但是，從 BLEU 值來看，這些架構在實驗中的表現(xiàn)都很不錯。因此，我們進一步在 WSD 任務上評估這些架構來驗證我們的假設：非循環(huán)架構更擅長提取語義特征。

微信圖片_20180917223132.jpg

表 5：不同架構在 newstest 數(shù)據(jù)集和 ContraWSD 上的結果。PPL 指在驗證集上的困惑度。Acc 表示在測試集上的準確率。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

EMNLP 2018 | 為什么使用自注意力機制？

日期： 2018-09-17

相關內容