91丨九色丨蝌蚪人妻,av中国字幕

專訪 | 監(jiān)管機(jī)器翻譯質(zhì)量,？且看阿里如何搭建翻譯質(zhì)量評(píng)估模型

日期： 2018-08-03

關(guān)鍵詞： 機(jī)器翻譯機(jī)器智能技術(shù) BLEU值

隨著機(jī)器翻譯在真實(shí)場景中的應(yīng)用越來越多，翻譯質(zhì)量評(píng)估模型也受到很大的關(guān)注,。近日，阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室的陳博興博士向機(jī)器之心介紹了機(jī)器翻譯質(zhì)量評(píng)估競賽與模型,，他們憑借著 Feature Extractor-Quality Estimator 框架與完全注意力機(jī)制等方法在國際機(jī)器翻譯大會(huì) WMT 組織的質(zhì)量評(píng)估競賽上取得了優(yōu)異的成績。

阿里機(jī)器翻譯團(tuán)隊(duì)在本次比賽中，參加了英語到德語和德語到英語兩個(gè)語向的句子級(jí)別和詞級(jí)別的七項(xiàng)質(zhì)量評(píng)估任務(wù),，收獲了六項(xiàng)世界冠軍。其中,，德語到英語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中（German-English SMT),，句子級(jí)別和詞級(jí)別的預(yù)測任務(wù)分別取得第一名；英語到德語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中 (English-German SMT),，句子級(jí)別取得第一名,，詞級(jí)別的詞預(yù)測和漏詞預(yù)測分別取得第一名。同時(shí),，英語到德語的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯評(píng)估任務(wù)中 (English-German NMT),，詞級(jí)別的詞預(yù)測取得第一名。

對(duì)于翻譯質(zhì)量評(píng)測方法來說,，可能讀者最熟悉的就是 BLEU 值,，它的核心思想即機(jī)器翻譯的譯文越接近人類專業(yè)譯文，那么翻譯的效果就越好,。所以從本質(zhì)上來說,，BLEU 值僅僅只是在計(jì)算機(jī)翻譯文與參考譯文之間的相似性。此外,，雖然 BLEU 值計(jì)算非常迅速,，但它僅考慮詞語層級(jí)的統(tǒng)計(jì)相似性，常忽略了語義和語法等特征,。且其它如常用詞,、譯文長度、同義詞等很多情況都會(huì)影響到 BLEU 值的評(píng)判,，因此它其實(shí)只能評(píng)估機(jī)器翻譯模型與參考譯文之間的大致相似度,。

計(jì)算 BLEU 值最重要的是提供參考譯文，參考譯文質(zhì)量越高,，對(duì)于同一句原文的參考譯文越多,，翻譯模型的度量就越準(zhǔn)確。但很多情況下高質(zhì)量參考譯文很難獲得,，或者成本非常高,，而且更多的實(shí)際運(yùn)用場景中，用戶輸入的原文是無法及時(shí)提供參考譯文的,，這種情況下就需要一種沒有參考譯文也能評(píng)估翻譯效果的方法,。

Machine Translation Quality Estimation 就是這樣一個(gè)由 WMT 發(fā)起的機(jī)器翻譯質(zhì)量評(píng)估比賽，它要求在不提供參考譯文的情況下,，根據(jù)原文和機(jī)器翻譯譯文評(píng)估譯文質(zhì)量的好壞,。

除了競賽,，不需要參考譯文的評(píng)估方法在實(shí)際中有非常廣泛的應(yīng)用，陳博興表示這種自動(dòng)評(píng)估方法可以評(píng)估譯文的質(zhì)量,，用于判斷譯文是否可以直接發(fā)表,，是否可以讓讀者理解，是否需要后續(xù)人工編輯,，并輔助譯員翻譯,。如果質(zhì)量太差，那么這一句話就需要重新翻譯且不適合做人工編輯,，如果只需要少量改動(dòng),，那就比較適合做人工編輯。甚至對(duì)于詞語級(jí)別的譯文評(píng)估方法,，它能告訴我們到底哪一個(gè)詞需要改進(jìn),。此外，限制質(zhì)量較差的機(jī)器翻譯的譯文輸出,、評(píng)估機(jī)器翻譯模型效果等都需要這種不需要參考譯文的評(píng)估方法,。

翻譯質(zhì)量評(píng)估

翻譯質(zhì)量評(píng)估任務(wù)一般可分為兩種，即句子級(jí)的評(píng)估和單詞級(jí)的評(píng)估,，阿里機(jī)器翻譯團(tuán)隊(duì)這次參與的競賽同樣也分為這兩種任務(wù),。其中句子級(jí)的質(zhì)量評(píng)估需要使用回歸模型給譯文句子的整體水平打分，而單詞級(jí)的任務(wù)需要分類模型標(biāo)注每一個(gè)詞到底翻譯得好不好,。完成這兩種評(píng)估任務(wù)的方法也有許多,，但總體上都是通過抽取原文與譯文的特征，并計(jì)算它們之間的匹配程度,。

以前常見的研究是使用手動(dòng)抽取的質(zhì)量評(píng)估特征,，并饋送到回歸或分類模型以得出譯文的分?jǐn)?shù)或類別。這些質(zhì)量評(píng)估一般包括長度特征,、語言特征和主題模型等特征,，它們可能還會(huì)通過主成分分析和高斯過程等方法進(jìn)行選擇。

而自深度學(xué)習(xí)變得流行以來,，很多研究者嘗試使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)抽取質(zhì)量評(píng)估特征并完成評(píng)分,。Kreutzer 等人首先在 2015 年提出基于窗口的 FNN 架構(gòu)，它以窗口的方式抽取語義特征,。在基于窗口的方法中，給定目標(biāo)詞,，我們從原語和目標(biāo)語的對(duì)應(yīng)位置中獲取雙語窗口,，其中目標(biāo)語窗口的中心詞就是該目標(biāo)詞，而原語窗口的中心詞即目標(biāo)詞對(duì)應(yīng)的原語詞,。所有雙語窗口下的詞將會(huì)以 one-hot 編碼的方式饋送到輸入層,，并進(jìn)一步計(jì)算出當(dāng)前窗口的雙語匹配程度,。

Patel 等人隨后在 2016 年提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的質(zhì)量評(píng)估模型，在該模型中,，他們將單詞級(jí)的質(zhì)量評(píng)估模型視為序列標(biāo)注任務(wù),，且同樣采用了基于雙語上下文窗口的方法。其中上下文窗口的所有詞需要作為輸入,，并借助循環(huán)神經(jīng)網(wǎng)絡(luò)建模它們之間的依賴性關(guān)系,，并最后輸出標(biāo)注序列以判斷每個(gè)單詞是不是翻譯正確。

隨后很多研究者開始使用卷積神經(jīng)網(wǎng)絡(luò),、雙向 LSTM 網(wǎng)絡(luò)和注意力機(jī)制等深度學(xué)習(xí)方法,，Martins 等人在 2017 年結(jié)合神經(jīng)網(wǎng)絡(luò)模型與富特征線性模型在質(zhì)量評(píng)估模型上獲得了非常好的效果。但阿里采用的模型并不基于上下文窗口,，他們參考了最近提出的自注意力機(jī)制和 Transfomer 機(jī)器翻譯的模型框架,，在前人研究的基礎(chǔ)上提出了一種名為『Bilingual Expert』model (『雙語專家』模型) 作為特征抽取器，聯(lián)合基于神經(jīng)網(wǎng)絡(luò)的譯文質(zhì)量評(píng)估框架,。后面我們將從這兩方面重點(diǎn)關(guān)注這一框架,，并探討阿里達(dá)摩院對(duì)它們的優(yōu)化。

特征抽取模型

特征抽取即從原文與譯文語句中抽取足夠的信息或特征,，并用來進(jìn)一步計(jì)算譯文效果到底好不好,。因此特征抽取是翻譯評(píng)估模型的核心，特征的好壞直接影響了翻譯評(píng)估的準(zhǔn)確度,。不過在理解特征抽取以前,，我們先要了解整個(gè)『Bilingual Expert』based Feature Extractor + Quality Estimator 框架，這樣才能知道為什么能通過神經(jīng)網(wǎng)絡(luò)抽取原文和譯文的語言特征,。

『Bilingual Expert』based Feature Extractor + Quality Estimator 由特征抽取模型和譯文評(píng)估模型組成,，因?yàn)檫@兩個(gè)模型解決的是兩個(gè)任務(wù)，所以它們能使用兩種數(shù)據(jù)集進(jìn)行訓(xùn)練,。特征抽取模型在輸入原句序列和目標(biāo)句序列的條件下抽取質(zhì)量評(píng)估特征,，這一部分的訓(xùn)練需要使用一般的雙語平行數(shù)據(jù)集。而特征抽取模型抽取的特征可繼續(xù)用于評(píng)估翻譯效果,，這一部分需要使用質(zhì)量評(píng)估（QE）數(shù)據(jù)集,，該數(shù)據(jù)集不僅包括原句與譯文句，同時(shí)還包括了標(biāo)注的翻譯質(zhì)量,。

微信圖片_20180803163026.jpg

阿里達(dá)摩院在這次競賽中采用的結(jié)構(gòu),，特征抽取模型與評(píng)估模型使用 Transformer 與雙向 LSTM 的框架進(jìn)行修正。

對(duì)于特征抽取,，『Bilingual Expert』（圖上右上框）模型構(gòu)建了一種條件語言模型,。簡單而言，在給定原語句子所有詞和目標(biāo)語句除當(dāng)前詞以外的上下文，模型希望能使用這些詞的信息預(yù)測出當(dāng)前詞,。這一過程潛在的假設(shè)即條件語言模型與質(zhì)量評(píng)估模型高度相關(guān),，它能傳遞有用的信息來執(zhí)行質(zhì)量評(píng)估任務(wù)。陳博興表示,，我們可以直觀地理解為,，如果譯文的質(zhì)量非常高，那么這種基于條件語言模型的詞預(yù)測模型能基于原句子和目標(biāo)句子的上下文準(zhǔn)確預(yù)測出當(dāng)前詞,。相反如果譯文質(zhì)量不高,，那么模型很難基于上下文準(zhǔn)確地預(yù)測出當(dāng)前詞。

給定原語句子和目標(biāo)語句子的上下文,，并預(yù)測目標(biāo)語句子的當(dāng)前詞可以表述為如下方程式,，阿里機(jī)器翻譯團(tuán)隊(duì)使用了在《Attention is all you need》中提出的 Transformer 建模這一方程。

微信圖片_20180803163112.jpg

之所以將傳統(tǒng)的雙向 LSTM 模型替換為最近比較流行的 Transformer,，陳博興表示：「LSTM 是以遞歸方式進(jìn)行的,，適合序列建模任務(wù)，需要逐步遞歸才能獲取全局信息,。這就導(dǎo)致了計(jì)算過程很難并行,，計(jì)算效率較低。因此我們采用了完全基于注意力機(jī)制的結(jié)構(gòu)來處理序列模型的相關(guān)問題,，這樣不僅能挖掘序列內(nèi)部的隱藏關(guān)系,，同時(shí)還能提高并行效率?！?/p>

盡管使用 Transformer 構(gòu)建詞預(yù)測模型有更多的優(yōu)勢,，但從 LSTM 出發(fā)能更好地理解詞預(yù)測模型的過程。下圖所示為基于 LSTM 的詞預(yù)測模型,，它期望能準(zhǔn)確預(yù)測目標(biāo)語句子中的第 j 個(gè)詞,。

如下對(duì)于原語句子 x，模型首先將每一個(gè)詞都表征為詞嵌入向量,，然后再饋送到正向和反向兩條 LSTM,，每一個(gè)時(shí)間步需要同時(shí)結(jié)合正向和反向 LSTM 的隱藏狀態(tài)并作為最終的輸出。對(duì)于目標(biāo)語句子 y,，在第 j 個(gè)詞之前的序列使用正向 LSTM 建模,，而第 j 個(gè)詞之后的序列使用反向的 LSTM 建模。最后在預(yù)測第 j 個(gè)詞時(shí),，需要使用原語句子 x 的上下文向量 c_j（由注意力機(jī)制得出）,、目標(biāo)語前一個(gè)詞及前面序列的語義信息、目標(biāo)語后一個(gè)詞及后面序列的語義信息,。

微信圖片_20180803163144.jpg

阿里機(jī)器翻譯團(tuán)隊(duì)采用 Transformer 的架構(gòu)進(jìn)行建模,，該架構(gòu)不僅在原文和譯文端之間進(jìn)行注意力機(jī)制的計(jì)算,，同時(shí)原文和譯文內(nèi)部也引入自注意力的機(jī)制，使得兩端深層的語義信息能夠很好得被學(xué)習(xí)到,。除此以外，『Multi-Head』注意力機(jī)制的結(jié)構(gòu)能夠使網(wǎng)絡(luò)中每一層對(duì)不同位置的計(jì)算是并行的,，大大提高了學(xué)習(xí)效率,。陳博興表示，在對(duì)原文進(jìn)行編碼的過程中,，編碼器由相同的兩個(gè)模塊構(gòu)成,，每一個(gè)模塊都有兩個(gè)子層級(jí)。其中第一個(gè)子層級(jí)是 Multi-Head 自注意機(jī)制,，第二個(gè)子層級(jí)采用了全連接網(wǎng)絡(luò),，其主要作用在于注意子層級(jí)的特征。同時(shí),，每一個(gè)子層級(jí)都會(huì)添加殘差連接和層級(jí)歸一化,。

在對(duì)目標(biāo)端解碼的過程中，阿里機(jī)器翻譯團(tuán)隊(duì)創(chuàng)新地進(jìn)行了基于 Multi-head Attention 的雙向解碼,。陳博興表示,，每個(gè)方向的解碼器也由相同的兩個(gè)模塊堆疊而成。與編碼器區(qū)別的是,，每一個(gè)解碼器模塊都有三個(gè)子層組成,。第一個(gè)和第三個(gè)子層分別與編碼器的 Multi-Head 自注意力層和全連接層相同，而第二個(gè)子層采用了 Multi-Head Attention 機(jī)制,，使用編碼器的輸出作為 Key 和 Value,，使用解碼模塊第一個(gè)子層的輸出作為 Query。與編碼器類似的是,，每一個(gè)子層同樣會(huì)加上殘差連接與層級(jí)歸一化模塊,。該思想可以理解構(gòu)造了一個(gè)雙向的 Transformer，而其真正作用不是翻譯系統(tǒng)中的解碼器,，而更像一個(gè)編碼器或者特征表示器,。

微信圖片_20180803163219.jpg

上圖所示為 Transformer 原論文中介紹的網(wǎng)絡(luò)架構(gòu)，阿里機(jī)器翻譯團(tuán)隊(duì)將其采用為『雙語專家』條件語言模型的基礎(chǔ)網(wǎng)絡(luò),。Transformer 編碼器的 Inputs 為原語句子序列 x,，解碼器輸入的 Outputs 為目標(biāo)語正向和逆向兩個(gè)序列。此外,，解碼器中 Softmax 輸出的概率表示目標(biāo)端當(dāng)前詞預(yù)測,。在阿里采用的架構(gòu)中，編碼器和解碼器的層數(shù)都等于 2,，即圖中的 N=2,。

每一次在預(yù)測目標(biāo)語的當(dāng)前詞時(shí),，Transformer 需要使用正向與反向兩部分信息。陳博興表示若當(dāng)前預(yù)測目標(biāo)語的第 j 個(gè)詞,，對(duì)于正向序列而言,，模型需要使用目標(biāo)端第 j-1 個(gè)詞的前向深層語義特征向量和第 j-1 個(gè)詞的詞向量。而對(duì)于反向序列而言,，模型需要使用目標(biāo)端第 j+1 個(gè)詞的反向深層語義特征向量與第 j+1 個(gè)詞的詞向量,。

總體而言，在阿里的模型中,，利用預(yù)先訓(xùn)練的專家模型,，先抽取基于模型隱層的一些 high level 表示信息，以及該詞的前后詞的詞向量,，最后再通過一個(gè)全連接層做一次線性變換,。除此之外，阿里還構(gòu)造了 mis-matching features,。如下圖所示,，當(dāng)某個(gè)翻譯結(jié)果錯(cuò)誤單詞不多的時(shí)候，預(yù)訓(xùn)練模型會(huì)給出正確的單詞預(yù)測分布,，這和翻譯結(jié)果激活的單詞會(huì)存在一個(gè) gap,。這個(gè) gap 是一個(gè)非常重要的特征，阿里機(jī)器翻譯團(tuán)隊(duì)的實(shí)驗(yàn)顯示就算只用這個(gè)特征去做下一步預(yù)測,，也可以得到很好的結(jié)果,。詳細(xì)內(nèi)容可以參考阿里機(jī)器翻譯團(tuán)隊(duì)的論文：“Bilingual Expert” Can Find Translation Errors [1]。

微信圖片_20180803163251.jpg

其實(shí)阿里機(jī)器翻譯團(tuán)隊(duì)采用的這種雙向解碼機(jī)制有非常優(yōu)秀的屬性,，它相當(dāng)于遷移了一部分語言的知識(shí),。最近很多研究者都提倡以語言模型作為預(yù)訓(xùn)練基礎(chǔ)模型將語言知識(shí)遷移到不同的 NLP 任務(wù)，阿里采用的這個(gè)結(jié)構(gòu)正好體現(xiàn)了這種想法,。在預(yù)測第 j 個(gè)詞時(shí),，j+1 和 j-1 兩個(gè)深層語義特征向量都相當(dāng)于使用預(yù)訓(xùn)練的語言模型抽取語言特征，而那兩個(gè)詞的詞嵌入向量則保留了原始信息,。

除了需要預(yù)測最可能的當(dāng)前詞,，更重要的是需要通過質(zhì)量評(píng)估特征向量為后續(xù)運(yùn)算遷移足夠的語言知識(shí)。因此阿里的模型從詞預(yù)測模型中抽取了兩種質(zhì)量評(píng)估特征,，除了深層語義特征外,，考慮到目標(biāo)端詞預(yù)測的概率能表示當(dāng)前詞出現(xiàn)的可能性，還額外抽取了如下的 mis-matching 特征：

1. 深層語義特征：

正向深層語義特征向量

反向深層語義特征向量

前一個(gè)詞的詞向量

后一個(gè)詞的詞向量

2. Mis-matching 特征：

目標(biāo)端強(qiáng)制解碼為當(dāng)前詞的概率信息

概率最高詞語的概率信息

強(qiáng)制解碼為當(dāng)前詞與解碼為概率最高詞的概率信息差異

當(dāng)前詞與預(yù)測詞是否一致

其中正向和反向深層語義特征都從 Transformer 的解碼器中抽出,，正向語義特征包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之前的語義信息,，反向語義特征包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之后的語義信息；同時(shí),，深層語義特征還包含第 k-1 個(gè)詞的詞義信息和第 k+1 個(gè)詞的詞義信息 ,。在基于『雙語專家』條件語言模型的詞預(yù)測模型的預(yù)測解碼環(huán)節(jié),，阿里機(jī)器翻譯團(tuán)隊(duì)利用以上所有深層語義表達(dá)，重構(gòu)了目標(biāo)語 (Token Reconstruction),。所以如果我們強(qiáng)制解碼為真實(shí)的詞語,，就可以取特征信息。不強(qiáng)制解碼,，保留模型預(yù)測最可能出現(xiàn)的詞語,，我們就能得到特征信息。剩下的兩種特征則描述了 m_k 與 i_max 之間的關(guān)系,。

質(zhì)量評(píng)估模型

在抽取了質(zhì)量評(píng)估特征后，它們可以與人工抽取的特征一起作為質(zhì)量評(píng)估模型或 Quality Estimator 的輸入來計(jì)算譯文質(zhì)量,。不過既然基于條件語言模型的特征抽取模型和質(zhì)量評(píng)估模型有緊密的聯(lián)系,，那么為什么不能將這兩個(gè)模型聯(lián)合在一起實(shí)現(xiàn)端到端的訓(xùn)練呢？陳博興表示如果做端到端的訓(xùn)練,，很多人工添加的特征是無法使用的,。此外，特征抽取模型廣泛使用的平行語料與質(zhì)量評(píng)估模型使用的 QE 數(shù)據(jù)集有比較大的不匹配性,，聯(lián)合訓(xùn)練可能會(huì)產(chǎn)生較差的性能,。這一點(diǎn)也非常直觀，平行語料只包含正確的目標(biāo)語句子,，而 QE 數(shù)據(jù)集同時(shí)包含正確與不正確的目標(biāo)語句子,。

正因?yàn)樘卣鞒槿∧Ｐ秃唾|(zhì)量評(píng)估模型雖然高度相關(guān)，但還是兩個(gè)獨(dú)立的模型,，所以我們能額外手動(dòng)提取一些特征來提升模型效果,。這些基礎(chǔ)特征包括句長、標(biāo)點(diǎn)符號(hào)數(shù)量,、句子語言模型分?jǐn)?shù)等,，因此除了第一階段提取的特征外，阿里還額外融合了 17 個(gè)人工提取的特征,，與之前隱層合并結(jié)果再次合并作為預(yù)測條件,。

若將所有特征向量都拼接在一起，且每一個(gè)特征向量視為一個(gè)時(shí)間步,，那么我們就能以如下方式利用從原文與譯文中抽取的語義信息,。

微信圖片_20180803163324.jpg

阿里機(jī)器翻譯團(tuán)隊(duì)采用的質(zhì)量評(píng)估模型就是基于雙向 LSTM，模型預(yù)測的目標(biāo)即句子層面的翻譯質(zhì)量和單詞層面的翻譯對(duì)錯(cuò),。其實(shí)這兩個(gè)任務(wù)除了評(píng)估階段采用的架構(gòu)不一樣,，其它如特征抽取等過程都是一樣的。在句子層面中,，biLSTM 編碼的前向的最后一個(gè)時(shí)間步與后向的最后一個(gè)時(shí)間步的隱藏特征聯(lián)合計(jì)算一個(gè)實(shí)數(shù)值以表示翻譯質(zhì)量,，而在詞語層面的評(píng)估任務(wù)中,，biLSTM 編碼對(duì)應(yīng)的目標(biāo)端詞的每一個(gè)時(shí)間步的前后向量隱藏特征聯(lián)合計(jì)算一個(gè)值以將它們分類為 OK 或 BAD。

數(shù)據(jù)與應(yīng)用

整個(gè)翻譯評(píng)估系統(tǒng)需要使用兩種數(shù)據(jù),，即詞預(yù)測模型所使用的平行數(shù)據(jù)集和評(píng)估模型所使用的 QE 數(shù)據(jù)集,。其中平行數(shù)據(jù)集可以在廣泛的領(lǐng)域收集，我們的目的是訓(xùn)練一個(gè)能抽取語言語義信息的模型,，這很類似于預(yù)訓(xùn)練一個(gè)強(qiáng)大的語言模型,。

而 WMT 組委會(huì)提供的 QE 訓(xùn)練數(shù)據(jù)只有 1 至 3 萬，這對(duì)于訓(xùn)練一個(gè)強(qiáng)大的魯棒性翻譯質(zhì)量評(píng)估模型是遠(yuǎn)遠(yuǎn)不夠的,。陳博興表示阿里機(jī)器翻譯團(tuán)隊(duì)在英德和德英語向上分別構(gòu)造了 30 萬左右的 QE 訓(xùn)練偽數(shù)據(jù),。這部分?jǐn)?shù)據(jù)與真實(shí) QE 數(shù)據(jù)合并訓(xùn)練完質(zhì)量評(píng)估基線模型后，會(huì)再使用真實(shí)的 QE 數(shù)據(jù)微調(diào)模型,，即使用一個(gè)在大的數(shù)據(jù)集上預(yù)訓(xùn)練好的模型在真實(shí)場景數(shù)據(jù)上微調(diào),。

阿里機(jī)器翻譯團(tuán)隊(duì)參考了一些 WMT Automatic Post-Editing (APE）任務(wù)的方法。采用了一種 round-trip translation 的技術(shù),。先從大量單語數(shù)據(jù)中篩選出領(lǐng)域相關(guān)的單語,，作為人工后編輯譯文 PE；同時(shí)用雙語語料訓(xùn)練兩個(gè) MT 系統(tǒng)（例如,，如果要做英語到德語的翻譯質(zhì)量評(píng)估,，需要訓(xùn)練德語到英語和英語到德語的機(jī)器翻譯系統(tǒng)）。將篩選的領(lǐng)域單語先通過一個(gè) MT 系統(tǒng)生成原文 SRC,；SRC 再通過另一個(gè) MT 系統(tǒng)生成譯文 MT,。這樣兩次調(diào)取 MT 結(jié)果的方法，生成了一批原文,，譯文和人工后編輯譯文組合的 APE 數(shù)據(jù),，稱為 APE 訓(xùn)練偽數(shù)據(jù)。然后他們通過 TER 工具生成了對(duì)應(yīng)的 HTER 分?jǐn)?shù)和詞標(biāo)注,，構(gòu)造出了 QE 偽數(shù)據(jù),。為了更好地模擬真實(shí)數(shù)據(jù)，他們根據(jù)真實(shí) QE 數(shù)據(jù)的 HTER 分布,，從構(gòu)造的偽數(shù)據(jù)中隨機(jī)挑選出 30 萬,。這些偽數(shù)據(jù)先與真實(shí)的 QE 數(shù)據(jù)一起訓(xùn)練一個(gè) Quality Estimator 的基礎(chǔ) Baseline 模型，再單獨(dú)用真實(shí)的 QE 數(shù)據(jù) fine tune 模型,。

最后,，開發(fā)這樣一個(gè)翻譯質(zhì)量評(píng)估系統(tǒng)肯定是需要投入應(yīng)用的。陳博興表示翻譯質(zhì)量評(píng)估模型可以應(yīng)用在很多業(yè)務(wù)上,，例如它可以判斷翻譯系統(tǒng)給出的結(jié)果是不是足夠優(yōu)秀,，能不能直接展示給用戶。如果質(zhì)量不行的話,，譯文就可能需要人工校對(duì),。這對(duì)阿里的商品翻譯是非常重要的,，因?yàn)槿绻a(chǎn)品品牌、買賣價(jià)格,、產(chǎn)品描述等機(jī)器翻譯出現(xiàn)了誤差,，那么很容易引起業(yè)務(wù)上的糾紛。

此外,，由于 BLEU 值只能評(píng)估有參考譯文的翻譯結(jié)構(gòu),，這種翻譯質(zhì)量評(píng)估系統(tǒng)能更廣泛地輔助機(jī)器翻譯或人工翻譯。陳博興表示該系統(tǒng)還可以更直接地評(píng)估數(shù)據(jù),，因?yàn)榫W(wǎng)上收集或購買的數(shù)據(jù)可能并不能保證質(zhì)量,，所以該系統(tǒng)可以充當(dāng)過濾作用而確定能投入訓(xùn)練的高質(zhì)量雙語數(shù)據(jù)集?？偠灾?，阿里在利用高質(zhì)量雙語數(shù)據(jù)集與 QE 數(shù)據(jù)集訓(xùn)練質(zhì)量評(píng)估模型后，它反過來可以評(píng)估其它雙語數(shù)據(jù),，并將優(yōu)秀的數(shù)據(jù)投入翻譯模型的訓(xùn)練與質(zhì)量評(píng)估系統(tǒng)的訓(xùn)練。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外,，轉(zhuǎn)載內(nèi)容只為傳遞更多信息,，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們,，以便迅速采取適當(dāng)措施,，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118,；郵箱：[email protected],。

專訪 | 監(jiān)管機(jī)器翻譯質(zhì)量,？且看阿里如何搭建翻譯質(zhì)量評(píng)估模型

日期： 2018-08-03

相關(guān)內(nèi)容