隨著機(jī)器翻譯在真實(shí)場景中的應(yīng)用越來越多,翻譯質(zhì)量評(píng)估模型也受到很大的關(guān)注,。近日,阿里巴巴達(dá)摩院機(jī)器智能技術(shù)實(shí)驗(yàn)室的陳博興博士向機(jī)器之心介紹了機(jī)器翻譯質(zhì)量評(píng)估競賽與模型,,他們憑借著 Feature Extractor-Quality Estimator 框架與完全注意力機(jī)制等方法在國際機(jī)器翻譯大會(huì) WMT 組織的質(zhì)量評(píng)估競賽上取得了優(yōu)異的成績。
阿里機(jī)器翻譯團(tuán)隊(duì)在本次比賽中,參加了英語到德語和德語到英語兩個(gè)語向的句子級(jí)別和詞級(jí)別的七項(xiàng)質(zhì)量評(píng)估任務(wù),,收獲了六項(xiàng)世界冠軍。其中,,德語到英語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中(German-English SMT),,句子級(jí)別和詞級(jí)別的預(yù)測任務(wù)分別取得第一名;英語到德語的統(tǒng)計(jì)機(jī)器翻譯評(píng)估任務(wù)中 (English-German SMT),,句子級(jí)別取得第一名,,詞級(jí)別的詞預(yù)測和漏詞預(yù)測分別取得第一名。同時(shí),,英語到德語的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯評(píng)估任務(wù)中 (English-German NMT),,詞級(jí)別的詞預(yù)測取得第一名。
對(duì)于翻譯質(zhì)量評(píng)測方法來說,,可能讀者最熟悉的就是 BLEU 值,,它的核心思想即機(jī)器翻譯的譯文越接近人類專業(yè)譯文,那么翻譯的效果就越好,。所以從本質(zhì)上來說,,BLEU 值僅僅只是在計(jì)算機(jī)翻譯文與參考譯文之間的相似性。此外,,雖然 BLEU 值計(jì)算非常迅速,,但它僅考慮詞語層級(jí)的統(tǒng)計(jì)相似性,常忽略了語義和語法等特征,。且其它如常用詞,、譯文長度、同義詞等很多情況都會(huì)影響到 BLEU 值的評(píng)判,,因此它其實(shí)只能評(píng)估機(jī)器翻譯模型與參考譯文之間的大致相似度,。
計(jì)算 BLEU 值最重要的是提供參考譯文,參考譯文質(zhì)量越高,,對(duì)于同一句原文的參考譯文越多,,翻譯模型的度量就越準(zhǔn)確。但很多情況下高質(zhì)量參考譯文很難獲得,,或者成本非常高,,而且更多的實(shí)際運(yùn)用場景中,用戶輸入的原文是無法及時(shí)提供參考譯文的,,這種情況下就需要一種沒有參考譯文也能評(píng)估翻譯效果的方法,。
Machine Translation Quality Estimation 就是這樣一個(gè)由 WMT 發(fā)起的機(jī)器翻譯質(zhì)量評(píng)估比賽,它要求在不提供參考譯文的情況下,,根據(jù)原文和機(jī)器翻譯譯文評(píng)估譯文質(zhì)量的好壞,。
除了競賽,,不需要參考譯文的評(píng)估方法在實(shí)際中有非常廣泛的應(yīng)用,陳博興表示這種自動(dòng)評(píng)估方法可以評(píng)估譯文的質(zhì)量,,用于判斷譯文是否可以直接發(fā)表,,是否可以讓讀者理解,是否需要后續(xù)人工編輯,,并輔助譯員翻譯,。如果質(zhì)量太差,那么這一句話就需要重新翻譯且不適合做人工編輯,,如果只需要少量改動(dòng),,那就比較適合做人工編輯。甚至對(duì)于詞語級(jí)別的譯文評(píng)估方法,,它能告訴我們到底哪一個(gè)詞需要改進(jìn),。此外,限制質(zhì)量較差的機(jī)器翻譯的譯文輸出,、評(píng)估機(jī)器翻譯模型效果等都需要這種不需要參考譯文的評(píng)估方法,。
翻譯質(zhì)量評(píng)估
翻譯質(zhì)量評(píng)估任務(wù)一般可分為兩種,即句子級(jí)的評(píng)估和單詞級(jí)的評(píng)估,,阿里機(jī)器翻譯團(tuán)隊(duì)這次參與的競賽同樣也分為這兩種任務(wù),。其中句子級(jí)的質(zhì)量評(píng)估需要使用回歸模型給譯文句子的整體水平打分,而單詞級(jí)的任務(wù)需要分類模型標(biāo)注每一個(gè)詞到底翻譯得好不好,。完成這兩種評(píng)估任務(wù)的方法也有許多,,但總體上都是通過抽取原文與譯文的特征,并計(jì)算它們之間的匹配程度,。
以前常見的研究是使用手動(dòng)抽取的質(zhì)量評(píng)估特征,,并饋送到回歸或分類模型以得出譯文的分?jǐn)?shù)或類別。這些質(zhì)量評(píng)估一般包括長度特征,、語言特征和主題模型等特征,,它們可能還會(huì)通過主成分分析和高斯過程等方法進(jìn)行選擇。
而自深度學(xué)習(xí)變得流行以來,,很多研究者嘗試使用深度神經(jīng)網(wǎng)絡(luò)自動(dòng)抽取質(zhì)量評(píng)估特征并完成評(píng)分,。Kreutzer 等人首先在 2015 年提出基于窗口的 FNN 架構(gòu),它以窗口的方式抽取語義特征,。在基于窗口的方法中,給定目標(biāo)詞,,我們從原語和目標(biāo)語的對(duì)應(yīng)位置中獲取雙語窗口,,其中目標(biāo)語窗口的中心詞就是該目標(biāo)詞,而原語窗口的中心詞即目標(biāo)詞對(duì)應(yīng)的原語詞,。所有雙語窗口下的詞將會(huì)以 one-hot 編碼的方式饋送到輸入層,,并進(jìn)一步計(jì)算出當(dāng)前窗口的雙語匹配程度,。
Patel 等人隨后在 2016 年提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)的質(zhì)量評(píng)估模型,在該模型中,,他們將單詞級(jí)的質(zhì)量評(píng)估模型視為序列標(biāo)注任務(wù),,且同樣采用了基于雙語上下文窗口的方法。其中上下文窗口的所有詞需要作為輸入,,并借助循環(huán)神經(jīng)網(wǎng)絡(luò)建模它們之間的依賴性關(guān)系,,并最后輸出標(biāo)注序列以判斷每個(gè)單詞是不是翻譯正確。
隨后很多研究者開始使用卷積神經(jīng)網(wǎng)絡(luò),、雙向 LSTM 網(wǎng)絡(luò)和注意力機(jī)制等深度學(xué)習(xí)方法,,Martins 等人在 2017 年結(jié)合神經(jīng)網(wǎng)絡(luò)模型與富特征線性模型在質(zhì)量評(píng)估模型上獲得了非常好的效果。但阿里采用的模型并不基于上下文窗口,,他們參考了最近提出的自注意力機(jī)制和 Transfomer 機(jī)器翻譯的模型框架,,在前人研究的基礎(chǔ)上提出了一種名為『Bilingual Expert』model (『雙語專家』模型) 作為特征抽取器,聯(lián)合基于神經(jīng)網(wǎng)絡(luò)的譯文質(zhì)量評(píng)估框架,。后面我們將從這兩方面重點(diǎn)關(guān)注這一框架,,并探討阿里達(dá)摩院對(duì)它們的優(yōu)化。
特征抽取模型
特征抽取即從原文與譯文語句中抽取足夠的信息或特征,,并用來進(jìn)一步計(jì)算譯文效果到底好不好,。因此特征抽取是翻譯評(píng)估模型的核心,特征的好壞直接影響了翻譯評(píng)估的準(zhǔn)確度,。不過在理解特征抽取以前,,我們先要了解整個(gè)『Bilingual Expert』based Feature Extractor + Quality Estimator 框架,這樣才能知道為什么能通過神經(jīng)網(wǎng)絡(luò)抽取原文和譯文的語言特征,。
『Bilingual Expert』based Feature Extractor + Quality Estimator 由特征抽取模型和譯文評(píng)估模型組成,,因?yàn)檫@兩個(gè)模型解決的是兩個(gè)任務(wù),所以它們能使用兩種數(shù)據(jù)集進(jìn)行訓(xùn)練,。特征抽取模型在輸入原句序列和目標(biāo)句序列的條件下抽取質(zhì)量評(píng)估特征,,這一部分的訓(xùn)練需要使用一般的雙語平行數(shù)據(jù)集。而特征抽取模型抽取的特征可繼續(xù)用于評(píng)估翻譯效果,,這一部分需要使用質(zhì)量評(píng)估(QE)數(shù)據(jù)集,,該數(shù)據(jù)集不僅包括原句與譯文句,同時(shí)還包括了標(biāo)注的翻譯質(zhì)量,。
阿里達(dá)摩院在這次競賽中采用的結(jié)構(gòu),,特征抽取模型與評(píng)估模型使用 Transformer 與雙向 LSTM 的框架進(jìn)行修正。
對(duì)于特征抽取,,『Bilingual Expert』(圖上右上框)模型構(gòu)建了一種條件語言模型,。簡單而言,在給定原語句子所有詞和目標(biāo)語句除當(dāng)前詞以外的上下文,模型希望能使用這些詞的信息預(yù)測出當(dāng)前詞,。這一過程潛在的假設(shè)即條件語言模型與質(zhì)量評(píng)估模型高度相關(guān),,它能傳遞有用的信息來執(zhí)行質(zhì)量評(píng)估任務(wù)。陳博興表示,,我們可以直觀地理解為,,如果譯文的質(zhì)量非常高,那么這種基于條件語言模型的詞預(yù)測模型能基于原句子和目標(biāo)句子的上下文準(zhǔn)確預(yù)測出當(dāng)前詞,。相反如果譯文質(zhì)量不高,,那么模型很難基于上下文準(zhǔn)確地預(yù)測出當(dāng)前詞。
給定原語句子和目標(biāo)語句子的上下文,,并預(yù)測目標(biāo)語句子的當(dāng)前詞可以表述為如下方程式,,阿里機(jī)器翻譯團(tuán)隊(duì)使用了在《Attention is all you need》中提出的 Transformer 建模這一方程。
之所以將傳統(tǒng)的雙向 LSTM 模型替換為最近比較流行的 Transformer,,陳博興表示:「LSTM 是以遞歸方式進(jìn)行的,,適合序列建模任務(wù),需要逐步遞歸才能獲取全局信息,。這就導(dǎo)致了計(jì)算過程很難并行,,計(jì)算效率較低。因此我們采用了完全基于注意力機(jī)制的結(jié)構(gòu)來處理序列模型的相關(guān)問題,,這樣不僅能挖掘序列內(nèi)部的隱藏關(guān)系,,同時(shí)還能提高并行效率?!?/p>
盡管使用 Transformer 構(gòu)建詞預(yù)測模型有更多的優(yōu)勢,,但從 LSTM 出發(fā)能更好地理解詞預(yù)測模型的過程。下圖所示為基于 LSTM 的詞預(yù)測模型,,它期望能準(zhǔn)確預(yù)測目標(biāo)語句子中的第 j 個(gè)詞,。
如下對(duì)于原語句子 x,模型首先將每一個(gè)詞都表征為詞嵌入向量,,然后再饋送到正向和反向兩條 LSTM,,每一個(gè)時(shí)間步需要同時(shí)結(jié)合正向和反向 LSTM 的隱藏狀態(tài)并作為最終的輸出。對(duì)于目標(biāo)語句子 y,,在第 j 個(gè)詞之前的序列使用正向 LSTM 建模,,而第 j 個(gè)詞之后的序列使用反向的 LSTM 建模。最后在預(yù)測第 j 個(gè)詞時(shí),,需要使用原語句子 x 的上下文向量 c_j(由注意力機(jī)制得出),、目標(biāo)語前一個(gè)詞及前面序列的語義信息、目標(biāo)語后一個(gè)詞及后面序列的語義信息,。
阿里機(jī)器翻譯團(tuán)隊(duì)采用 Transformer 的架構(gòu)進(jìn)行建模,,該架構(gòu)不僅在原文和譯文端之間進(jìn)行注意力機(jī)制的計(jì)算,,同時(shí)原文和譯文內(nèi)部也引入自注意力的機(jī)制,使得兩端深層的語義信息能夠很好得被學(xué)習(xí)到,。除此以外,『Multi-Head』注意力機(jī)制的結(jié)構(gòu)能夠使網(wǎng)絡(luò)中每一層對(duì)不同位置的計(jì)算是并行的,,大大提高了學(xué)習(xí)效率,。陳博興表示,在對(duì)原文進(jìn)行編碼的過程中,,編碼器由相同的兩個(gè)模塊構(gòu)成,,每一個(gè)模塊都有兩個(gè)子層級(jí)。其中第一個(gè)子層級(jí)是 Multi-Head 自注意機(jī)制,,第二個(gè)子層級(jí)采用了全連接網(wǎng)絡(luò),,其主要作用在于注意子層級(jí)的特征。同時(shí),,每一個(gè)子層級(jí)都會(huì)添加殘差連接和層級(jí)歸一化,。
在對(duì)目標(biāo)端解碼的過程中,阿里機(jī)器翻譯團(tuán)隊(duì)創(chuàng)新地進(jìn)行了基于 Multi-head Attention 的雙向解碼,。陳博興表示,,每個(gè)方向的解碼器也由相同的兩個(gè)模塊堆疊而成。與編碼器區(qū)別的是,,每一個(gè)解碼器模塊都有三個(gè)子層組成,。第一個(gè)和第三個(gè)子層分別與編碼器的 Multi-Head 自注意力層和全連接層相同,而第二個(gè)子層采用了 Multi-Head Attention 機(jī)制,,使用編碼器的輸出作為 Key 和 Value,,使用解碼模塊第一個(gè)子層的輸出作為 Query。與編碼器類似的是,,每一個(gè)子層同樣會(huì)加上殘差連接與層級(jí)歸一化模塊,。該思想可以理解構(gòu)造了一個(gè)雙向的 Transformer,而其真正作用不是翻譯系統(tǒng)中的解碼器,,而更像一個(gè)編碼器或者特征表示器,。
上圖所示為 Transformer 原論文中介紹的網(wǎng)絡(luò)架構(gòu),阿里機(jī)器翻譯團(tuán)隊(duì)將其采用為『雙語專家』條件語言模型的基礎(chǔ)網(wǎng)絡(luò),。Transformer 編碼器的 Inputs 為原語句子序列 x,,解碼器輸入的 Outputs 為目標(biāo)語正向和逆向兩個(gè)序列。此外,,解碼器中 Softmax 輸出的概率表示目標(biāo)端當(dāng)前詞預(yù)測,。在阿里采用的架構(gòu)中,編碼器和解碼器的層數(shù)都等于 2,,即圖中的 N=2,。
每一次在預(yù)測目標(biāo)語的當(dāng)前詞時(shí),,Transformer 需要使用正向與反向兩部分信息。陳博興表示若當(dāng)前預(yù)測目標(biāo)語的第 j 個(gè)詞,,對(duì)于正向序列而言,,模型需要使用目標(biāo)端第 j-1 個(gè)詞的前向深層語義特征向量和第 j-1 個(gè)詞的詞向量。而對(duì)于反向序列而言,,模型需要使用目標(biāo)端第 j+1 個(gè)詞的反向深層語義特征向量與第 j+1 個(gè)詞的詞向量,。
總體而言,在阿里的模型中,,利用預(yù)先訓(xùn)練的專家模型,,先抽取基于模型隱層的一些 high level 表示信息,以及該詞的前后詞的詞向量,,最后再通過一個(gè)全連接層做一次線性變換,。除此之外,阿里還構(gòu)造了 mis-matching features,。如下圖所示,,當(dāng)某個(gè)翻譯結(jié)果錯(cuò)誤單詞不多的時(shí)候,預(yù)訓(xùn)練模型會(huì)給出正確的單詞預(yù)測分布,,這和翻譯結(jié)果激活的單詞會(huì)存在一個(gè) gap,。這個(gè) gap 是一個(gè)非常重要的特征,阿里機(jī)器翻譯團(tuán)隊(duì)的實(shí)驗(yàn)顯示就算只用這個(gè)特征去做下一步預(yù)測,,也可以得到很好的結(jié)果,。詳細(xì)內(nèi)容可以參考阿里機(jī)器翻譯團(tuán)隊(duì)的論文:“Bilingual Expert” Can Find Translation Errors [1]。
其實(shí)阿里機(jī)器翻譯團(tuán)隊(duì)采用的這種雙向解碼機(jī)制有非常優(yōu)秀的屬性,,它相當(dāng)于遷移了一部分語言的知識(shí),。最近很多研究者都提倡以語言模型作為預(yù)訓(xùn)練基礎(chǔ)模型將語言知識(shí)遷移到不同的 NLP 任務(wù),阿里采用的這個(gè)結(jié)構(gòu)正好體現(xiàn)了這種想法,。在預(yù)測第 j 個(gè)詞時(shí),,j+1 和 j-1 兩個(gè)深層語義特征向量都相當(dāng)于使用預(yù)訓(xùn)練的語言模型抽取語言特征,而那兩個(gè)詞的詞嵌入向量則保留了原始信息,。
除了需要預(yù)測最可能的當(dāng)前詞,,更重要的是需要通過質(zhì)量評(píng)估特征向量為后續(xù)運(yùn)算遷移足夠的語言知識(shí)。因此阿里的模型從詞預(yù)測模型中抽取了兩種質(zhì)量評(píng)估特征,,除了深層語義特征外,,考慮到目標(biāo)端詞預(yù)測的概率能表示當(dāng)前詞出現(xiàn)的可能性,還額外抽取了如下的 mis-matching 特征:
1. 深層語義特征:
正向深層語義特征向量
反向深層語義特征向量
前一個(gè)詞的詞向量
后一個(gè)詞的詞向量
2. Mis-matching 特征:
目標(biāo)端強(qiáng)制解碼為當(dāng)前詞的概率信息
概率最高詞語的概率信息
強(qiáng)制解碼為當(dāng)前詞與解碼為概率最高詞的概率信息差異
當(dāng)前詞與預(yù)測詞是否一致
其中正向和反向深層語義特征都從 Transformer 的解碼器中抽出,,正向語義特征 包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之前的語義信息,,反向語義特征 包含了原語序列的所有信息和目標(biāo)語第 k 個(gè)詞之后的語義信息;同時(shí),,深層語義特征還包含第 k-1 個(gè)詞的詞義信息 和第 k+1 個(gè)詞的詞義信息 ,。在基于『雙語專家』條件語言模型的詞預(yù)測模型的預(yù)測解碼環(huán)節(jié),,阿里機(jī)器翻譯團(tuán)隊(duì)利用以上所有深層語義表達(dá),重構(gòu)了目標(biāo)語 (Token Reconstruction),。所以如果我們強(qiáng)制解碼為真實(shí)的詞語,,就可以取特征信息 。不強(qiáng)制解碼,,保留模型預(yù)測最可能出現(xiàn)的詞語,,我們就能得到特征信息 。剩下的兩種特征則描述了 m_k 與 i_max 之間的關(guān)系,。
質(zhì)量評(píng)估模型
在抽取了質(zhì)量評(píng)估特征后,它們可以與人工抽取的特征一起作為質(zhì)量評(píng)估模型或 Quality Estimator 的輸入來計(jì)算譯文質(zhì)量,。不過既然基于條件語言模型的特征抽取模型和質(zhì)量評(píng)估模型有緊密的聯(lián)系,,那么為什么不能將這兩個(gè)模型聯(lián)合在一起實(shí)現(xiàn)端到端的訓(xùn)練呢?陳博興表示如果做端到端的訓(xùn)練,,很多人工添加的特征是無法使用的,。此外,特征抽取模型廣泛使用的平行語料與質(zhì)量評(píng)估模型使用的 QE 數(shù)據(jù)集有比較大的不匹配性,,聯(lián)合訓(xùn)練可能會(huì)產(chǎn)生較差的性能,。這一點(diǎn)也非常直觀,平行語料只包含正確的目標(biāo)語句子,,而 QE 數(shù)據(jù)集同時(shí)包含正確與不正確的目標(biāo)語句子,。
正因?yàn)樘卣鞒槿∧P秃唾|(zhì)量評(píng)估模型雖然高度相關(guān),但還是兩個(gè)獨(dú)立的模型,,所以我們能額外手動(dòng)提取一些特征來提升模型效果,。這些基礎(chǔ)特征包括句長、標(biāo)點(diǎn)符號(hào)數(shù)量,、句子語言模型分?jǐn)?shù)等,,因此除了第一階段提取的特征外,阿里還額外融合了 17 個(gè)人工提取的特征,,與之前隱層合并結(jié)果再次合并作為預(yù)測條件,。
若將所有特征向量都拼接在一起,且每一個(gè)特征向量視為一個(gè)時(shí)間步,,那么我們就能以如下方式利用從原文與譯文中抽取的語義信息,。
阿里機(jī)器翻譯團(tuán)隊(duì)采用的質(zhì)量評(píng)估模型就是基于雙向 LSTM,模型預(yù)測的目標(biāo)即句子層面的翻譯質(zhì)量和單詞層面的翻譯對(duì)錯(cuò),。其實(shí)這兩個(gè)任務(wù)除了評(píng)估階段采用的架構(gòu)不一樣,,其它如特征抽取等過程都是一樣的。在句子層面中,,biLSTM 編碼的前向的最后一個(gè)時(shí)間步與后向的最后一個(gè)時(shí)間步的隱藏特征聯(lián)合計(jì)算一個(gè)實(shí)數(shù)值以表示翻譯質(zhì)量,,而在詞語層面的評(píng)估任務(wù)中,,biLSTM 編碼對(duì)應(yīng)的 目標(biāo)端詞的每一個(gè)時(shí)間步的前后向量隱藏特征聯(lián)合計(jì)算一個(gè)值以將它們分類為 OK 或 BAD。
數(shù)據(jù)與應(yīng)用
整個(gè)翻譯評(píng)估系統(tǒng)需要使用兩種數(shù)據(jù),,即詞預(yù)測模型所使用的平行數(shù)據(jù)集和評(píng)估模型所使用的 QE 數(shù)據(jù)集,。其中平行數(shù)據(jù)集可以在廣泛的領(lǐng)域收集,我們的目的是訓(xùn)練一個(gè)能抽取語言語義信息的模型,,這很類似于預(yù)訓(xùn)練一個(gè)強(qiáng)大的語言模型,。
而 WMT 組委會(huì)提供的 QE 訓(xùn)練數(shù)據(jù)只有 1 至 3 萬,這對(duì)于訓(xùn)練一個(gè)強(qiáng)大的魯棒性翻譯質(zhì)量評(píng)估模型是遠(yuǎn)遠(yuǎn)不夠的,。陳博興表示阿里機(jī)器翻譯團(tuán)隊(duì)在英德和德英語向上分別構(gòu)造 了 30 萬左右的 QE 訓(xùn)練偽數(shù)據(jù),。這部分?jǐn)?shù)據(jù)與真實(shí) QE 數(shù)據(jù)合并訓(xùn)練完質(zhì)量評(píng)估基線模型后,會(huì)再使用真實(shí)的 QE 數(shù)據(jù)微調(diào)模型,,即使用一個(gè)在大的數(shù)據(jù)集上預(yù)訓(xùn)練好的模型在真實(shí)場景數(shù)據(jù)上微調(diào),。
阿里機(jī)器翻譯團(tuán)隊(duì)參考了一些 WMT Automatic Post-Editing (APE)任務(wù)的方法。采用了一種 round-trip translation 的技術(shù),。先從大量單語數(shù)據(jù)中篩選出領(lǐng)域相關(guān)的單語,,作為人工后編輯譯文 PE;同時(shí)用雙語語料訓(xùn)練兩個(gè) MT 系統(tǒng)(例如,,如果要做英語到德語的翻譯質(zhì)量評(píng)估,,需要訓(xùn)練德語到英語和英語到德語的機(jī)器翻譯系統(tǒng))。將篩選的領(lǐng)域單語先通過一個(gè) MT 系統(tǒng)生成原文 SRC,;SRC 再通過另一個(gè) MT 系統(tǒng)生成譯文 MT,。這樣兩次調(diào)取 MT 結(jié)果的方法,生成了一批原文,,譯文和人工后編輯譯文組合的 APE 數(shù)據(jù),,稱為 APE 訓(xùn)練偽數(shù)據(jù)。然后他們通過 TER 工具生成了對(duì)應(yīng)的 HTER 分?jǐn)?shù)和詞標(biāo)注,,構(gòu)造出了 QE 偽數(shù)據(jù),。為了更好地模擬真實(shí)數(shù)據(jù),他們根據(jù)真實(shí) QE 數(shù)據(jù)的 HTER 分布,,從構(gòu)造的偽數(shù)據(jù)中隨機(jī)挑選出 30 萬,。這些偽數(shù)據(jù)先與真實(shí)的 QE 數(shù)據(jù)一起訓(xùn)練一個(gè) Quality Estimator 的基礎(chǔ) Baseline 模型,再單獨(dú)用真實(shí)的 QE 數(shù)據(jù) fine tune 模型,。
最后,,開發(fā)這樣一個(gè)翻譯質(zhì)量評(píng)估系統(tǒng)肯定是需要投入應(yīng)用的。陳博興表示翻譯質(zhì)量評(píng)估模型可以應(yīng)用在很多業(yè)務(wù)上,,例如它可以判斷翻譯系統(tǒng)給出的結(jié)果是不是足夠優(yōu)秀,,能不能直接展示給用戶。如果質(zhì)量不行的話,,譯文就可能需要人工校對(duì),。這對(duì)阿里的商品翻譯是非常重要的,,因?yàn)槿绻a(chǎn)品品牌、買賣價(jià)格,、產(chǎn)品描述等機(jī)器翻譯出現(xiàn)了誤差,,那么很容易引起業(yè)務(wù)上的糾紛。
此外,,由于 BLEU 值只能評(píng)估有參考譯文的翻譯結(jié)構(gòu),,這種翻譯質(zhì)量評(píng)估系統(tǒng)能更廣泛地輔助機(jī)器翻譯或人工翻譯。陳博興表示該系統(tǒng)還可以更直接地評(píng)估數(shù)據(jù),,因?yàn)榫W(wǎng)上收集或購買的數(shù)據(jù)可能并不能保證質(zhì)量,,所以該系統(tǒng)可以充當(dāng)過濾作用而確定能投入訓(xùn)練的高質(zhì)量雙語數(shù)據(jù)集??偠灾?,阿里在利用高質(zhì)量雙語數(shù)據(jù)集與 QE 數(shù)據(jù)集訓(xùn)練質(zhì)量評(píng)估模型后,它反過來可以評(píng)估其它雙語數(shù)據(jù),,并將優(yōu)秀的數(shù)據(jù)投入翻譯模型的訓(xùn)練與質(zhì)量評(píng)估系統(tǒng)的訓(xùn)練。