熱門:瘦小腿瘦小腿瘦小腿

  1. 首頁
  2. 科技日報
  3. 科技

EMNLP 2018 最佳論文:Facebook 提升 11BLEU 的無監督機器翻譯

  • 小白兔

  • 2018-09-20 20:25:10

AI 科技評論按:說到機器翻譯,、我們都做過比較多的報道,大家也都比較熟悉;不過它們都是需要監督的。Google自然可以使用海量語料訓練 NMT,微軟研究院的系統即便使用了許多新的技巧來大幅提高樣本效率,也仍然需要足夠的平行雙語語料。然而我們無法為所有語言對都找到大量雙語平行語料,訓練出有監督 MT 系統

Facebook 的 EMNLP 2018 論文《Phrase-Based & Neural Unsupervised Machine Translation》(http://t.cn/RuU3tIq)(基於詞語的、無監督神經網路的機器翻譯)就介紹了他們在無監督機器翻譯方面的最新成果。無監督機器翻譯是目前的熱門研究課題之一,Facebook 的研究人員們通過巧妙的設計得到了高達11 BLEU 的表現提升;而 EMNLP 官方推特今天宣佈這篇論文是 EMNLP 2018 的兩篇最佳論文之一。論文作者們早些時候也撰寫了一篇通俗介紹文章發表在了 Facebook 部落格上,介紹了他們的主要思路。AI 科技評論全文編譯如下。

二維詞嵌入的旋轉對齊

自動語言翻譯對於 Facebook 來說非常重要,它可以讓數十億使用者以他們喜歡的語言進行聯絡和交流。為了做到這一點,當前的機器翻譯(MT)系統需要訪問大量的已翻譯文字(例如,分別用英語和西班牙語表示的相同文字對)。因此,MT 目前僅對於已擁有大量翻譯文字的少數語言集表現出不錯的效果。

在訓練模型時無需訪問任何翻譯文字資源的 MT 模型的建立(稱為無監督翻譯)是必要的下一步。EMNLP 2018 上我們展示了在該任務上完成的最新研究成果(http://arxiv.org/abs/1804.07755)。我們的新方法相較於之前最先進的無監督方法有了顯著的改進,效果與用近 100,000 個參考譯文訓練過的監督方法近乎一致。在這個領域中,1 BLEU (判斷MT準確度的常用指標)的提升都被看作不小的成績,而我們的新方法相比之前的方法有超過 10 BLEU 的改善。

無監督翻譯模型的建立是 MT 領域的一個重要發展方向,特別是世界上 6,500 種語言中,大多數語言對之間都沒有可用翻譯文字資源庫或譯文資料量極小以至於無法使用現有技術。對於匱乏譯文的語言,現在有一種方法可以學習在任意的語言,比如烏爾都語和英語之間進行互譯,只需使用英語中的文字和與烏爾都語中的完全不相關的文字,而不需要任何相應的翻譯文字。

這種新方法開啟了更多語言翻譯更快、更準確的大門,而這僅僅是將此類原理應用於機器學習和人工智慧的方法的一個開始。

逐字翻譯

邁向我們偉大的目標的第一步是讓系統學習雙語詞典,將一個詞與其他語言中的合理翻譯聯絡起來。為此,我們使用了我們在之前的論文中介紹到的方法(https://arxiv.org/abs/1710.04087),其中系統首先為每種語言中的每個單詞訓練詞嵌入(單詞的矢量表示)。

訓練詞嵌入通過上下文(例如,給定單詞前面的五個單詞和之後的五個單詞)來預測給定單詞周圍的單詞。儘管詞嵌入的形式簡單,但是詞嵌入可以抓取有趣的語義結構。例如,離「kitty」最近的是「cat」,並且「kitty」這個詞嵌入更接近於「animal」的嵌入,而不是「rocket」這個詞嵌入(因為「rocket」很少出現在「kitty」這個詞所在的語境中)。

此外,不同語言的詞嵌入具有相似的鄰域結構,因為不同國家的人畢竟活在同一個世界中。例如,英語中「cat」和「furry」之間的關係類似於它們在西班牙語中的相應翻譯(「gato」和「peludo」)之間的關係,因為這些單詞的頻率和它們的上下文是相似的。

由於這些相似之處,我們提出了一個包含各種新舊技術的組合,例如對抗訓練等,讓系統學習旋轉變換一種語言中的詞嵌入,以匹配另一種語言中的詞嵌入。有了這些資訊,無需訪問任何平行的翻譯譯文,我們就能推斷出一個相當準確的雙語詞典,並且基本上實現逐字翻譯。

可以通過簡單的旋轉(右)對齊兩種語言(左)的二維詞嵌入。旋轉後,通過最近鄰搜尋實現單詞翻譯。翻譯句子

使用無監督方法得到雙語詞典的逐字翻譯並不能完成一個很好的翻譯——單詞可能會丟失,無序或者完全錯誤。但是,它保留了大部分詞義。我們可以在此基礎上進行改進。通過使用已在大量單語資料上訓練好的語言模型進行區域性編輯,它可以對不同的單詞排序打分,故此流暢的句子得分要高於不符合語法或構造不良的句子。

因此,如果已擁有大量烏爾都語的單語資料集,我們可以在已有英語語言模型的同時,訓練烏爾都語的語言模型。在有了語言模型和初始的逐字翻譯模型之後,我們就可以構建翻譯系統的早期版本。

這個早期的系統雖然還不夠好,但比逐字翻譯效果更好(感謝語言模型),並且它可以用來將大量句子從源語言(烏爾都語)翻譯成目標語言(英語)。

接下來,我們將這些系統翻譯出的語句(原文為烏爾都語,翻譯為英語)作為標註過的真實資料進行處理,以訓練從英語到烏爾都語的反向 MT 系統。不可否認,由於第一個系統翻譯中存在錯誤,輸入的英語句子會有些問題。ACL2015論文(http://t.cn/Ev1CN18) 中 R. Sennrich 等人在半監督學習的 MT 系統中(有大量平行語料的情況下)曾介紹過這種技術,並將其稱為反向翻譯。本次是該技術首次應用於完全無監督的系統;通常,它最初是在有監督資料上訓練的。

現在我們有了一個更偏向流暢句子的烏爾都語語言模型,我們可以將反向翻譯中人工生成的平行句子與烏爾都語語言模型提供的校正相結合,以此來訓練從英語到烏爾都語的翻譯系統。

一旦系統經過訓練,我們就可以用它將英語中的許多句子翻譯成烏爾都語,形成另一種型別的資料集(原始句子為英語,翻譯成烏爾都語),有利於改進以前的烏爾都語到英語的 MT 系統。隨著一個系統得到改進,我們可以使用它以迭代方式在相反方向上為系統生成訓練資料,並根據需要進行多次迭代。

兩全其美的方法

在研究中,我們確定了三個步驟——逐字嵌入初始化,語言建模,以及反向翻譯——作為無監督 MT 的核心原理。根據這些原理,我們可以最終得到各種模型。我們將它們應用於兩種截然不同的通向無監督 MT 目標的方法。

第一種方法是無監督的神經模型,它產生的翻譯比逐字翻譯更流暢,但沒有達到我們想要的質量。然而,它們足以用作反向翻譯句子。通過反向翻譯,該方法與經 100,000 個並行句子訓練的監督模型效果一樣。

接下來,我們將這些原理應用於經典的基於計數的統計方法的另一個模型,稱為基於短語的 MT。有趣的是,這些模型往往在低資源語言對上表現更好,但這是第一次將此方法應用於無監督的 MT。在這種情況下,我們發現翻譯具有正確的單詞但不太流暢。同樣,這種方法優於以前最先進的無監督模型。

最後,我們將兩種模型結合起來得到一個兩全其美的方法:一個既流利又善於翻譯的模型。為此,我們從訓練好的神經模型開始,然後使用基於短語模型的其他反向翻譯句子對其進行訓練。

根據經驗,我們發現最後一種組合方法顯著提高了之前無監督 MT 的準確性——在英語——法語和英語——德語作為測試集的兩種語言對中(即使對於這些語言對,在訓練時也沒有使用任何並行資料——僅在測試時進行評估),此組合方式在 BLEU 得分上提高了超過 10 個點。

我們還在以下語言上測試了我們的方法:遠距離語言對,如英語——俄語;譯文資源匱乏的語言,如英語——羅馬尼亞語;資源極度匱乏且遠距離的語言對,如英語——烏爾都語。在所有情況下,我們的方法相較於其他無監督方法都有很大改進,有時甚至超過使用來自其他域或其他語言的並行語言資料的有監督方法。

下面的德語——英語翻譯示例顯示了每種方法的結果:

在機器翻譯之外還有更大的世界

完成超過 10 BLEU 得分的增加是一個令人興奮的開始,但對我們來說更令人興奮的是它為未來改進開啟的可能性。從短期來看,這必然有助於我們翻譯更多語言並提高少資源語言的翻譯質量。但是,從這種新方法和基本原理中可獲得的知識遠遠超出 MT 本身。

我們認為,這項研究的潛力可以應用於任何領域的無監督學習,並有可能使智慧體能夠利用未標註的資料,並對於當前需要專家演示(在本例中是翻譯)中的任務,未來只需要很少就能夠執行得到很好的效果。這項工作表明,系統至少有可能在無監督的情況下學習,並建立一個雙向的系統,在這個系統中,每個元件都可以在良性迴圈中不斷改進。

論文地址:https://arxiv.org/abs/1804.07755

程式碼地址:https://github.com/facebookresearch/UnsupervisedMT

部落格地址:https://code.fb.com

EMNLP 2018 論文獎情況

根據 EMNLP 官方推特宣佈的訊息,兩篇最佳論文中的另一篇來自Google

Linguistically-Informed Self-Attention for Semantic Role Labeling

還有一篇最佳資源論文

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling(論文內容尚未公開)

EMNLP 2018 將於 10 月 31 日到 11 月 4 日在比利時布魯塞爾召開,更多報道請繼續關注AI 科技評論。

推薦您的文章

其他文章