长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

騰訊AI Lab、港中文杰出論文:用單語記憶實現高性能NMT

2021-08-06 08:31
來源:澎湃新聞·澎湃號·湃客
字號

機器之心專欄

機器之心編輯部

在 ACL 2021 的一篇杰出論文中,研究者提出了一種基于單語數據的模型,性能卻優于使用雙語 TM 的「TM-augmented NMT」基線方法。

自然語言處理(NLP)領域頂級會議 ACL 2021 于 8 月 2 日至 5 日在線上舉行。據官方數據, 本屆 ACL 共收到 3350 篇論文投稿,其中主會論文錄用率為 21.3%。騰訊 AI Lab 共入選 25 篇論文(含 9 篇 findings)。

在不久之前公布的獲獎論文中,騰訊 AI Lab 與香港中文大學合作完成的《Neural Machine Translation with Monolingual Translation Memory》獲得杰出論文。本文作者也受邀參與機器之心舉辦的 ACL 2021 論文分享會,感興趣的同學可以點擊閱讀原文查看回顧視頻。

下面我們來看一下這篇論文的具體內容。

論文地址:https://arxiv.org/abs/2105.11269

先前的一些工作已經證明翻譯記憶庫(TM)可以提高神經機器翻譯 (NMT) 的性能。與使用雙語語料庫作為 TM 并采用源端相似性搜索進行記憶檢索的現有工作相比,該研究提出了一種新框架,該框架使用單語記憶并以跨語言方式執行可學習的記憶檢索。該框架具有一些獨特的優勢:

首先,跨語言記憶檢索器允許大量的單語數據作為 TM;

其次,記憶檢索器和 NMT 模型可以聯合優化以達到最終的翻譯目標。

實驗表明,該研究提出的方法獲得了實質性的改進。值得注意的是,即使不使用額外單語數據,這種方法也要優于使用雙語TM的 「TM-augmented NMT」基線方法。由于能夠利用單語數據,該研究還證明了所提模型在低資源和領域適應場景中的有效性。

方法

該研究首先將翻譯任務轉化為兩步過程:檢索和生成,并在論文中描述了跨語言記憶檢索模型和記憶增強型(memory-augmented)翻譯模型的模型設計。最后,該論文展示了如何使用標準最大似然訓練聯合優化這兩個組件,并通過交叉對齊預訓練解決了冷啟動(cold-start)問題。

該方法的整體框架如圖 1 所示,其中 TM 是目標語言

中句子的集合。給定源語言中的輸入 x,檢索模型首先會根據相關函數

,選擇一些來自 Z 的可能有用的句子

,其中

。然后,翻譯模型以檢索到的集合

和原始輸入 x 為條件,使用概率模型

來生成輸出 y。

值得注意的是,相關性分數

也是翻譯模型輸入的一部分,它能夠鼓勵翻譯模型更多地關注更相關的句子。在訓練期間,該研究借助翻譯參考的最大似然改進了翻譯模型和檢索模型。

檢索模型

檢索模型負責從大型單語 TM 中為源語句選出最相關的語句。這可能涉及測量源語句和數百萬個候選目標語句之間的相關性分數,帶來了嚴重的計算挑戰。為了解決這個問題,該研究使用一個簡單的雙編碼器框架(Bromley 等, 1993)來實現檢索模型,這樣最相關句子選擇可以利用最大內積搜索實現(MIPS, Maximum Inner Product Search)。借助高性能數據結構和搜索算法(例如 Shrivastava 和 Li,2014;Malkov 和 Yashunin,2018),可以高效地進行檢索。具體來說,該研究將源語句 x 和候選語句 z 之間的相關性分數 f(x, z) 定義為它們的密集向量表征的點積:

翻譯模型

給定一個源語句 x、相關 TM 的小型集合

、相關性分數

,翻譯模型會定義一個如下形式的條件概率

該翻譯模型建立在標準的編碼器 - 解碼器 NMT 模型上:(源)編碼器將源語句 x 轉換為密集向量表征,解碼器以自回歸方式生成輸出序列 y。在每一個時間步(time step)t,解碼器都會處理先前生成的序列

和源編碼器的輸出,生成隱藏狀態 h_t。然后隱藏狀態 h_t 通過線性投影轉換為 next-token 概率,接著會有一個 softmax 函數操作,即

為了容納額外的記憶輸入,該研究使用記憶編碼器擴展了標準的編碼器 - 解碼器 NMT 框架,并允許使用從解碼器到記憶編碼器的交叉注意力機制。具體來說,記憶編碼器對每個 TM 語句 z_i 單獨進行編碼,從而產生一組上下文 token 嵌入

,其中 L_i 是 token 序列 z_i 的長度。研究者計算了所有 TM 語句的交叉注意力:

為了使從翻譯輸出到檢索模型的梯度流有效,該研究將注意力分數與相關性分數進行了偏置處理,重寫了等式(1)如下所示:

訓練

該研究在負對數似然損失函數

中使用隨機梯度下降來優化模型參數 θ 和 φ,其中

指參考翻譯。

然而,如果檢索模型從隨機初始化開始,那么所有 top TM 語句 z_i 可能都與 x 無關(或無用)。這導致檢索模型無法接收有意義的梯度并進行改進,翻譯模型將學會完全忽略 TM 輸入。為了避免這種冷啟動問題,該研究提出了兩個交叉對齊任務來熱啟動檢索模型。

第一個任務是句子級的交叉對齊。具體來說,該研究在每個訓練 step 上對訓練語料庫采樣 B 個源 - 目標對。設 X 和 Z 分別對應由 E_src 和 E_tgt 編碼的源向量和目標向量的 (B×d) 矩陣。

是一個相關性分數的 (B×B) 矩陣 ,其中每一行對應一個源語句,每列對應一個目標語句。當 i = j 時,任何

對都應該對齊。目標是最大化矩陣對角線上的分數,然后減小矩陣中其他元素的值。損失函數可以寫成:

第二個任務是 token 級交叉對齊,其目的是在給定源語句表征的情況下預測目標語言中的 token,反之亦然。該研究使用詞袋損失:

其中

表示第 i 個源(目標)語句中的 token 集,token 概率由線性投影和 softmax 函數計算。

實驗結果

該研究在三種設置下進行了實驗:

(1)可用的 TM 僅限于雙語訓練語料庫的常規設置;

(2)雙語訓練對很少,但用單語數據作為額外 TM 的低資源設置;

(3)基于單語 TM 的非參數域自適應設置。

常規設置

為了研究每個模型組件的效果,研究人員實現了一系列的模型變體(如表 2 中的 #1 - #5):

如上表 2 所示,可以觀察到:

(1)該研究使用異步索引刷新訓練的完整模型(模型 #5),在四個翻譯任務的測試集上獲得了最佳性能,比 non-TM 基線(模型 #1)平均高出 3.26 個 BLEU 點,最高可達 3.86 個 BLEU 點( De?En)。這一結果證實了單語 TM 可以提高 NMT 的性能。

(2)端到端學習檢索器模型是大幅提高性能的關鍵,使用預訓練的固定跨語言檢索器只能提供中等的測試性能,微調 E_src 和固定 E_tgt 顯著提高了性能,同時微調 E_src 和 E_tgt 則能獲得最強的性能(模型 #5 > 模型 # 4 > 模型 #3)。

(3)跨語言檢索(模型 #4 和模型 #5)可以獲得比源相似性搜索(模型 #2)更好的結果。

低資源設置

圖 2 為在測試集上的主要結果,所有實驗的一般模式都是一致的,由結果可得:TM 越大,模型的翻譯性能越好。當使用所有可用的單語數據 (4/4) 時,翻譯質量顯著提高。未經重新訓練的模型的性能與經過重新訓練的模型的性能相當,甚至更好。此外,該研究還觀察到,當訓練對非常少時(只有 1/4 的雙語對可用),小型 TM 甚至會影響模型的性能,這可能是出于過擬合的原因。該研究推測,根據不同的 TM 大小調整模型超參數將獲得更好的結果。

該研究還與反向翻譯 (BT)進行了比較,這是一種將單語數據用于 NMT 的流行方法。該研究使用雙語對訓練目標到源的 Transformer Base 模型,并使用得到的模型翻譯單語語句以獲得額外的合成并行數據。如表 3 所示,該研究所用方法在 2/4 雙語對上比 BT 表現得更好,但在 1/4 雙語對上表現較差。 最令人驚喜的是,結果表明兩種方法是互補的,他們的結合使翻譯性能取得了進一步的巨大提升。

非參數領域自適應

由下表 4 可得,當僅使用雙語數據時,與 non-TM 基線相比,TM 增強模型在數據較少的域中獲得更高的 BLEU 分數,但在其他域中的分數略低。然而,當研究者將 TM 切換到特定域的 TM 時,所有域的翻譯質量都得到了顯著提升,將 non-TM 基線平均提高了 1.85 個 BLEU 點,在 Law 上提高了 2.57 個 BLEU 點,在 Medical 上提高了 2.51 個 BLEU 點。

該研究還嘗試將所有特定領域的 TM 合并成一個 TM,并將其用于所有域(如表 4 最后一行所示),但實驗結果并沒有獲得明顯的改進。這表明域外數據不能提供幫助,因此較小的域內 TM 就足夠了。

運行速度

FAISS in-GPU 索引能夠讓搜索數百萬個向量變得非常高效(通常在幾十毫秒內完成)。在該研究中,記憶搜索的執行速度甚至比原生的 BM25 還要快。對于表 2 中的結果,以普通的 Transformer Base 模型(模型 #1)為基線模型,該研究模型(包括模型 #4 和模型 #5)的推斷延遲大約是基線的 1.36 倍(所有模型都使用一個 Nvidia V100 GPU)。

至于訓練成本,模型 #4 和模型 #5 每個訓練 step 的平均時間成本分別是基線的 2.62 倍和 2.76 倍,與傳統的 TM-augmented 基線相當(模型 #2 是 2.59 倍)( 全部使用兩個 Nvidia V100 GPU),實驗結果如下表 5 所示。此外,該研究還觀察到,就訓練 step 而言,記憶增強型模型的收斂速度比普通模型快得多。

? THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

原標題:《ACL 2021 | 騰訊AI Lab、港中文杰出論文:用單語記憶實現高性能NMT》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐娱乐城足球盘网| 百家乐投注平台信誉排行| 古田县| 大发888游戏代充省钱技巧| qq百家乐网络平台| 网络百家乐官网金海岸破解软件| 大发888娱乐城3403| 去澳门百家乐娱乐城| 百家乐官网赌博技巧论坛| 云林县| 威尼斯人娱乐城排名| 百家乐博彩通| 百家乐官网桌子黑色| 百家乐官网游戏接口| 百家乐官网庄闲出现几率| 凌龙棋牌游戏大厅| 如何看百家乐的玩法技巧和规则| 阳宅64卦与24山| 法拉利百家乐官网的玩法技巧和规则 | 时时博百家乐娱乐城| 财经| 永利博| 足球比分网| 国外博彩网站| 美高梅娱乐城网址| 澳门顶级赌场娱乐平台| 金钱豹百家乐官网的玩法技巧和规则| 百家乐官网获胜秘决| 淘金盈赌场有假吗| 易胜博网址| e娱乐城棋牌| 舟山星空棋牌官网| 大发888娱乐客户端真钱| 大发888casino| 大发888新老虎机| 娱网棋牌下载| 投注平台网| 德保县| 百家乐官网视频游戏世界| 百家乐官网不倒翁缺点| 百家乐官网闲拉长龙|