日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

樹人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹人論文網(wǎng)

基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝機(jī)器翻譯研究

來源: 樹人論文網(wǎng)發(fā)表時(shí)間:2021-02-26
簡(jiǎn)要:摘 要:針對(duì)目前機(jī)器翻譯模型存在的曝光偏差和譯文多樣性差的問題,提出一種基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝神經(jīng)機(jī)器翻譯模型 QR-Transformer。首先,在句子級(jí)別引入評(píng)價(jià)機(jī)制

  摘 要:針對(duì)目前機(jī)器翻譯模型存在的曝光偏差和譯文多樣性差的問題,提出一種基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝神經(jīng)機(jī)器翻譯模型 QR-Transformer。首先,在句子級(jí)別引入評(píng)價(jià)機(jī)制來指導(dǎo)模型預(yù)測(cè)不完全收斂于參考譯文;其次,采用強(qiáng)化學(xué)習(xí)方法作為指導(dǎo)策略,實(shí)現(xiàn)模型在句子級(jí)別優(yōu)化目標(biāo)序列;最后,在訓(xùn)練過程中融入單語(yǔ)語(yǔ)料并進(jìn)行多粒度數(shù)據(jù)預(yù)處理以緩解數(shù)據(jù)稀疏問題。實(shí)驗(yàn)表明,QR-Transformer 有效提升了中朝神經(jīng)機(jī)器翻譯性能,與 Transformer 相比,中-朝語(yǔ)向 BLEU 值提升了 5.39,QE 分?jǐn)?shù)降低了 5.16,朝-中語(yǔ)向 BLEU 值提升了 2.73,QE 分?jǐn)?shù)下降了 2.82。

基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝機(jī)器翻譯研究

  本文源自計(jì)算機(jī)應(yīng)用研究 發(fā)表時(shí)間:2021-02-25《計(jì)算機(jī)應(yīng)用研究》系中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)刊之一,創(chuàng)刊于1984年,由國(guó)家科技部所屬四川省計(jì)算機(jī)研究院主辦,北京、天津、山東、吉林、云南、貴州、安徽、河南、廣西、甘肅、內(nèi)蒙古等十余省市計(jì)算中心協(xié)辦的計(jì)算技術(shù)類學(xué)術(shù)刊物[1]。

  關(guān)鍵詞:機(jī)器翻譯;中朝機(jī)器翻譯;強(qiáng)化學(xué)習(xí);機(jī)器翻譯質(zhì)量評(píng)估

  神經(jīng)機(jī)器翻譯(Neural Machine Translation, NMT)首次由 Kalchbrenner 和 Blunsom 在 2013 年提出[1],之后幾年間,大量基于編碼器-解碼器結(jié)構(gòu)的神經(jīng)機(jī)器翻譯模型涌現(xiàn)[2~4],翻譯性能和速度也不斷被刷新。隨著深度學(xué)習(xí)迅速發(fā)展,神經(jīng)機(jī)器翻譯由于其優(yōu)越的性能和無(wú)須過多人工干預(yù)等特點(diǎn),近年來備受關(guān)注[5,6]。朝鮮語(yǔ)是我國(guó)朝鮮族的官方語(yǔ)言[7],同時(shí)通行于朝鮮半島、美國(guó)、俄羅斯遠(yuǎn)東地區(qū)等朝鮮族聚居地區(qū),具有跨國(guó)跨地區(qū)的特點(diǎn)。朝鮮族是我國(guó) 24 個(gè)擁有自己語(yǔ)言的少數(shù)民族之一[8],因此中朝機(jī)器翻譯的研究,對(duì)促進(jìn)少數(shù)民族語(yǔ)言文字工作的發(fā)展、推動(dòng)中朝、中韓跨語(yǔ)言信息交流具有重要的現(xiàn)實(shí)意義和迫切的時(shí)代需求。

  目前,多數(shù) NMT 模型在訓(xùn)練時(shí)采用教師強(qiáng)制策略,即最小化生成句子及參考譯文之間的差異,迫使生成譯文與參考譯文無(wú)限接近。首先,由于在句子預(yù)測(cè)過程中通常沒有參考譯文可用,會(huì)帶來曝光偏差問題,這可能會(huì)影響模型的性能與魯棒性[9]。其次,語(yǔ)言中大量存在著同義詞與相似表達(dá)現(xiàn)象,因此即使使用教師強(qiáng)制策略,也無(wú)法保證模型每次生成譯文與參考譯文一致,且會(huì)極大遏止翻譯的多樣性,使得大部分合理譯文均為不可達(dá)狀態(tài)[10]。另外,對(duì)于中朝機(jī)器翻譯而言,國(guó)內(nèi)對(duì)于該任務(wù)的研究起步晚、基礎(chǔ)差,缺少大規(guī)模平行語(yǔ)料。在低資源環(huán)境下提升中朝機(jī)器翻譯質(zhì)量面臨諸多問題。

  獲取優(yōu)質(zhì)的譯文是機(jī)器翻譯模型的基本要求和最終目標(biāo) [11],模型輸出的譯文應(yīng)當(dāng)達(dá)到預(yù)期的翻譯質(zhì)量。從實(shí)用角度考慮,機(jī)器翻譯的評(píng)測(cè)指標(biāo)應(yīng)該是可調(diào)整的,即可以直接應(yīng)用于機(jī)器翻譯系統(tǒng)的優(yōu)化[12]。因此本文嘗試在句子級(jí)別引入一種評(píng)價(jià)機(jī)制來指導(dǎo)模型預(yù)測(cè)不完全收斂于參考譯文,以此緩解曝光偏差問題和翻譯多樣性差問題。評(píng)價(jià)機(jī)制采用無(wú)參考譯文的機(jī)器翻譯質(zhì)量評(píng)測(cè) (Quality Estimation, QE),指導(dǎo)策略采用策略優(yōu)化的強(qiáng)化學(xué)習(xí)方法,能夠?qū)崿F(xiàn)模型在句子級(jí)別上優(yōu)化目標(biāo)序列。為緩解強(qiáng)化學(xué)習(xí)本身存在公認(rèn)的訓(xùn)練不穩(wěn)定和方差大等問題,本文將傳統(tǒng)神經(jīng)機(jī)器翻譯的交叉熵?fù)p失函數(shù)與強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)進(jìn)行線性組合,并借鑒了 Weaver 等提出的基線反饋方法[9]。另外由于先前工作均采用 BLEU值[13]作為獎(jiǎng)勵(lì)函數(shù)[14,15],直接使用評(píng)價(jià)指標(biāo)優(yōu)化模型參數(shù)會(huì)導(dǎo)致模型產(chǎn)生嚴(yán)重偏向性,加劇了翻譯多樣性差的問題,因此本文提出了一種基于 QE 評(píng)價(jià)的獎(jiǎng)勵(lì)函數(shù)。同時(shí)在訓(xùn)練過程中使用單語(yǔ)語(yǔ)料和不同粒度的朝鮮語(yǔ)預(yù)處理,能夠克服數(shù)據(jù)稀疏性并提升低資源語(yǔ)言機(jī)器翻譯質(zhì)量。

  1 相關(guān)工作

  1.1 Bilingual Expert 機(jī)器翻譯質(zhì)量評(píng)估模型

  機(jī)器翻譯質(zhì)量評(píng)估不同于機(jī)器翻譯的評(píng)價(jià)指標(biāo)如 BLEU, TER[16],METEOR[17]等,它能夠在不依賴任何參考譯文的情況下,自動(dòng)給出機(jī)器生成譯文的質(zhì)量預(yù)測(cè)。目前最常用的質(zhì)量得分為人工編輯距離 HTER。HTER 需要語(yǔ)言學(xué)專家對(duì)機(jī)器生成譯文進(jìn)行后編輯,直至譯文通順且符合源句語(yǔ)義為止,這樣計(jì)算得到的編輯距離即 HTER 分?jǐn)?shù)。由于計(jì)算過程中采用非定向參考譯文,因此機(jī)器翻譯質(zhì)量評(píng)估對(duì)于多樣化的機(jī)器翻譯更加友好。

  為解決機(jī)器翻譯質(zhì)量評(píng)估問題,Kai 等在 2019 年提出了 Bilingual Expert 模型[18]。該模型由詞預(yù)測(cè)模塊和質(zhì)量評(píng)估模塊兩部分組成。首先通過平行語(yǔ)料對(duì)詞預(yù)測(cè)模塊進(jìn)行訓(xùn)練,訓(xùn)練過的詞預(yù)測(cè)模塊可提取到翻譯特征,其次將獲取特征和質(zhì)量得分標(biāo)注輸入至質(zhì)量評(píng)估模塊訓(xùn)練,最終可實(shí)現(xiàn)對(duì)待評(píng)估句子質(zhì)量的自動(dòng)評(píng)估。詞預(yù)測(cè)模塊通過雙向自注意網(wǎng)絡(luò)模型獲取當(dāng)前被預(yù)測(cè)詞的上下文信息,從而對(duì)目標(biāo)端單詞進(jìn)行預(yù)測(cè)。質(zhì)量評(píng)估模塊將詞預(yù)測(cè)模塊抽取出的特征通過 BiLSTM 回歸預(yù)測(cè)模型得到反映譯文質(zhì)量的得分。

  1.2 基于自注意力的神經(jīng)機(jī)器翻譯

  Vaswani 等提出的機(jī)器翻譯架構(gòu) Transformer[19]模型基于編碼器-解碼器結(jié)構(gòu),該模型完全擯棄了循環(huán)[5]和卷積[20]操作,開創(chuàng)性地使用自注意力機(jī)制來實(shí)現(xiàn)序列解碼問題,解決了傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)并行力差和長(zhǎng)距離依賴問題。

  如圖 1 所示,Transformer 模型的編碼器由 n 層堆疊形成,每層又包含多頭注意力和全連接前饋神經(jīng)網(wǎng)絡(luò)兩個(gè)子層,并均在其后添加殘差連接[21]和層歸一化[22]操作。模型使用多頭縮放點(diǎn)積注意力,當(dāng)輸入維度為 dk 的請(qǐng)求 Q 、鍵 K 和維度為 dv 的值 V 時(shí),注意力機(jī)制可表示為

  Attention ( ) softmax T dk ? ? = ? ? ? ? QK Q,K,V V (1) 多頭注意力機(jī)制可表示為 ( ) ( ) 1 h i MultiHead ( ) =Concat head ,..., e & head head =Att nt n io Q K V i i i Q,K,V Q K W W , W ,V (2)

  解碼器部分與編碼器基本相同,不同之處在于在每層添加了交叉注意子層用來對(duì)源隱藏狀態(tài)進(jìn)行多頭關(guān)注。另外為了在解碼器預(yù)測(cè)目標(biāo)序列時(shí)保持下文單詞不可見狀態(tài),加入了掩碼操作。

  1.3 基于強(qiáng)化學(xué)習(xí)的機(jī)器翻譯模型

  強(qiáng)化學(xué)習(xí)通過從環(huán)境狀態(tài)映射到動(dòng)作過程中獲取最大累計(jì)獎(jiǎng)賞,解決了復(fù)雜狀態(tài)空間下的決策問題,為自然語(yǔ)言處理任務(wù)提供了新思路[23]。在序列級(jí)任務(wù)中引入強(qiáng)化學(xué)習(xí),使得訓(xùn)練過程中直接優(yōu)化獎(jiǎng)勵(lì),解決了訓(xùn)練和預(yù)測(cè)過程中依賴分布不同導(dǎo)致的曝光偏差問題。大量工作表示出強(qiáng)化學(xué)習(xí)在序列生成任務(wù)中的優(yōu)勢(shì)[24,25]。

  強(qiáng)化學(xué)習(xí)的基本思想是智能體根據(jù)當(dāng)前交互環(huán)境選取一個(gè)執(zhí)行動(dòng)作,之后環(huán)境以某概率發(fā)生轉(zhuǎn)移并反饋給智能體一個(gè)獎(jiǎng)懲,智能體以最大化獎(jiǎng)勵(lì)為目的重復(fù)上述過程[26]。具體到翻譯任務(wù)中,NMT 模型視為作出決策的智能體,采用隨機(jī)策略 從詞表中選取候選詞看做一個(gè)動(dòng)作,智能體訓(xùn)練期間的目標(biāo)是追求期望獎(jiǎng)勵(lì)最大化,即: ( ) * a a t a = ? argmax | ; ? t s (3)

  2 翻譯模型框架結(jié)構(gòu)

  為緩解曝光偏差問題和翻譯多樣性差問題,本文提出了一種基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝機(jī)器翻譯模型 (Quality Estimation Reinforced Transformer, QR-Transformer)。 QR-Transformer 在句子級(jí)別引入評(píng)價(jià)機(jī)制指導(dǎo)模型預(yù)測(cè)不完全收斂于參考譯文。模型具體框架結(jié)構(gòu)如圖 2 所示,主要包含機(jī)器翻譯和機(jī)器翻譯質(zhì)量評(píng)估兩個(gè)模塊。模型翻譯模塊采用編碼器-解碼器架構(gòu)與 Transformer 保持一致,評(píng)估模塊采用句子級(jí)別的機(jī)器翻譯質(zhì)量評(píng)估模型 Bilingual Expert,采用強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練。訓(xùn)練算法如下:

  算法 1 模型訓(xùn)練算法輸入:? (a s t t | ;?) 。輸出:? (a s t t + + 1 1 | ;?) 。初始化參數(shù)? ; 初始化狀態(tài) t s ; while 未收斂: if t s 不是終止?fàn)顟B(tài): 根據(jù)策略? (a s t t | ;?) 選擇出動(dòng)作 t a ; 選取下一單詞 t 1 y + ; 通過質(zhì)量評(píng)估模塊計(jì)算獎(jiǎng)勵(lì) tr 并進(jìn)入新狀態(tài) t 1 s + ; for 狀態(tài)-動(dòng)作集合的每一步: 更新參數(shù)? ? ? + − ? (r b a s t t t ) ? ? log | ? ( ) ; end for return ?

  機(jī)器翻譯過程中 NMT 系統(tǒng)作為強(qiáng)化學(xué)習(xí)的智能體,通過不斷與環(huán)境進(jìn)行交互獲取當(dāng)前時(shí)刻環(huán)境狀態(tài)信息,即時(shí)間步 下源句 及生成目標(biāo)句的上文 。其中 表示時(shí)間步 之前模型預(yù)測(cè)的目標(biāo)句。智能體根據(jù)當(dāng)前環(huán)境的狀態(tài)決策出下一步所選單詞,同時(shí)獲得當(dāng)前狀態(tài)執(zhí)行選詞操作后的獎(jiǎng)勵(lì)值并進(jìn)入下一狀態(tài),通過強(qiáng)化學(xué)習(xí)最終找到翻譯的最優(yōu)策略。

  根據(jù)模型結(jié)構(gòu)將機(jī)器翻譯任務(wù)描述為:給定中朝平行語(yǔ)料,訓(xùn)練一個(gè)參數(shù)為?的機(jī)器翻譯模型 M?;機(jī)器翻譯模型 M?將 給定源句序列 x= , ,..., ( x x x 1 2 n ) 翻譯為目標(biāo)句序列 y= , ,..., ( y y y 1 2 n ) ,其中 nm, 分別為源句及目標(biāo)句的序列長(zhǎng)度;在時(shí)間步 t 時(shí),狀態(tài) yt 定義當(dāng)前時(shí)間步翻譯模型 M?生成的目標(biāo)句 yt t = , ,..., ( y y y 1 2 ) ,動(dòng)作 定義為在當(dāng)前環(huán)境下選取下一個(gè)單詞 yt+1 ;給定譯文數(shù)據(jù)及其 HTER 得分,訓(xùn)練參數(shù)為?的機(jī)器翻譯質(zhì)量評(píng)估模型 Q?,進(jìn)行有監(jiān)督訓(xùn)練之后的質(zhì)量評(píng)估模型 作為獎(jiǎng)勵(lì)函數(shù)的生成器對(duì)未見譯文給出質(zhì)量打分 ( ) ˆ Score y QE t ,機(jī)器翻譯模型 M?在 ( ) ˆ Score y QE t 的指導(dǎo)下與環(huán)境交互從而產(chǎn)生下一個(gè)單詞 。

  2.1 基于機(jī)器翻譯質(zhì)量評(píng)估模型的反饋信號(hào)生成

  優(yōu)秀的譯文通常包括忠實(shí)度、流利度等多方位評(píng)價(jià),因此機(jī)器翻譯任務(wù)難以抽象成簡(jiǎn)單的優(yōu)化問題。所以本文不直接采用人工設(shè)定單一規(guī)則作為獎(jiǎng)勵(lì)函數(shù)來源,而使用機(jī)器翻譯質(zhì)量評(píng)估模型 Q?的輸出作為獎(jiǎng)勵(lì)的一部分,模型 Q?可以通過相對(duì)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)生成譯文進(jìn)行更為全面的評(píng)分,評(píng)分結(jié)果與人類評(píng)價(jià)更具有相關(guān)性,且對(duì)譯文多樣性的包容度更高。

  本文中模型 Q?使用與 Bilingual Expert 相同的網(wǎng)絡(luò)結(jié)構(gòu),模型包括一個(gè)基于雙向 Transformer 的詞預(yù)測(cè)模塊和基于 BiLSTM 回歸預(yù)測(cè)模型。雙向 Transformer 架構(gòu)包括源句的自注意力編碼器、目標(biāo)句的雙向自注意力編碼器和目標(biāo)句的重構(gòu)器三個(gè)部分。通過在大規(guī)模平行語(yǔ)料上進(jìn)行預(yù)訓(xùn)練獲取隱藏狀態(tài)特征 h 。編碼器部分對(duì)應(yīng) q h x y ( | , ) ,解碼器部分對(duì)應(yīng) P y h ( | ) ,計(jì)算公式如下:

  q h x y q h x y q h x y =? ? ? (4) ( | ) ( | , ) t t t t p y h p y h h =? (5) 隱藏狀態(tài) h h h = ,..., ( 1 m ) 為前向后向隱藏狀態(tài)的拼接,獲取了句子深層次的翻譯特征。最后提取特征如下: Concat , , , , ( 1 1 ) mm t t t t f h h e e f = − + (6) 其中, 1 1 , e e t t − + 為目標(biāo)位置前后詞項(xiàng)詞嵌入表示, mm f 為錯(cuò)誤匹配特征。最后將特征 輸入至 Bi-LSTM 進(jìn)行訓(xùn)練得到預(yù)測(cè) HTER 得分: HTER =sigmoid Bi-LSTM ( ? ( )?) w f T ? (7) 訓(xùn)練過程目標(biāo)函數(shù)為 2 arg min||HTER-HTER ||2 ? (8)

  式(7)中得到的標(biāo)量值即為機(jī)器翻譯質(zhì)量評(píng)估模塊對(duì)生成譯文的評(píng)價(jià),與 BLEU 值相比更具有深層次翻譯特征,因此 QR-Transformer 使用該值對(duì)機(jī)器翻譯模塊進(jìn)行指導(dǎo),達(dá)到預(yù)測(cè)譯文不完全收斂于參考譯文的效果。

  2.2 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練方法

  基于強(qiáng)化學(xué)習(xí)的翻譯任務(wù)中,采用隨機(jī)策略? (at | ; st ?) 從詞表中選取候選詞看做一個(gè)動(dòng)作,智能體在訓(xùn)練過程中,通過解碼器生成目標(biāo)句后環(huán)境給出的獎(jiǎng)勵(lì)來學(xué)習(xí)得到更優(yōu)譯文。? ? (at t | ; * s W s b t ? = + ) ( ) (9) 其中:? (at | ; st ?) 表示選擇動(dòng)作的概率, 代表 sigmoid 函數(shù);代表策略網(wǎng)絡(luò)的參數(shù)。訓(xùn)練期間,動(dòng)作采樣表示為給定源句和上文下選取該詞的條件概率 ,目標(biāo)為追求期望獎(jiǎng)勵(lì)最大化,如式(4)所示。當(dāng)生成完整目標(biāo)句后,將句子的質(zhì)量評(píng)估得分作為標(biāo)簽信息計(jì)算反饋值,結(jié)合強(qiáng)化學(xué)習(xí)算法中的 Policy Gradient 方法[27]最大化預(yù)期收益,如公式(10)所示。 ( ) ( ) ( ) ( ) ˆ ˆ 1 ˆ 1 ( ) i ˆ ˆ ˆ N N i y p y x i i y Y J E R y p y x R y ? = = ?? = ? = ∣ ? ? ∣ (10)

  其中 Y 是候選翻譯句子組成的空間,R y( ˆ) 表示譯文的句子級(jí)反饋,因?yàn)樵跁r(shí)間步 t+1的狀態(tài)完全由時(shí)間步 t 的狀態(tài)決定,因此概率 與 p(S S t+1 t | ,at ) 為 1。最終使用梯度更新策略,如式(11)所示。 ( ) 1 1 1 ( ) ( - ) log | N L L t n t J R b a N ? ? ? ? = = ? ? = − ? ? ? t s (11)

  其中, N 代表回合數(shù), ,REINFORCE 算法的梯度估計(jì)存在較大差異,這主要是由于使用單個(gè)樣本來估計(jì)期望值所致。為了減少差異,在每個(gè)時(shí)間步 t 從返回的獎(jiǎng)勵(lì)中減去平均獎(jiǎng)勵(lì),作為更新策略的實(shí)際獎(jiǎng)勵(lì),從而避免迭代方向一直朝著錯(cuò)誤方向進(jìn)行,加快收斂速度。

  3 強(qiáng)化學(xué)習(xí)模型的訓(xùn)練

  3.1 基于波束搜索的動(dòng)作采樣策略

  基于強(qiáng)化學(xué)習(xí)的機(jī)器翻譯任務(wù)動(dòng)作空間巨大且離散,其大小為整個(gè)單詞表容量。在對(duì)動(dòng)作空間進(jìn)行采樣時(shí),使用窮舉搜索可以保證獲取到最佳動(dòng)作,但其計(jì)算成本過高,貪心策略計(jì)算成本小但無(wú)法保證獲取最優(yōu)序列。因此需要一個(gè)合理策略權(quán)衡性能與計(jì)算成本的關(guān)系。

  波束搜索(beam search)[28]是貪心搜索的改進(jìn)版本,它設(shè)置一個(gè)超參數(shù)波束大小 k 。在時(shí)間步 t 選擇具有最高條件概率的樣本作為候選輸出序列。在隨后時(shí)間步中,對(duì)上一時(shí)間步選出的候選序列重復(fù)上述操作。波束搜索的計(jì)算成本介于貪心搜索和窮舉搜索之間。特別地,當(dāng)波束大小為 1 時(shí),波束搜索退化為貪心搜索。通過靈活選擇波束大小,能夠在性能與計(jì)算成本之間進(jìn)行權(quán)衡。波束搜索原理示意如圖 3 所示。

  具體到機(jī)器翻譯任務(wù)中,波束搜索使得模型在解碼階段保留概率最高 k 個(gè)候選詞項(xiàng),并留至下一時(shí)間步繼續(xù)計(jì)算產(chǎn)生 k 個(gè)隱層狀態(tài),維持波束大小不變會(huì)產(chǎn)生 k k ?個(gè)預(yù)測(cè)結(jié)果,根據(jù)預(yù)測(cè)結(jié)果不斷生成序列直至產(chǎn)生句子結(jié)束符時(shí)終止。由于在每一時(shí)間步考慮了多種可能性,使得解碼階段產(chǎn)生高質(zhì)量翻譯結(jié)果的概率增大。

  3.2 融合 BLEU 值和 QE 分值的反饋函數(shù)設(shè)計(jì)

  建立恰當(dāng)?shù)莫?jiǎng)勵(lì)機(jī)制對(duì)獲取高質(zhì)量翻譯至關(guān)重要,因此設(shè)計(jì)高泛化能力的反饋函數(shù)是研究的重點(diǎn)。在以往的神經(jīng)機(jī)器翻譯任務(wù)中,均假設(shè)生成目標(biāo)句每個(gè)詞項(xiàng)的有效預(yù)測(cè)值唯一,即針對(duì)每個(gè)句子具有固定的參考譯文,因此最小風(fēng)險(xiǎn)培訓(xùn)方法[29]或基于強(qiáng)化學(xué)習(xí)的神經(jīng)機(jī)器翻譯模型[14,15]均使用生成句子與參考譯文之間的相似得分 BLEU 值作為訓(xùn)練目標(biāo)。然而在自然語(yǔ)言中,同一源句片段可對(duì)應(yīng)多個(gè)合理翻譯,基于 BLEU 值的反饋函數(shù)無(wú)法對(duì)參考譯文以外的詞匯給出合理的獎(jiǎng)懲力度,使得大部分合理譯文被否定,極大限制了強(qiáng)化學(xué)習(xí)對(duì)翻譯效果的提升,加劇了機(jī)器譯文多樣性差問題。因此本文將反饋函數(shù)設(shè)置為 ( ) ( ) ( ) 1 ˆ ˆ ˆ 1 t BLEU t QE t R y Score y Score y ?? − = + + (12)

  其中, Score y BLEU t ( ˆ ) 為生成譯文與參考譯文之間的歸一化 BLEU 值, 為生成譯文的歸一化 QE 評(píng)估得分;超參數(shù) 用于平衡 BLEU 值和 QE 得分之間的權(quán)重,避免引入QE 得分后有可能加重訓(xùn)練不穩(wěn)定的問題,從而使得訓(xùn)練能在較快速度收斂的同時(shí)充分考慮到翻譯的多樣性。

  在機(jī)器翻譯任務(wù)中,智能體需要采取數(shù)十個(gè)動(dòng)作來生成一個(gè)完整目標(biāo)句,但生成完整序列后僅可獲得一個(gè)終端反饋,且序列級(jí)的獎(jiǎng)勵(lì)無(wú)法區(qū)分每一詞項(xiàng)對(duì)總獎(jiǎng)勵(lì)的貢獻(xiàn)程度,因此存在獎(jiǎng)勵(lì)稀疏問題,這會(huì)導(dǎo)致模型收斂速度緩慢甚至無(wú)法學(xué)習(xí)。獎(jiǎng)勵(lì)塑造(Reward shaping)可緩解這一問題。該方法為解碼的每個(gè)時(shí)間步都分配一個(gè)即時(shí)獎(jiǎng)勵(lì),需要將獎(jiǎng)勵(lì)對(duì)應(yīng)至詞語(yǔ)級(jí)別,設(shè)置為 r y R y R y t t t t ( ˆ ) = − ( ˆ ) ( ˆ −1 ) (13)

  在訓(xùn)練期間,每完成一次采樣動(dòng)作均計(jì)算一個(gè)累計(jì)獎(jiǎng)勵(lì)作為當(dāng)前序列反饋值,兩個(gè)連續(xù)時(shí)間步之間的反饋差值為詞項(xiàng)級(jí)別獎(jiǎng)勵(lì)。這樣模型在每次動(dòng)作結(jié)束后都可獲取當(dāng)前時(shí)間步的即時(shí)獎(jiǎng)勵(lì),從而緩解了獎(jiǎng)勵(lì)稀疏問題。實(shí)驗(yàn)證明,使用獎(jiǎng)勵(lì)塑造不會(huì)改變最優(yōu)策略,同時(shí)由于整個(gè)序列的獎(jiǎng)勵(lì)值為每個(gè)詞項(xiàng)級(jí)獎(jiǎng)勵(lì)之和,與序列級(jí)獎(jiǎng)勵(lì)值保持一致,因此不會(huì)影響序列總獎(jiǎng)勵(lì)。 ( ) 1 ( ) ˆ ˆ T t t t t R y r y = = ? (14)

  3.3 損失函數(shù)設(shè)計(jì)

  為穩(wěn)定強(qiáng)化訓(xùn)練過程,緩解強(qiáng)化學(xué)習(xí)可能帶來的較大方差,本文將 MLE 訓(xùn)練目標(biāo)與 RL 目標(biāo)相結(jié)合。具體步驟是在損失函數(shù)中保留傳統(tǒng)機(jī)器翻譯的交叉熵?fù)p失函數(shù),然后與強(qiáng)化學(xué)習(xí)訓(xùn)練目標(biāo)進(jìn)行線性組合。混合后的損失函數(shù)為 L L L combine mle rl = + 1 ? ? ? − ( ) (15) 其中, 表示結(jié)合損失函數(shù), Lmle 表示交叉熵?fù)p失函數(shù),表示強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),?是控制 Lmle 和 Lrl 的之間權(quán)重的超參數(shù)。由于模型在訓(xùn)練初期得到的譯文比較粗糙,難以達(dá)到理想翻譯效果,因此完全使用強(qiáng)化學(xué)習(xí)目標(biāo)進(jìn)行訓(xùn)練(即? =0 )時(shí),會(huì)使得模型收斂困難,從而直接影響到模型翻譯性能;而一昧地增大交叉熵?fù)p失函數(shù)的比例則會(huì)削弱強(qiáng)化學(xué)習(xí)對(duì)模型帶來的性能提升。所以通過?值對(duì)交叉熵?fù)p失和強(qiáng)化學(xué)習(xí)目標(biāo)進(jìn)行權(quán)衡,能有效實(shí)現(xiàn)模型效益最大化。

  4 實(shí)驗(yàn)結(jié)果及分析

  4.1 實(shí)驗(yàn)語(yǔ)料

  實(shí)驗(yàn)用于訓(xùn)練翻譯模型和譯文質(zhì)量評(píng)估模型的數(shù)據(jù)資源來自于本實(shí)驗(yàn)室承擔(dān)“中韓科技信息加工綜合平臺(tái)”項(xiàng)目構(gòu)建的中-英-朝平行語(yǔ)料[30]。原始語(yǔ)料包含 3 萬(wàn)余句,涉及生物技術(shù)、海洋環(huán)境、航天 3 個(gè)領(lǐng)域。為緩解數(shù)據(jù)稀疏問題,實(shí)驗(yàn)還使用了額外單語(yǔ)語(yǔ)料。按照本文任務(wù)進(jìn)行預(yù)處理后得到的詳細(xì)數(shù)據(jù)信息如表 1 所示。QE 任務(wù)的 HTER 得分由 TERCOM 工具自動(dòng)計(jì)算得到。

  4.2 多粒度數(shù)據(jù)預(yù)處理

  大規(guī)模的語(yǔ)料詞嵌入可以為模型提供充分的先驗(yàn)信息,加快模型的收斂速度,有效提升下游任務(wù)效果。然而朝鮮語(yǔ)屬于低資源語(yǔ)言,缺乏大規(guī)模語(yǔ)料,因此語(yǔ)料中會(huì)存在大量低頻詞,進(jìn)而導(dǎo)致詞向量質(zhì)量較低。針對(duì)這一問題,本文使用更加靈活的朝鮮語(yǔ)語(yǔ)言粒度進(jìn)行詞嵌入,以此緩解數(shù)據(jù)稀疏問題。朝鮮語(yǔ)屬于表音音素文字,從語(yǔ)音角度而言,朝鮮語(yǔ)由音素按照規(guī)則構(gòu)成音節(jié),音節(jié)再構(gòu)成語(yǔ)句。由于音素和音節(jié)數(shù)量相對(duì)固定(音素 67 個(gè),音節(jié) 11172 個(gè)),使用這樣的粒度構(gòu)建詞典的規(guī)模非常小,與其他粒度相比能夠明顯減少低頻詞的存在。另外從語(yǔ)義角度看,分詞具有更清晰的形態(tài)以及語(yǔ)言特征。因此考慮使用音素、音節(jié)、詞三個(gè)粒度對(duì)朝鮮語(yǔ)文本進(jìn)行語(yǔ)料預(yù)處理。音素使用開源音素分解工具 hgtk 獲取,音節(jié)直接通過讀取字符獲得,分詞采用分詞工具 Kkma。

  4.3 實(shí)驗(yàn)設(shè)置

  翻譯模塊在基于自注意力的編碼器-解碼器框架上實(shí)現(xiàn), Transformer 系統(tǒng)采用與 Vaswani 等[14]描述相同的模型配置,具體實(shí)現(xiàn)采用谷歌大腦構(gòu)建的 Tensor2Tensor 開源工具, dropout 設(shè)置為 0.1,詞向量維數(shù)為 512,MLE 訓(xùn)練梯度優(yōu)化算法使用 Adam 算法[31]并使用學(xué)習(xí)率衰減調(diào)度;機(jī)器翻譯質(zhì)量評(píng)估模塊,特征提取部分編碼器和解碼器層數(shù)為 2,前饋?zhàn)訉与[藏單元數(shù)為 1024,注意力機(jī)制 head 數(shù)為 4;質(zhì)量評(píng)估部分使用單層 Bi-LSTM,隱層單元設(shè)置為 512,梯度優(yōu)化算法使用 Adam,學(xué)習(xí)率設(shè)置為 0.001;強(qiáng)化學(xué)習(xí)訓(xùn)練過程中使用 MLE 模型進(jìn)行參數(shù)初始化,學(xué)習(xí)率設(shè)置為 0.0001,波束搜索寬度設(shè)置為 6。

  4.4 實(shí)驗(yàn)結(jié)果

  4.4.1 翻譯性能

  為驗(yàn)證模型的翻譯性能,本文在相同硬件條件和語(yǔ)料規(guī)模下,與幾個(gè)常見的代表性神經(jīng)機(jī)器翻譯模型進(jìn)行中朝翻譯對(duì)比實(shí)驗(yàn)。其中 LSTM+attention 模型使用 Bahdanau 等人[5] 提出的網(wǎng)絡(luò)結(jié)構(gòu),并將循環(huán)單元替換為對(duì)長(zhǎng)距離依賴更友好的 LSTM;Transformer 模型使用 Vaswani 等人[19]提出的基于自注意力的網(wǎng)絡(luò)結(jié)構(gòu)。分別計(jì)算各模型在測(cè)試集上的 BLEU 值和 QE 值,所得結(jié)果如表 2 所示。

  從表 2 可以看出,QR-Transformer 在中-朝和朝-中兩個(gè)方向的翻譯任務(wù)上均可以超過基線模型,與 LSTM+attention 相比,中-朝語(yǔ)向 BLEU值提升了 9.87,QE分?jǐn)?shù)降低了 59.68,朝-中語(yǔ)向 BLEU 值提升了 10.99,QE 分?jǐn)?shù)下降了 57.76;與 Transformer 相比,中-朝語(yǔ)向 BLEU 值提升了 5.39,QE 分?jǐn)?shù)降低了 5.16,朝-中語(yǔ)向 BLEU 值提升了 2.73,QE 分?jǐn)?shù)下降了 2.82,引入評(píng)價(jià)模塊有效提高了中朝機(jī)器翻譯性能。

  由于模型引入了機(jī)器翻譯質(zhì)量模塊對(duì)翻譯模塊進(jìn)行強(qiáng)化訓(xùn)練,因此為保證該策略的合理性和有效性,本文對(duì)機(jī)器翻譯質(zhì)量評(píng)估模塊性能進(jìn)行驗(yàn)證。驗(yàn)證指標(biāo)采用 WMT 比賽使用的皮爾遜相關(guān)系數(shù)(Pearson’s Correlation Coefficient)、平均絕對(duì)誤差(Mean Average Error, MAE)和平方根均方誤差(Root Mean Squared Error, RMSE)。皮爾遜相關(guān)系數(shù)用于衡量預(yù)測(cè)值和真實(shí)值之間的相關(guān)性,正相關(guān)性越高則 QE 模塊性能越好。平均絕對(duì)誤差和平方根均方誤差分別代表預(yù)測(cè)值和真實(shí)值之間絕對(duì)誤差的平均值和均方誤差的平方根,值越小越好。同 時(shí) 實(shí) 驗(yàn) 與 開 源 系 統(tǒng) QuEst++[32]進(jìn) 行 對(duì) 比 , 該系統(tǒng)為 WMT2013-2019 官方基線系統(tǒng)。具體實(shí)驗(yàn)結(jié)果如表 3 所示。

  從表3實(shí)驗(yàn)結(jié)果可以看出,實(shí)驗(yàn)中采用的Bilingual Expert 相較于 QE 任務(wù)的基線系統(tǒng) QuEst++有較好的性能提升,皮爾遜相關(guān)系數(shù)提高了 0.079,MAE 降低了 0.018,RMSE 降低了 0.007,與人工評(píng)價(jià)具有較高的相關(guān)性,證明了本實(shí)驗(yàn)采用的機(jī)器翻譯質(zhì)量評(píng)估模型的有效性。因此利用機(jī)器翻譯質(zhì)量評(píng)估模塊來優(yōu)化翻譯模塊是合理的。

  在表 4 的翻譯示例中,QR-Transformer 在中-朝、朝-中兩個(gè)語(yǔ)向上得到的翻譯較為準(zhǔn)確,譯文的流暢度和忠實(shí)度都符合目標(biāo)語(yǔ)言規(guī)范,且譯文質(zhì)量明顯優(yōu)于其余基線模型,證明 QR-Transformer 可以有效提升中朝神經(jīng)機(jī)器翻譯模型的性能。

  5 結(jié)束語(yǔ)

  為緩解機(jī)器翻譯任務(wù)中教師強(qiáng)制策略帶來的曝光偏差和翻譯多樣性差的問題,本文提出了一種基于強(qiáng)化學(xué)習(xí)和機(jī)器翻譯質(zhì)量評(píng)估的中朝機(jī)器翻譯模型 QR-Transformer。該模型在句子級(jí)別引入了一種評(píng)價(jià)機(jī)制,以此指導(dǎo)模型預(yù)測(cè)不完全收斂于參考譯文。評(píng)價(jià)機(jī)制采用無(wú)參考譯文的機(jī)器翻譯質(zhì)量評(píng)估,指導(dǎo)策略采用強(qiáng)化學(xué)習(xí)方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效提升中朝機(jī)器翻譯的性能。在下一步工作中,本文將結(jié)合中文和朝鮮語(yǔ)的語(yǔ)言特點(diǎn),探索更適配于中朝機(jī)器翻譯評(píng)估的模型,從而進(jìn)一步提升中朝機(jī)器翻譯系統(tǒng)的性能。