日本在线观看不卡,国产成人免费观看,国产gaysex男同视频chinese,欧美一级www

樹(shù)人論文網(wǎng)一個(gè)專業(yè)的學(xué)術(shù)咨詢網(wǎng)站!!!
樹(shù)人論文網(wǎng)

融合數(shù)據(jù)增強(qiáng)與多樣化解碼的神經(jīng)機(jī)器翻譯

來(lái)源: 樹(shù)人論文網(wǎng)發(fā)表時(shí)間:2021-06-28
簡(jiǎn)要:摘要:基于神經(jīng)機(jī)器翻譯模型Transformer,提出一種融合數(shù)據(jù)增強(qiáng)技術(shù)和多樣化解碼策略的方法來(lái)提高機(jī)器翻譯的性能.首先,對(duì)訓(xùn)練語(yǔ)料進(jìn)行預(yù)處理和泛化,提高語(yǔ)料質(zhì)量并緩解詞匯稀疏

  摘要:基于神經(jīng)機(jī)器翻譯模型Transformer,提出一種融合數(shù)據(jù)增強(qiáng)技術(shù)和多樣化解碼策略的方法來(lái)提高機(jī)器翻譯的性能.首先,對(duì)訓(xùn)練語(yǔ)料進(jìn)行預(yù)處理和泛化,提高語(yǔ)料質(zhì)量并緩解詞匯稀疏的現(xiàn)象;然后,基于數(shù)據(jù)增強(qiáng)技術(shù)使用單語(yǔ)句子構(gòu)造偽雙語(yǔ)數(shù)據(jù),擴(kuò)充雙語(yǔ)平行語(yǔ)料以增強(qiáng)模型;最后,在解碼階段融合檢查點(diǎn)平均、模型集成、重打分等策略以提高譯文質(zhì)量.第16屆全國(guó)機(jī)器翻譯大會(huì)(CCMT2020)中英新聞?lì)I(lǐng)域翻譯任務(wù)的實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的方法較基線系統(tǒng)的雙語(yǔ)互譯評(píng)估(BLEU)值提升了4.89個(gè)百分點(diǎn).

融合數(shù)據(jù)增強(qiáng)與多樣化解碼的神經(jīng)機(jī)器翻譯

  本文源自張一鳴; 劉俊鵬; 宋鼎新; 黃德根, 廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版) 發(fā)表時(shí)間:2021-06-21

  關(guān)鍵詞:神經(jīng)機(jī)器翻譯;數(shù)據(jù)增強(qiáng);多樣化解碼

  近年來(lái),隨著端到端結(jié)構(gòu)[1]的提出,神經(jīng)機(jī)器翻譯獲得了迅速發(fā)展.早期的神經(jīng)機(jī)器翻譯采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)句子建模,將源語(yǔ)言的句子壓縮成一個(gè)向量供譯文生成使用;但傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)容易發(fā)生梯度爆炸和梯度消失的問(wèn)題[2],無(wú)法有效地傳遞長(zhǎng)距離的信息,因此翻譯效果較差.為此,長(zhǎng)短期記憶網(wǎng)絡(luò)[3]和門(mén)循環(huán)單元[4]的引入能更好地捕捉長(zhǎng)距離依賴,顯著改善了神經(jīng)機(jī)器翻譯系統(tǒng)的性能,從而超越了統(tǒng)計(jì)機(jī)器翻譯方法[5-6].然而,考慮到循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的不穩(wěn)定性以及串行執(zhí)行的低效率,一些高效并行的網(wǎng)絡(luò)結(jié)構(gòu)被相繼提出,其中應(yīng)用最廣泛的是基于卷積神經(jīng)網(wǎng)絡(luò)的ConvS2S模型[7]和基于自注意力機(jī)制的Transformer模型[8].相比之下,Transformer模型的翻譯性能更加優(yōu)異,目前已成為機(jī)器翻譯領(lǐng)域的主流模型.但受限于詞表大小和雙語(yǔ)語(yǔ)料規(guī)模,神經(jīng)機(jī)器翻譯往往在實(shí)體翻譯和模型泛化性上表現(xiàn)不佳;同時(shí),解碼階段采用“最佳模型”進(jìn)行預(yù)測(cè)的方式可能無(wú)法獲得全局最優(yōu)的譯文結(jié)果.

  面向第16屆全國(guó)機(jī)器翻譯大會(huì)(CCMT2020)中英新聞?lì)I(lǐng)域的機(jī)器翻譯任務(wù),本文主要從以下3個(gè)方面改進(jìn)上述問(wèn)題:1)數(shù)據(jù)泛化.基于規(guī)則識(shí)別匹配和外部資源對(duì)時(shí)間表達(dá)式、數(shù)字、人名等實(shí)體進(jìn)行泛化.

  2)數(shù)據(jù)增強(qiáng).使用源端單語(yǔ)句子構(gòu)造偽雙語(yǔ)句對(duì),通過(guò)長(zhǎng)度比、詞對(duì)齊等篩選條件對(duì)偽語(yǔ)料進(jìn)行過(guò)濾,然后擴(kuò)充到雙語(yǔ)平行語(yǔ)料中提升翻譯性能.3)多樣化解碼策略.調(diào)整長(zhǎng)度懲罰因子、束搜索寬度參數(shù),嘗試用不同的方式結(jié)合檢查點(diǎn)平均和模型集成來(lái)進(jìn)行解碼,并以雙語(yǔ)互譯評(píng)估(BLEU)值作為評(píng)價(jià)標(biāo)準(zhǔn)對(duì)多個(gè)候選譯文進(jìn)行重打分,得到最優(yōu)譯文.

  1數(shù)據(jù)泛化

  1.1語(yǔ)料預(yù)處理

  實(shí)驗(yàn)使用的數(shù)據(jù)集均來(lái)自CCMT2020公開(kāi)的語(yǔ)料,包括CCMT中英新聞?lì)I(lǐng)域的雙語(yǔ)平行語(yǔ)料和中文單語(yǔ)語(yǔ)料XMU-CWMT2017.其中,雙語(yǔ)句對(duì)數(shù)量約為902萬(wàn),中文單語(yǔ)句子數(shù)量約為500萬(wàn).

  首先,為了提高數(shù)據(jù)質(zhì)量,在訓(xùn)練前對(duì)上述語(yǔ)料進(jìn)行過(guò)濾處理,包括:過(guò)濾含有亂碼的句子,將轉(zhuǎn)義字符替換為對(duì)應(yīng)的符號(hào),將全角符號(hào)統(tǒng)一轉(zhuǎn)換為半角格式,去除重復(fù)的句子.其次,為緩解詞匯稀疏的現(xiàn)象,對(duì)語(yǔ)料進(jìn)行泛化處理,詳見(jiàn)1.2節(jié).之后使用NiuTrans[9]中提供的分詞工具對(duì)中英文進(jìn)行分詞,并篩選保留中英文句子長(zhǎng)度比在0.4~1.6范圍內(nèi)的句子.最后,為了精簡(jiǎn)詞表,更好地解決集外詞的問(wèn)題,采用Sennrich等[10]提出的字節(jié)對(duì)編碼(bytepairencoding,BPE)分別將中英文詞語(yǔ)切分成更小粒度的子詞,翻譯后再進(jìn)行恢復(fù).

  1.2語(yǔ)料泛化處理

  新聞?lì)I(lǐng)域的語(yǔ)料中常包含著大量的命名實(shí)體,如人名、地名和機(jī)構(gòu)名等,這些命名實(shí)體出現(xiàn)的次數(shù)較多,但重復(fù)率不高,尤其是人名.為了緩解詞匯稀疏的現(xiàn)象,本研究對(duì)語(yǔ)料進(jìn)行泛化處理[11].對(duì)訓(xùn)練語(yǔ)料進(jìn)行人名泛化,在測(cè)試階段對(duì)中文單語(yǔ)進(jìn)行人名、地名和機(jī)構(gòu)名的泛化.同時(shí),對(duì)時(shí)間表達(dá)式、數(shù)字等特殊表達(dá)也進(jìn)行了泛化.采用基于規(guī)則的方法對(duì)數(shù)字、日期和時(shí)間表達(dá)式進(jìn)行識(shí)別和匹配,然后用“$number”、“$date”和“$time”標(biāo)簽對(duì)匹配項(xiàng)進(jìn)行替換.在一個(gè)句子中通常存在著多個(gè)同類泛化成分,為了加以區(qū)分并降低恢復(fù)難度,在標(biāo)簽中添加不同的數(shù)字編號(hào)進(jìn)行區(qū)分,即“$number_i”、“$date_i”、“$time_i”(i=0,1,…,n).采用實(shí)驗(yàn)室內(nèi)部開(kāi)發(fā)的中文實(shí)體識(shí)別工具和StanfordCoreNLP開(kāi)源工具(http:∥nlp.stanford.edu/software/stanford-english-corenlp-2018-10-05-models.jar)分別對(duì)中英文實(shí)體進(jìn)行識(shí)別.然后,基于中英文人名詞典對(duì)人名進(jìn)行識(shí)別匹配.初步匹配后,根據(jù)中文人名常使用漢語(yǔ)拼音作為英文翻譯這一特點(diǎn),綜合拼音模糊匹配以及中英文人名首字母音譯規(guī)律對(duì)人名進(jìn)行再次匹配.用“$name”標(biāo)簽對(duì)匹配項(xiàng)進(jìn)行替換,同樣加數(shù)字編號(hào)進(jìn)行區(qū)分,即“$name_i”(i=0,1,…,n).受限于外部資源,僅在測(cè)試階段對(duì)中文單語(yǔ)增加了地名和機(jī)構(gòu)名的泛化.通過(guò)訓(xùn)練集的詞頻統(tǒng)計(jì),使用中國(guó)省份名稱的中英文翻譯作為標(biāo)簽對(duì)兩類實(shí)體進(jìn)行泛化,如“北京-Beijing”和“天津-Tianjin”等.

  數(shù)據(jù)泛化階段,雙語(yǔ)語(yǔ)料的泛化需要保證中英兩側(cè)泛化標(biāo)簽的一致性,若存在單側(cè)識(shí)別不匹配的情況,則保持原有形式不作處理;單語(yǔ)語(yǔ)料的泛化則需要對(duì)所有匹配項(xiàng)進(jìn)行泛化處理.由于在測(cè)試階段對(duì)單語(yǔ)進(jìn)行了泛化處理,所以解碼后的譯文中包含泛化標(biāo)簽,根據(jù)標(biāo)簽對(duì)應(yīng)關(guān)系對(duì)泛化部分進(jìn)行恢復(fù)后才能得到最終譯文.對(duì)于數(shù)字、日期和時(shí)間表達(dá)式來(lái)說(shuō),統(tǒng)計(jì)常用中英文表達(dá)的轉(zhuǎn)換規(guī)律,根據(jù)這些規(guī)律編寫(xiě)固定的翻譯規(guī)則進(jìn)行恢復(fù);對(duì)于人名、地名和機(jī)構(gòu)名來(lái)說(shuō),使用外部詞典進(jìn)行還原.對(duì)人名來(lái)說(shuō),若詞典中無(wú)匹配結(jié)果,則使用中文人名的拼音作為英文翻譯結(jié)果.

  2數(shù)據(jù)增強(qiáng)

  為了更好地利用單語(yǔ)語(yǔ)料,Sennrich等[12]提出了一種利用目標(biāo)端的單語(yǔ)數(shù)據(jù)生成偽雙語(yǔ)句對(duì)的數(shù)據(jù)增強(qiáng)技術(shù),即反向翻譯技術(shù),可以有效擴(kuò)充訓(xùn)練語(yǔ)料,提升翻譯質(zhì)量.Zhang等[13]提出了利用源端單語(yǔ)句子的數(shù)據(jù)增強(qiáng)方法,同樣可以有效地增強(qiáng)雙語(yǔ)模型.在此基礎(chǔ)上,采用正向翻譯技術(shù)來(lái)構(gòu)造偽雙語(yǔ)句對(duì),以此來(lái)增強(qiáng)雙語(yǔ)模型.數(shù)據(jù)增強(qiáng)的總體流程如圖1所示.

  2.1偽雙語(yǔ)語(yǔ)料的構(gòu)建

  為了提高偽雙語(yǔ)句對(duì)的質(zhì)量,需要對(duì)中文單語(yǔ)語(yǔ)料進(jìn)行額外的過(guò)濾處理,包括:去除包含特殊符號(hào)的句子,去除字符長(zhǎng)度小于11且中文字符占比小于0.5的句子,以“;”和“。”作為切分點(diǎn)對(duì)長(zhǎng)句進(jìn)行切割.

  過(guò)濾后得到質(zhì)量相對(duì)較好的中文單語(yǔ)語(yǔ)料.利用事先訓(xùn)練的一個(gè)翻譯性能較好的正向翻譯模型將該中文單語(yǔ)語(yǔ)料翻譯成英文平行語(yǔ)料,進(jìn)而共同構(gòu)成初始偽雙語(yǔ)語(yǔ)料.

  2.2偽雙語(yǔ)語(yǔ)料過(guò)濾

  為了保證偽雙語(yǔ)語(yǔ)料的質(zhì)量,使用長(zhǎng)度比和詞對(duì)齊兩個(gè)約束對(duì)生成的偽雙語(yǔ)語(yǔ)料進(jìn)行過(guò)濾:首先,將長(zhǎng)度比限定在0.4~1.6的范圍內(nèi),剔除句子長(zhǎng)度差距過(guò)大的句對(duì)以減少干擾;其次,使用GIZA++工具對(duì)偽雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊,去掉詞對(duì)齊比率過(guò)低的句子.過(guò)濾后,將偽雙語(yǔ)語(yǔ)料擴(kuò)充到雙語(yǔ)平行語(yǔ)料中形成新的訓(xùn)練集.融合后訓(xùn)練集中包含的雙語(yǔ)平行語(yǔ)料和偽雙語(yǔ)語(yǔ)料句子數(shù)分別為670萬(wàn)和680萬(wàn),其中關(guān)于雙語(yǔ)平行語(yǔ)料和偽雙語(yǔ)語(yǔ)料的統(tǒng)計(jì)均為過(guò)濾之后實(shí)際用于訓(xùn)練的數(shù)量,在此基礎(chǔ)上訓(xùn)練數(shù)據(jù)增強(qiáng)后的中英神經(jīng)翻譯模型.

  3解碼策略

  實(shí)驗(yàn)融合檢查點(diǎn)平均[14]、模型集成、重打分方法在解碼階段提高譯文質(zhì)量.下面分別對(duì)這3個(gè)方面進(jìn)行介紹.

  1)檢查點(diǎn)平均.檢查點(diǎn)平均是指將同一模型在不同時(shí)刻保存的參數(shù)進(jìn)行平均.保存的參數(shù)通常選擇模型基本收斂時(shí)對(duì)應(yīng)的最后N個(gè)時(shí)刻的參數(shù),防止引入其他噪聲.以同等的權(quán)重對(duì)N個(gè)檢查點(diǎn)的參數(shù)進(jìn)行平均,得到魯棒性更強(qiáng)的模型參數(shù)

  2)模型集成.模型集成是利用多個(gè)機(jī)器翻譯系統(tǒng)協(xié)同進(jìn)行解碼的方法,在神經(jīng)機(jī)器翻譯領(lǐng)域有著廣泛的應(yīng)用[14-15].集成解碼使用的模型可以使用同構(gòu)或者異構(gòu)的系統(tǒng),一般來(lái)說(shuō)結(jié)構(gòu)和初始化均不同的模型通常更具有差異性,能夠帶來(lái)更大的提升.

  3)重打分.解碼階段,同一個(gè)源句子可以通過(guò)調(diào)整長(zhǎng)度懲罰因子和束搜索寬度參數(shù)設(shè)置的方式生成多個(gè)候選譯文.進(jìn)一步實(shí)驗(yàn)發(fā)現(xiàn),對(duì)于不同的源句子而言,最佳候選翻譯往往對(duì)應(yīng)不同的參數(shù)設(shè)置.因此,使用單一參數(shù)設(shè)置解碼得到的譯文結(jié)果往往無(wú)法達(dá)到最優(yōu).為此,實(shí)驗(yàn)中使用句子級(jí)別的BLEU值作為評(píng)分標(biāo)準(zhǔn),通過(guò)重打分選取多個(gè)候選譯文結(jié)果中得分最高的句子作為最終輸出.

  實(shí)驗(yàn)采用相同的驗(yàn)證集,通過(guò)調(diào)整訓(xùn)練語(yǔ)料規(guī)模以及隨機(jī)初始化等方式訓(xùn)練了k個(gè)英文到中文的翻譯模型M1,M2,…,Mk以用于重打分.當(dāng)輸入一個(gè)中文源句子S進(jìn)行解碼時(shí),首先通過(guò)調(diào)整參數(shù)的方式生成n個(gè)候選譯文,形成候選列表C.然后,選取C中的一個(gè)候選譯文Ci,使用M1,M2,…,Mk對(duì)其進(jìn)行反向解碼,將其重新翻譯成多個(gè)中文句子L1,L2,…,Lk.分別計(jì)算L1,L2,…,Lk與S的BLEU值,得到V1,…,Vk.以模型M1,M2,…,Mk在訓(xùn)練階段驗(yàn)證集上獲得的最高BLEU值作為各自的權(quán)重W1,…,Wk,通過(guò)加權(quán)求和得到譯文句子Ci的評(píng)價(jià)分?jǐn)?shù)Si.重復(fù)上述操作,循環(huán)n次后得到與候選列表C相對(duì)應(yīng)的評(píng)價(jià)分?jǐn)?shù)列表.最后,對(duì)比n個(gè)候選譯文的評(píng)價(jià)分?jǐn)?shù),從C中選擇得分最高的候選譯文T作為最終輸出.

  4實(shí)驗(yàn)結(jié)果

  4.1實(shí)驗(yàn)參數(shù)

  本實(shí)驗(yàn)使用開(kāi)源框架THUMT中提供的Transformer模型作為基線系統(tǒng),實(shí)驗(yàn)參數(shù)如下:編碼器與解碼器的層數(shù)均為6層,詞向量與隱層狀態(tài)維度均為512,前饋神經(jīng)網(wǎng)絡(luò)中的隱層狀態(tài)維度為2048,多頭注意力機(jī)制使用8個(gè)頭.訓(xùn)練階段中的每個(gè)批次(batch)包含6250個(gè)詞,模型訓(xùn)練20萬(wàn)步,每2000步保存一次模型參數(shù)(檢查點(diǎn)),并在訓(xùn)練過(guò)程中保存最優(yōu)的10個(gè)檢查點(diǎn).損失函數(shù)使用極大似然估計(jì),并使用Adam梯度優(yōu)化算法,初始學(xué)習(xí)率為1.0,預(yù)熱學(xué)習(xí)步數(shù)為4000.訓(xùn)練集雙語(yǔ)語(yǔ)料使用BPE算法進(jìn)行切分,中英文詞表大小均限制為3.2萬(wàn),且兩者不共享詞表.解碼階段,使用集束搜索算法和長(zhǎng)度懲罰因子對(duì)模型進(jìn)行調(diào)優(yōu).實(shí)驗(yàn)使用兩個(gè)NVIDIATITANXpGPU進(jìn)行訓(xùn)練.

  模型方面,首先通過(guò)隨機(jī)初始化參數(shù)的方式訓(xùn)練了4個(gè)增強(qiáng)的中英模型,然后選取每個(gè)模型中BLEU值得分最高的3個(gè)檢查點(diǎn)進(jìn)行檢查點(diǎn)平均,最后對(duì)4個(gè)平均模型進(jìn)行模型集成來(lái)完成最后的解碼.在重打分階段引入了4組不同參數(shù)設(shè)置下生成的譯文結(jié)果作為候選項(xiàng),訓(xùn)練了3個(gè)不同的英中模型用于譯文結(jié)果的重打分.

  4.2實(shí)驗(yàn)結(jié)果與分析

  系統(tǒng)在驗(yàn)證集newstest2019上的結(jié)果如表1所示,評(píng)測(cè)指標(biāo)采用大小寫(xiě)不敏感的BLEU值,使用multi-BLEU作為評(píng)測(cè)工具.

  從表1可以看出,在基線系統(tǒng)(系統(tǒng)0)上逐步加入正向翻譯、檢查點(diǎn)平均、模型集成、重打分構(gòu)成系統(tǒng)1~4,這些方法對(duì)系統(tǒng)BLEU值的提高均有幫助,總體可提高4.89個(gè)百分點(diǎn).其中,正向翻譯技術(shù)提升的效果較為顯著,相較于基線系統(tǒng)可以提高3.48個(gè)百分點(diǎn),說(shuō)明單語(yǔ)數(shù)據(jù)的引入可顯著提升機(jī)器翻譯的性能.

  同時(shí),在實(shí)驗(yàn)過(guò)程中對(duì)以下3個(gè)方面進(jìn)行分析:

  1)正向翻譯分析

  在數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)階段,使用長(zhǎng)度比和詞對(duì)齊兩個(gè)約束條件對(duì)生成的偽雙語(yǔ)句對(duì)進(jìn)行過(guò)濾.為了探索語(yǔ)料過(guò)濾手段的有效性,分別將過(guò)濾前和過(guò)濾后的偽雙語(yǔ)語(yǔ)料與雙語(yǔ)平行語(yǔ)料融合生成不同的訓(xùn)練集,然后各自訓(xùn)練生成不同的中英翻譯模型.對(duì)比分析兩個(gè)模型在驗(yàn)證集上的表現(xiàn)來(lái)檢驗(yàn)語(yǔ)料過(guò)濾的有效性,結(jié)果如表2所示.可以看出:偽平行語(yǔ)料的加入有助于雙語(yǔ)模型的提升;同時(shí),偽雙語(yǔ)語(yǔ)料的過(guò)濾能有效地消除語(yǔ)料中的噪聲,進(jìn)一步提高語(yǔ)料質(zhì)量.

  2)長(zhǎng)度懲罰因子分析

  在正向翻譯實(shí)驗(yàn)的基礎(chǔ)上探索了不同的長(zhǎng)度懲罰因子α對(duì)實(shí)驗(yàn)的影響.首先,將束搜索大小設(shè)置為12,然后調(diào)整長(zhǎng)度懲罰因子的值來(lái)進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示.隨著長(zhǎng)度懲罰因子的增加,BLEU值呈現(xiàn)先增后減的趨勢(shì),說(shuō)明在一定范圍內(nèi)調(diào)整長(zhǎng)度懲罰因子有助于BLEU值的提高,而過(guò)大的長(zhǎng)度懲罰因子可能會(huì)導(dǎo)致束搜索無(wú)法選擇正確的結(jié)果.

  3)束搜索大小分析和重打分分析

  (a)束搜索大小分析實(shí)驗(yàn)探索了不同的束搜索大小對(duì)實(shí)驗(yàn)的影響.將長(zhǎng)度懲罰因子α設(shè)置為1.6,通過(guò)調(diào)整不同的束搜索大小來(lái)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表4所示:隨著束搜索大小的增加,BLEU值有所提高.對(duì)比束搜索大小設(shè)置為12和15時(shí)得到的譯文結(jié)果,可以發(fā)現(xiàn):束搜索大小設(shè)置為15時(shí)整體BLEU值雖然有所提高,但是會(huì)使部分句子的BLEU值變低,即兩種設(shè)置下存在不同的高分句子,使得整體的譯文結(jié)果無(wú)法達(dá)到最優(yōu).進(jìn)一步分析發(fā)現(xiàn),當(dāng)束搜索大小從12增加到15時(shí),雖然會(huì)使驗(yàn)證集中194個(gè)譯文句子的BLEU值上升,但也使得121個(gè)譯文句子的BLEU值下降.為此本文采用重打分進(jìn)一步提高整體的翻譯性能.

  (b)重打分分析由于條件限制,實(shí)驗(yàn)過(guò)程中只對(duì)束搜索大小為12和15的兩種情況進(jìn)行了重打分分析.將二者各自得分最高的譯文句子綜合在一起進(jìn)行重打分,BLEU值為29.95%,可見(jiàn)綜合不同參數(shù)設(shè)置下BLEU值得分最高的句子生成的譯文結(jié)果比單一參數(shù)設(shè)置下譯文結(jié)果的BLEU值有所提升,可以緩解部分句子在參數(shù)調(diào)整階段得分降低的情況,提升整體的翻譯質(zhì)量.

  5結(jié)論

  面向CCMT2020中英新聞?lì)I(lǐng)域機(jī)器翻譯任務(wù),本研究提出了一種融合數(shù)據(jù)增強(qiáng)技術(shù)和多樣化解碼策略的方法來(lái)提高機(jī)器翻譯的性能.使用Transformer作為基線系統(tǒng),從數(shù)據(jù)處理、數(shù)據(jù)增強(qiáng)、多樣化解碼策略3個(gè)方面進(jìn)行了改進(jìn).實(shí)驗(yàn)融合了包括正向翻譯、檢查點(diǎn)平均、模型集成、重打分等多種技術(shù)來(lái)提高翻譯性能.實(shí)驗(yàn)結(jié)果顯示,這些方法能夠明顯提高譯文質(zhì)量,且改進(jìn)后的系統(tǒng)較基線系統(tǒng)的BLEU值提升了4.89個(gè)百分點(diǎn).

  在下一步的工作中,擬擴(kuò)充語(yǔ)料的規(guī)模并結(jié)合更深層次的模型配置以提高雙語(yǔ)模型的整體性能,同時(shí)擬通過(guò)迭代回譯等方式更好地利用單語(yǔ)數(shù)據(jù)增強(qiáng)雙語(yǔ)模型,并嘗試在重打分階段融入更多的特征來(lái)篩選譯文結(jié)果.