本部要聞 來(lái)源:中譯語(yǔ)通日期:2021-01-06瀏覽次數(shù):4577
2020 國(guó)際機(jī)器翻譯大賽(WMT 2020)公布了谷歌Deepmind、微軟、Facebook、騰訊、OPPO、字節(jié)跳動(dòng)、中譯語(yǔ)通等全球38支參賽隊(duì)伍的人工專家評(píng)測(cè)成績(jī)(最終賽事結(jié)果)。中譯語(yǔ)通參賽6個(gè)語(yǔ)言方向,5項(xiàng)冠軍,1項(xiàng)亞軍,奪冠數(shù)量全球居首。
國(guó)際機(jī)器翻譯大賽(WMT)由國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì) (ACL)主辦,是全球?qū)W術(shù)界公認(rèn)的規(guī)模最大的國(guó)際頂級(jí)機(jī)器翻譯評(píng)測(cè)比賽之一,自2006年以來(lái),已連續(xù)舉辦15屆。比賽的主要宗旨是評(píng)估機(jī)器翻譯最新發(fā)展水平,傳播通用測(cè)試數(shù)據(jù)集和公共訓(xùn)練數(shù)據(jù),改進(jìn)機(jī)器翻譯評(píng)估評(píng)測(cè)方法。
大賽為所有語(yǔ)言方向的參賽隊(duì)伍提供平行語(yǔ)料作為機(jī)器翻譯引擎的訓(xùn)練數(shù)據(jù),采用先機(jī)器評(píng)測(cè)后人工專家評(píng)測(cè)的評(píng)測(cè)流程,并以人工專家評(píng)測(cè)成績(jī)作為最終賽事結(jié)果。評(píng)測(cè)成績(jī)實(shí)行百分制,進(jìn)而在語(yǔ)言專家團(tuán)隊(duì)的評(píng)測(cè)成績(jī)基礎(chǔ)上進(jìn)行加權(quán)計(jì)算,得出“Ave.z”人工評(píng)測(cè)標(biāo)準(zhǔn)化成績(jī)和最終排名,同時(shí)引入Online-A、G、Z、B四個(gè)在線機(jī)器翻譯系統(tǒng)作為評(píng)測(cè)成績(jī)對(duì)比??茖W(xué)嚴(yán)謹(jǐn)?shù)脑u(píng)測(cè)方法使得整個(gè)評(píng)測(cè)結(jié)果具有很高的置信度。
2020 國(guó)際機(jī)器翻譯評(píng)測(cè)比賽,中譯語(yǔ)通GTCOM評(píng)測(cè)成績(jī)
大賽共發(fā)布中文-英語(yǔ)、捷克語(yǔ)-英語(yǔ)、法語(yǔ)-德語(yǔ)、德語(yǔ)-英語(yǔ)、因紐特語(yǔ)-英語(yǔ)、泰米爾語(yǔ)-英語(yǔ)、日語(yǔ)-英語(yǔ)、普什圖語(yǔ)-英語(yǔ)、波蘭語(yǔ)-英語(yǔ)、俄語(yǔ)-英語(yǔ)、高棉語(yǔ)-英語(yǔ)等11個(gè)語(yǔ)言對(duì)、22個(gè)語(yǔ)言方向的機(jī)器翻譯評(píng)測(cè)任務(wù)。中譯語(yǔ)通參賽6個(gè)語(yǔ)言方向,在高棉語(yǔ)-英語(yǔ)、英語(yǔ)-高棉語(yǔ)、普什圖語(yǔ)-英語(yǔ)、英語(yǔ)-普什圖語(yǔ)、泰米爾語(yǔ)-英語(yǔ)等5個(gè)語(yǔ)言方向上表現(xiàn)搶眼,斬獲冠軍,英語(yǔ)-泰米爾語(yǔ)方向位居第二,再次彰顯了其機(jī)器翻譯的領(lǐng)先實(shí)力。
中譯語(yǔ)通的機(jī)器翻譯戰(zhàn)績(jī)不止如此。早在2019年國(guó)際機(jī)器翻譯大賽,全球60余家頂級(jí)團(tuán)隊(duì)參加比賽,中譯語(yǔ)通與微軟亞洲研究院、Facebook三家均獲得3個(gè)語(yǔ)言方向冠軍,奪冠數(shù)量并列第一;2018年國(guó)際機(jī)器翻譯大賽,中譯語(yǔ)通僅參賽英中方向自動(dòng)評(píng)測(cè),并獲得第一名。此外,在2017年國(guó)際口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽(IWSLT2017)的20個(gè)語(yǔ)言方向翻譯評(píng)測(cè)任務(wù)中,中譯語(yǔ)通囊括了16個(gè)語(yǔ)言方向的第一名。
中譯語(yǔ)通機(jī)器翻譯軟件應(yīng)用展示
對(duì)中譯語(yǔ)通而言,不俗的成績(jī)?cè)醋圆恍傅貓?jiān)持。中譯語(yǔ)通是國(guó)內(nèi)率先開(kāi)展機(jī)器翻譯研究的企業(yè)之一。多年來(lái),領(lǐng)域機(jī)器翻譯和語(yǔ)種機(jī)器翻譯模型研究持續(xù)突破,可支持金融、科技、醫(yī)療等多個(gè)垂直領(lǐng)域以及多達(dá)60個(gè)語(yǔ)種、3000個(gè)語(yǔ)言方向的翻譯。海量高質(zhì)量語(yǔ)料和先進(jìn)的數(shù)據(jù)清洗技術(shù)讓其機(jī)器翻譯優(yōu)勢(shì)更為凸顯。中譯語(yǔ)通積累的高質(zhì)量專業(yè)領(lǐng)域平行語(yǔ)料超過(guò)52億句對(duì)。在數(shù)據(jù)清洗上,中譯語(yǔ)通采用了語(yǔ)言模型和翻譯模型分別對(duì)語(yǔ)料進(jìn)行清洗,設(shè)計(jì)了循環(huán)語(yǔ)料生成和清洗方法來(lái)不斷重復(fù)提高翻譯質(zhì)量和語(yǔ)料質(zhì)量。在訓(xùn)練技術(shù)上,采用了預(yù)訓(xùn)練模型調(diào)優(yōu)、知識(shí)蒸餾、多模型融合解碼、聯(lián)合訓(xùn)練、翻譯重排序等技術(shù)提高訓(xùn)練的質(zhì)量。
中譯語(yǔ)通機(jī)器翻譯硬件產(chǎn)品展示
如今,中譯語(yǔ)通已構(gòu)建了完善的機(jī)器翻譯應(yīng)用生態(tài)體系。應(yīng)用范圍覆蓋文本、網(wǎng)頁(yè)、音視頻等多模態(tài)數(shù)據(jù);應(yīng)用產(chǎn)品形態(tài)涉及文件夾翻譯、文檔翻譯、Word翻譯插件、字幕通、網(wǎng)頁(yè)翻譯、輔助翻譯平臺(tái)等;應(yīng)用場(chǎng)景更為廣泛,包括但不限于國(guó)際會(huì)議同傳、遠(yuǎn)程辦公教學(xué)、翻譯項(xiàng)目管理、跨語(yǔ)言語(yǔ)義檢索、多語(yǔ)種數(shù)據(jù)加工等等;應(yīng)用模式也十分多樣化,除成熟軟硬件產(chǎn)品外,還支持行業(yè)機(jī)器翻譯模型定制、私有云及本地化部署、軟硬件一體機(jī)、云端調(diào)用等多種模式。