“格物”新突破 | 中譯語通大規(guī)模多語言互譯機器翻譯模型發(fā)布，更小參數(shù)規(guī)模，更高翻譯質(zhì)量，覆蓋81個語種

本部要聞 來源：中譯語通日期：2024-02-21瀏覽次數(shù)：1663

日前，中譯語通“格物”大模型又實現(xiàn)新突破，GeWuMT-18B模型以機器翻譯任務(wù)為導(dǎo)向，支持在81個語種之間互譯，經(jīng)專業(yè)評測，相較于Meta發(fā)布的NLLB-54B模型，格物僅使用了其三分之一的參數(shù)量規(guī)模，實現(xiàn)了在以中文為目標(biāo)語言的80個語種的自動評測中平均BLEU值提升超過27%，無論是翻譯的流暢性還是準(zhǔn)確度，大模型的翻譯結(jié)果質(zhì)量又得到了進一步提升。

GeWuMT-18B模型翻譯效果與其他在線翻譯引擎比較，測評結(jié)果如下：

圖片1yu.png

圖片2yu.png

GeWuMT-18B模型翻譯效果與準(zhǔn)確度

優(yōu)于其他在線翻譯引擎

GeWuMT-18B機器翻譯大模型除了在翻譯準(zhǔn)確度上有明顯提升外，對系統(tǒng)運維復(fù)雜度和運行的資源需求均有明顯的提升。既往的機器翻譯引擎每一個語言方向是一個單獨的模型，支持80個語種到中文的翻譯需要部署80套引擎，大模型實現(xiàn)了一個單一模型支持80個語種到中文的翻譯，大大減少了用戶使用期間運維支持的工作難度。GeWuMT-18B大模型可以運行在一塊80G顯存的GPU卡上，實現(xiàn)單機支持80個語種同時運行，對比支持80個語種的雙語模型在存儲空間和計算資源消耗上至少節(jié)省了80%，大大降低了運行成本。

GeWuMT-18B機器翻譯大模型實現(xiàn)了技術(shù)的完全自主可控，擺脫對國外商用機器翻譯模型的依賴，提升了數(shù)據(jù)安全性，尤其是對國防軍事、金融、科技等敏感領(lǐng)域意義重大。同時對于構(gòu)建自主可控的語言生態(tài)體系，提升國家文化軟實力也有著重要意義。大模型針對特定任務(wù)和語種進行定制化訓(xùn)練，翻譯質(zhì)量顯著提升，滿足垂直領(lǐng)域的高精度翻譯需求。

中譯語通團隊深入分析了包括GPT4、Google Gemini、NLLB-54B等在內(nèi)的多個大模型的成功之處，并在自主可控的機器翻譯大模型上進行了一系列不懈的技術(shù)創(chuàng)新嘗試。對所用數(shù)據(jù)以及訓(xùn)練方法進行優(yōu)化，顯著提升了模型的翻譯能力。

與其他在線翻譯引擎不同，本次中譯語通發(fā)布的GeWuMT-18B模型在訓(xùn)練方法上，采用了基于MoE（混合專家模型）的Transformers encoder-decoder框架，為容納80個外文語種共設(shè)置了40個專家，在魯棒性、分布式訓(xùn)練、多語言增量訓(xùn)練等技術(shù)上都取得了一定的突破?；诮徊骒貙τ?xùn)練數(shù)據(jù)進行重采樣，確保在每一個數(shù)據(jù)分片上的訓(xùn)練均有一定的正向收益。再者，訓(xùn)練數(shù)據(jù)也是決定大模型質(zhì)量好壞的關(guān)鍵因素之一，借助中譯語通擁有的國內(nèi)最大高質(zhì)量平行語料庫的優(yōu)勢，在百億平行語料和千億單語數(shù)據(jù)庫中進行精選，最終精調(diào)使用了約40億高質(zhì)量平行語料與單語數(shù)據(jù)用于此次新模型的訓(xùn)練。

為了保證質(zhì)量與效能我們使用了多種訓(xùn)練和調(diào)優(yōu)方式：

星環(huán)狀混合專家系統(tǒng)

混合專家系統(tǒng)在訓(xùn)練過程中，會有大量時間開銷花費在all-to-all通信中，為了進一步縮短訓(xùn)練時間，提升訓(xùn)練效率，中譯語通提出了星環(huán)狀混合專家系統(tǒng)結(jié)構(gòu)，在保障模型訓(xùn)練精度的同時，大大降低all-to-all通信。混合專家系統(tǒng)的引入，提升了模型的容量，同時也利用多語言模型的知識遷移能力，既能保證資源豐富語種翻譯性能，又能提升資源稀缺語種的翻譯質(zhì)量。

無監(jiān)督學(xué)習(xí)

GeWuMT-18B模型覆蓋了包括中文在內(nèi)的81個常用語種，在這些語種中，不乏如古吉拉特語、馬耳他語等低資源的語種，數(shù)據(jù)資源的缺失直接會使得模型在相關(guān)的語言方向上學(xué)習(xí)不足，導(dǎo)致以該語種為目標(biāo)語言的譯文困惑度較高，甚至出現(xiàn)翻譯脫靶（Off-Target）的錯誤。為了解決這些問題，GeWuMT-18B模型在進行機翻任務(wù)訓(xùn)練的同時，利用無監(jiān)督學(xué)習(xí)在選定單語數(shù)據(jù)上進行針對性的單語任務(wù)訓(xùn)練，強化模型對低資源語種的語言理解能力，有效降低了低資源語種譯文的困惑度，大幅度提升了中到外方向上低資源語種的翻譯質(zhì)量。

數(shù)據(jù)采樣

針對海量數(shù)據(jù)GeWuMT-18B模型還采用了數(shù)據(jù)分片訓(xùn)練的策略，為了平衡每個數(shù)據(jù)分片，憑借基于溫度和訓(xùn)練交叉熵的混合采樣策略，確保每個數(shù)據(jù)分片均能對模型訓(xùn)練起到積極作用。這種數(shù)據(jù)采樣的方法，降低了對硬件顯存和內(nèi)存的需求，同時也便于針對訓(xùn)練的效果及時調(diào)整訓(xùn)練數(shù)據(jù)。

中譯語通自2014年啟動機器翻譯的研發(fā)工作，持續(xù)致力于自主可控的人工智能機器翻譯引擎研發(fā)，歷經(jīng)了統(tǒng)計機器翻譯、神經(jīng)機器翻譯到今天基于大模型的機器翻譯。在2020年承擔(dān)了科技部2030重大專項“以中文為核心的多語種自動翻譯研究”，在2021年承擔(dān)了工業(yè)和信息化部揭榜掛帥任務(wù)“超大規(guī)模多語言通用機器翻譯系統(tǒng)”，同時也承擔(dān)了云南省科技廳的“以中文為核心的超大規(guī)模神經(jīng)機器翻譯模型研究及產(chǎn)業(yè)應(yīng)用”項目。基于這三個項目形成的相關(guān)經(jīng)驗為中譯語通在超大規(guī)模多語言機器翻譯技術(shù)方面積累了堅實的技術(shù)基礎(chǔ)。在WMT2022和2023年度的評測中，以大規(guī)模多語言模型為基礎(chǔ)，累計獲得了7個語言方向的自動評測冠軍，在行業(yè)中名列前茅。

格物-去黑邊高清新聞圖.jpg

格物人工智能平臺

中譯語通于2021年啟動研發(fā)跨語言、多模態(tài)大模型技術(shù)，并在2022年11月發(fā)布“格物”大模型。該大模型涵蓋了四種模型，包括多語言預(yù)訓(xùn)練模型、多語言機器翻譯超大模型、多模態(tài)預(yù)訓(xùn)練模型和多語言生成式對話大模型。中譯語通“基于多模態(tài)思維鏈推理的可控內(nèi)容生成大模型技術(shù)研究及示范應(yīng)用”課題主要針對中文文本、圖像、音頻和視頻四模態(tài)對齊語料匱乏、四模態(tài)單一模型架構(gòu)能力受限、應(yīng)用時效性差等問題，突破多模態(tài)思維鏈的內(nèi)容理解與可控生成技術(shù)，研發(fā)支持基于多模態(tài)思維鏈的四模態(tài)任意模態(tài)輸入輸出大模型，并在國防、政務(wù)、科技和金融等領(lǐng)域開展示范應(yīng)用。同時，中譯語通參與了《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法第一部分：模型開發(fā)》、《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法第二部分：模型能力》和《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法第四部分：模型應(yīng)用》的標(biāo)準(zhǔn)起草編制工作。

2024年1月，中譯語通連續(xù)第三次被美國國防部列入“中國涉軍企業(yè)”制裁清單。這更堅定了公司在人工智能領(lǐng)域創(chuàng)新發(fā)展的決心。中譯語通將進一步加大在大模型數(shù)據(jù)和基礎(chǔ)研發(fā)的投入，并致力于大模型的行業(yè)落地以及國產(chǎn)化適配，為國防軍事、國家安全和政府等關(guān)鍵領(lǐng)域用戶構(gòu)建可適應(yīng)復(fù)雜場景的自主、安全、可信的私有大模型技術(shù)與應(yīng)用，持續(xù)鑄造國家戰(zhàn)略科技力量。

“格物”新突破 | 中譯語通大規(guī)模多語言互譯機器翻譯模型發(fā)布，更小參數(shù)規(guī)模，更高翻譯質(zhì)量，覆蓋81個語種

GeWuMT-18B模型翻譯效果與準(zhǔn)確度

優(yōu)于其他在線翻譯引擎

格物人工智能平臺

聯(lián)系我們

“格物”新突破 | 中譯語通大規(guī)模多語言互譯機器翻譯模型發(fā)布，更小參數(shù)規(guī)模，更高翻譯質(zhì)量，覆蓋81個語種