本部要聞 來源:中譯語通日期:2024-02-21瀏覽次數(shù):1663
日前,中譯語通“格物”大模型又實現(xiàn)新突破,GeWuMT-18B模型以機器翻譯任務(wù)為導(dǎo)向,支持在81個語種之間互譯,經(jīng)專業(yè)評測,相較于Meta發(fā)布的NLLB-54B模型,格物僅使用了其三分之一的參數(shù)量規(guī)模,實現(xiàn)了在以中文為目標(biāo)語言的80個語種的自動評測中平均BLEU值提升超過27%,無論是翻譯的流暢性還是準(zhǔn)確度,大模型的翻譯結(jié)果質(zhì)量又得到了進一步提升。
GeWuMT-18B模型翻譯效果與其他在線翻譯引擎比較,測評結(jié)果如下:
GeWuMT-18B機器翻譯大模型除了在翻譯準(zhǔn)確度上有明顯提升外,對系統(tǒng)運維復(fù)雜度和運行的資源需求均有明顯的提升。既往的機器翻譯引擎每一個語言方向是一個單獨的模型,支持80個語種到中文的翻譯需要部署80套引擎,大模型實現(xiàn)了一個單一模型支持80個語種到中文的翻譯,大大減少了用戶使用期間運維支持的工作難度。GeWuMT-18B大模型可以運行在一塊80G顯存的GPU卡上,實現(xiàn)單機支持80個語種同時運行,對比支持80個語種的雙語模型在存儲空間和計算資源消耗上至少節(jié)省了80%,大大降低了運行成本。
GeWuMT-18B機器翻譯大模型實現(xiàn)了技術(shù)的完全自主可控,擺脫對國外商用機器翻譯模型的依賴,提升了數(shù)據(jù)安全性,尤其是對國防軍事、金融、科技等敏感領(lǐng)域意義重大。同時對于構(gòu)建自主可控的語言生態(tài)體系,提升國家文化軟實力也有著重要意義。大模型針對特定任務(wù)和語種進行定制化訓(xùn)練,翻譯質(zhì)量顯著提升,滿足垂直領(lǐng)域的高精度翻譯需求。
中譯語通團隊深入分析了包括GPT4、Google Gemini、NLLB-54B等在內(nèi)的多個大模型的成功之處,并在自主可控的機器翻譯大模型上進行了一系列不懈的技術(shù)創(chuàng)新嘗試。對所用數(shù)據(jù)以及訓(xùn)練方法進行優(yōu)化,顯著提升了模型的翻譯能力。
與其他在線翻譯引擎不同,本次中譯語通發(fā)布的GeWuMT-18B模型在訓(xùn)練方法上,采用了基于MoE(混合專家模型)的Transformers encoder-decoder框架,為容納80個外文語種共設(shè)置了40個專家,在魯棒性、分布式訓(xùn)練、多語言增量訓(xùn)練等技術(shù)上都取得了一定的突破?;诮徊骒貙τ?xùn)練數(shù)據(jù)進行重采樣,確保在每一個數(shù)據(jù)分片上的訓(xùn)練均有一定的正向收益。再者,訓(xùn)練數(shù)據(jù)也是決定大模型質(zhì)量好壞的關(guān)鍵因素之一,借助中譯語通擁有的國內(nèi)最大高質(zhì)量平行語料庫的優(yōu)勢,在百億平行語料和千億單語數(shù)據(jù)庫中進行精選,最終精調(diào)使用了約40億高質(zhì)量平行語料與單語數(shù)據(jù)用于此次新模型的訓(xùn)練。
為了保證質(zhì)量與效能我們使用了多種訓(xùn)練和調(diào)優(yōu)方式:
星環(huán)狀混合專家系統(tǒng)
混合專家系統(tǒng)在訓(xùn)練過程中,會有大量時間開銷花費在all-to-all通信中,為了進一步縮短訓(xùn)練時間,提升訓(xùn)練效率,中譯語通提出了星環(huán)狀混合專家系統(tǒng)結(jié)構(gòu),在保障模型訓(xùn)練精度的同時,大大降低all-to-all通信。混合專家系統(tǒng)的引入,提升了模型的容量,同時也利用多語言模型的知識遷移能力,既能保證資源豐富語種翻譯性能,又能提升資源稀缺語種的翻譯質(zhì)量。
無監(jiān)督學(xué)習(xí)
GeWuMT-18B模型覆蓋了包括中文在內(nèi)的81個常用語種,在這些語種中,不乏如古吉拉特語、馬耳他語等低資源的語種,數(shù)據(jù)資源的缺失直接會使得模型在相關(guān)的語言方向上學(xué)習(xí)不足,導(dǎo)致以該語種為目標(biāo)語言的譯文困惑度較高,甚至出現(xiàn)翻譯脫靶(Off-Target)的錯誤。為了解決這些問題,GeWuMT-18B模型在進行機翻任務(wù)訓(xùn)練的同時,利用無監(jiān)督學(xué)習(xí)在選定單語數(shù)據(jù)上進行針對性的單語任務(wù)訓(xùn)練,強化模型對低資源語種的語言理解能力,有效降低了低資源語種譯文的困惑度,大幅度提升了中到外方向上低資源語種的翻譯質(zhì)量。
數(shù)據(jù)采樣
針對海量數(shù)據(jù)GeWuMT-18B模型還采用了數(shù)據(jù)分片訓(xùn)練的策略,為了平衡每個數(shù)據(jù)分片,憑借基于溫度和訓(xùn)練交叉熵的混合采樣策略,確保每個數(shù)據(jù)分片均能對模型訓(xùn)練起到積極作用。這種數(shù)據(jù)采樣的方法,降低了對硬件顯存和內(nèi)存的需求,同時也便于針對訓(xùn)練的效果及時調(diào)整訓(xùn)練數(shù)據(jù)。
中譯語通自2014年啟動機器翻譯的研發(fā)工作,持續(xù)致力于自主可控的人工智能機器翻譯引擎研發(fā),歷經(jīng)了統(tǒng)計機器翻譯、神經(jīng)機器翻譯到今天基于大模型的機器翻譯。在2020年承擔(dān)了科技部2030重大專項“以中文為核心的多語種自動翻譯研究”,在2021年承擔(dān)了工業(yè)和信息化部揭榜掛帥任務(wù)“超大規(guī)模多語言通用機器翻譯系統(tǒng)”,同時也承擔(dān)了云南省科技廳的“以中文為核心的超大規(guī)模神經(jīng)機器翻譯模型研究及產(chǎn)業(yè)應(yīng)用”項目。基于這三個項目形成的相關(guān)經(jīng)驗為中譯語通在超大規(guī)模多語言機器翻譯技術(shù)方面積累了堅實的技術(shù)基礎(chǔ)。在WMT2022和2023年度的評測中,以大規(guī)模多語言模型為基礎(chǔ),累計獲得了7個語言方向的自動評測冠軍,在行業(yè)中名列前茅。
中譯語通于2021年啟動研發(fā)跨語言、多模態(tài)大模型技術(shù),并在2022年11月發(fā)布“格物”大模型。該大模型涵蓋了四種模型,包括多語言預(yù)訓(xùn)練模型、多語言機器翻譯超大模型、多模態(tài)預(yù)訓(xùn)練模型和多語言生成式對話大模型。中譯語通“基于多模態(tài)思維鏈推理的可控內(nèi)容生成大模型技術(shù)研究及示范應(yīng)用”課題主要針對中文文本、圖像、音頻和視頻四模態(tài)對齊語料匱乏、四模態(tài)單一模型架構(gòu)能力受限、應(yīng)用時效性差等問題,突破多模態(tài)思維鏈的內(nèi)容理解與可控生成技術(shù),研發(fā)支持基于多模態(tài)思維鏈的四模態(tài)任意模態(tài)輸入輸出大模型,并在國防、政務(wù)、科技和金融等領(lǐng)域開展示范應(yīng)用。同時,中譯語通參與了《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法 第一部分:模型開發(fā)》、《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法 第二部分:模型能力》和《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評估方法 第四部分:模型應(yīng)用》的標(biāo)準(zhǔn)起草編制工作。
2024年1月,中譯語通連續(xù)第三次被美國國防部列入“中國涉軍企業(yè)”制裁清單。這更堅定了公司在人工智能領(lǐng)域創(chuàng)新發(fā)展的決心。中譯語通將進一步加大在大模型數(shù)據(jù)和基礎(chǔ)研發(fā)的投入,并致力于大模型的行業(yè)落地以及國產(chǎn)化適配,為國防軍事、國家安全和政府等關(guān)鍵領(lǐng)域用戶構(gòu)建可適應(yīng)復(fù)雜場景的自主、安全、可信的私有大模型技術(shù)與應(yīng)用,持續(xù)鑄造國家戰(zhàn)略科技力量。