機器翻譯都比人強了，為什么我還在復制粘貼查單詞？

媒體聚焦 來源：中譯語通日期：2018-09-03瀏覽次數(shù)：4198

“這是全宇宙最奇特的生物?！?/p>

40年前，英國科幻作家Douglas Adams在他的《銀河系漫游指南》中這樣描述巴別魚（bable fish）：迷你黃色生物，水蛭狀，以聲音中的語言概念為食，消化后排出跟寄主同頻的腦波。只要塞到耳朵里去，就可以聽懂各種語言。

而在這個充滿嬉皮風格的科幻作品中，來自地球的Arthur Dent也因為這條丑陋的魚，能夠完美地理解并與他遇到的各種外星種族交流。

自小說誕生，巴別魚便成為了即時語音翻譯的代名詞。但在當時，人類的翻譯技術(shù)距離這一目標仍遙不可及。

直到2014年，加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機器翻譯領(lǐng)域應用神經(jīng)網(wǎng)絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。

神經(jīng)網(wǎng)絡的出現(xiàn)，讓優(yōu)質(zhì)高效的機器翻譯不再遙遙無期。

機器翻譯能力是如何趕超人類的？

神經(jīng)網(wǎng)絡迅速成為了近代機器翻譯領(lǐng)域最有活力的“鯰魚”。

短短兩年，基于神經(jīng)網(wǎng)絡的機器翻譯便已取代統(tǒng)計學派成為翻譯領(lǐng)域的主流研究方法。谷歌、微軟等公司也紛紛宣布將這個新的技術(shù)應用到其翻譯等產(chǎn)品之中。兩年來，神經(jīng)網(wǎng)絡翻譯能力超過了翻譯界過去幾十年的成績。神經(jīng)網(wǎng)絡翻譯出現(xiàn)后，機器翻譯的單詞錯誤率降低了50%，詞匯錯誤和語法錯誤率也都分別降低了15%以上。

而除神經(jīng)網(wǎng)絡的應用之外，機器翻譯錯誤率的大幅度降低，還基于另一個條件——大規(guī)模精準平行語料數(shù)據(jù)集的積累。

決定機器翻譯質(zhì)量的因素中數(shù)據(jù)占據(jù)絕對的主導地位。數(shù)據(jù)量的大小和精準程度決定了機器翻譯引擎的效果。

十年前，谷歌在機器翻譯領(lǐng)域下過一個論斷：數(shù)據(jù)集規(guī)模每翻一倍，它自動評價的指標就能夠提升0.5個百分點。這一說法讓有大規(guī)模、準確數(shù)據(jù)積累的組織、企業(yè)有了搶占機器翻譯市場制高點的機會。

但是，垂直級的機器翻譯并非一蹴而就，哪怕是互聯(lián)網(wǎng)巨頭們，也未輕易地將觸手伸入垂直級的機器翻譯領(lǐng)域。

為了填補了這一領(lǐng)域的空白，中譯語通率先推出MerCube，是全球第一個企業(yè)級機器翻譯硬件。

在具體場景下，想要實現(xiàn)產(chǎn)品級應用的機器翻譯系統(tǒng)，需要上千萬級別的句對。另一個方面是目前數(shù)據(jù)集的不均衡問題。在語種上，英文為主導的數(shù)據(jù)集占比較多，而偏小語種的比如波斯語、土耳其語等數(shù)據(jù)集就很難找到。除了語言不均衡，數(shù)據(jù)集領(lǐng)域不均衡的問題也很嚴重。

機器翻譯技術(shù)對大量數(shù)據(jù)的需求和實際市場上流通的存量數(shù)據(jù)的差距很大，這就給了在翻譯界有深厚歷史積累的公司發(fā)力的機會。

互聯(lián)網(wǎng)公司的數(shù)據(jù)積累多來自C端用戶，因此數(shù)據(jù)集不均衡、數(shù)據(jù)質(zhì)量差的問題突出。而脫身傳統(tǒng)行業(yè)的翻譯公司，在翻譯數(shù)據(jù)集的把握上有自己的優(yōu)勢——更精準、更多樣的數(shù)據(jù)集。例如，中國翻譯領(lǐng)域最大的語料數(shù)據(jù)庫所有者——中譯語通。據(jù)了解，這家脫胎于中國對外翻譯有限公司的團隊了擁有37個語種的翻譯語料庫，掌握超過五十億句對平行語料，上百億句單語語料?？恐诜g領(lǐng)域的這一優(yōu)勢，中譯語通這一以語言服務起家，迅速轉(zhuǎn)型為人工智能和大數(shù)據(jù)的技術(shù)公司，有望與谷歌、微軟等互聯(lián)網(wǎng)巨頭，在機器翻譯服務領(lǐng)域分一杯羹。

機器翻譯服務之痛

機器翻譯由于技術(shù)的進步在處理能力上正迅速趕超人類，企業(yè)用戶對機器翻譯的認可度越來越高，但在服務形式上多年來卻幾乎一成不變。目前，to b端的翻譯服務主要面臨兩個痛點：

首先在翻譯形式上，以文本翻譯為例，基于c端服務的延續(xù)性，多數(shù)文本翻譯模式依然是10年前的對話框字句粘貼式翻譯，根本無法滿足大規(guī)模、短時間翻譯的需求。

除此之外，多數(shù)企業(yè)和個人對數(shù)據(jù)安全意識的提高，也讓他們對本地化翻譯有了更高要求。

目前，主要to b端的翻譯服務都需要被翻譯內(nèi)容上云，在Facebook數(shù)據(jù)泄漏丑聞及歐盟數(shù)據(jù)安全法生效的背景下，不少企業(yè)期待更本地化、安全的翻譯服務。據(jù)中譯語通相關(guān)研究報告顯示，僅在中國，對大規(guī)模、本地化翻譯服務的需求市場高達百億級。而“國際市場應該會更大。比如說一帶一路沿線國家，整個拓展出來應該是一個巨大的市場?！敝凶g語通稱。

從硬件入手，垂直領(lǐng)域的翻譯服務升級

這樣的調(diào)研結(jié)果讓中譯語通看到了to b端翻譯市場服務升級的巨大潛力。今年五月份，中譯語通開始嘗試機器翻譯上to b端新的服務方式，但這不是一件容易的事情。

圖：7月份的品牌戰(zhàn)略發(fā)布會上，中譯語通發(fā)布了MerCube企業(yè)級機器翻譯服務器。MerCube產(chǎn)品性能表顯示，MT G8單臺處理能力可達到16000字/秒，MerCube ASR可實現(xiàn)將1小時的音視頻在1分鐘內(nèi)識別、解析完成并導出文件。

“（開發(fā)這款產(chǎn)品的）契機更多還是市場的驅(qū)動，很多客戶其實是主動來找我們，覺得這個機器翻譯不錯，想買這個（產(chǎn)品），想本地化部署?！?/p>

為了滿足客戶對安全性的要求，中譯語通希望推出一款可以提供專屬的私有化部署方式的產(chǎn)品，讓信息在受控環(huán)境下運轉(zhuǎn)，原文/譯文本地化存儲，解決用戶的數(shù)據(jù)安全問題。

要本地化部屬，首先對產(chǎn)品的硬件能力是一個巨大的考驗。

“最開始，我們也想過讓用戶自己配備硬件的方式?？墒窃诜盏倪^程當中，你會發(fā)現(xiàn)用戶買的硬件是五花八門的。即使我們做好了配置，實施過程也比較曲折?！敝凶g語通稱。

此次發(fā)布的MerCube也因此直接配置了硬件能力——搭載了NVIDIA有史以來極其先進的數(shù)據(jù)中心級GPU Tesla V100，通過這種方式，一次性解決了用戶的軟件和硬件需求。區(qū)別于原來在標準的服務器上安裝軟件的方式，中譯語通提供一體機的解決方案，將機器翻譯引擎與硬件完美融合，從底層技術(shù)上做了改進，同等配置條件下可以大大提升處理效率。

圖：MerCube采用了NVIDIA?NVLink?技術(shù)，提供更高帶寬與更多鏈路，可提升多 GPU 和多 GPU/CPU 系統(tǒng)配置的可擴展性。

垂直領(lǐng)域的翻譯服務依賴領(lǐng)域內(nèi)的長期積累。

以中譯語通為例，2014年其開始自主研發(fā)機器翻譯引擎，同年6月發(fā)布中英統(tǒng)計機器翻譯引擎，是繼谷歌、微軟、百度之后，國內(nèi)最早進行機器翻譯引擎研發(fā)的企業(yè)。這樣的早期布局為中譯語通占據(jù)了先發(fā)優(yōu)勢，中譯語通稱，目前每年的數(shù)據(jù)增長達到了平行語料兩億句對、單語語料五億句對的速度。在2015年12月，中譯語通發(fā)布了包含37個語種的機器翻譯引擎，成為國內(nèi)翻譯領(lǐng)域支持語種數(shù)量最多的企業(yè)。

在機器翻譯領(lǐng)域，每種新的語種擴展都需要千萬句對，要達到工業(yè)級的應用，在數(shù)據(jù)集數(shù)量上要求更高。這也是目前很多企業(yè)放棄了這個方向的原因。

目前，中譯語通的37個語種包含了“一帶一路”沿線18個官方語言中的14個，并且語種范圍還在持續(xù)擴大。而在這一大背景下，配合硬件產(chǎn)品，打通了軟件和數(shù)據(jù)的垂直服務者在機器翻譯領(lǐng)域大有可為。

（內(nèi)容來源：虎嗅網(wǎng)）

（商業(yè)合作：business@gtcom.com.cn）

機器翻譯都比人強了，為什么我還在復制粘貼查單詞？

聯(lián)系我們

機器翻譯都比人強了，為什么我還在復制粘貼查單詞？