媒體聚焦 來源:中譯語通日期:2018-09-03瀏覽次數(shù):4198
“這是全宇宙最奇特的生物?!?/p>
40年前,英國科幻作家Douglas Adams在他的《銀河系漫游指南》中這樣描述巴別魚(bable fish):迷你黃色生物,水蛭狀,以聲音中的語言概念為食,消化后排出跟寄主同頻的腦波。只要塞到耳朵里去,就可以聽懂各種語言。
而在這個充滿嬉皮風格的科幻作品中,來自地球的Arthur Dent也因為這條丑陋的魚,能夠完美地理解并與他遇到的各種外星種族交流。
自小說誕生,巴別魚便成為了即時語音翻譯的代名詞。但在當時,人類的翻譯技術(shù)距離這一目標仍遙不可及。
直到2014年,加拿大蒙特利爾大學的Kyunghyun Cho、Yoshua Bengio等人發(fā)布了一篇在機器翻譯領(lǐng)域應用神經(jīng)網(wǎng)絡的論文——Neural Machine Translation by Jointly Learning to Align and Translate。
神經(jīng)網(wǎng)絡的出現(xiàn),讓優(yōu)質(zhì)高效的機器翻譯不再遙遙無期。
機器翻譯能力是如何趕超人類的?
神經(jīng)網(wǎng)絡迅速成為了近代機器翻譯領(lǐng)域最有活力的“鯰魚”。
短短兩年,基于神經(jīng)網(wǎng)絡的機器翻譯便已取代統(tǒng)計學派成為翻譯領(lǐng)域的主流研究方法。谷歌、微軟等公司也紛紛宣布將這個新的技術(shù)應用到其翻譯等產(chǎn)品之中。兩年來,神經(jīng)網(wǎng)絡翻譯能力超過了翻譯界過去幾十年的成績。神經(jīng)網(wǎng)絡翻譯出現(xiàn)后,機器翻譯的單詞錯誤率降低了50%,詞匯錯誤和語法錯誤率也都分別降低了15%以上。
而除神經(jīng)網(wǎng)絡的應用之外,機器翻譯錯誤率的大幅度降低,還基于另一個條件——大規(guī)模精準平行語料數(shù)據(jù)集的積累。
決定機器翻譯質(zhì)量的因素中數(shù)據(jù)占據(jù)絕對的主導地位。數(shù)據(jù)量的大小和精準程度決定了機器翻譯引擎的效果。
十年前,谷歌在機器翻譯領(lǐng)域下過一個論斷:數(shù)據(jù)集規(guī)模每翻一倍,它自動評價的指標就能夠提升0.5個百分點。這一說法讓有大規(guī)模、準確數(shù)據(jù)積累的組織、企業(yè)有了搶占機器翻譯市場制高點的機會。
但是,垂直級的機器翻譯并非一蹴而就,哪怕是互聯(lián)網(wǎng)巨頭們,也未輕易地將觸手伸入垂直級的機器翻譯領(lǐng)域。
為了填補了這一領(lǐng)域的空白,中譯語通率先推出MerCube,是全球第一個企業(yè)級機器翻譯硬件。
在具體場景下,想要實現(xiàn)產(chǎn)品級應用的機器翻譯系統(tǒng),需要上千萬級別的句對。另一個方面是目前數(shù)據(jù)集的不均衡問題。在語種上,英文為主導的數(shù)據(jù)集占比較多,而偏小語種的比如波斯語、土耳其語等數(shù)據(jù)集就很難找到。除了語言不均衡,數(shù)據(jù)集領(lǐng)域不均衡的問題也很嚴重。
機器翻譯技術(shù)對大量數(shù)據(jù)的需求和實際市場上流通的存量數(shù)據(jù)的差距很大,這就給了在翻譯界有深厚歷史積累的公司發(fā)力的機會。
互聯(lián)網(wǎng)公司的數(shù)據(jù)積累多來自C端用戶,因此數(shù)據(jù)集不均衡、數(shù)據(jù)質(zhì)量差的問題突出。而脫身傳統(tǒng)行業(yè)的翻譯公司,在翻譯數(shù)據(jù)集的把握上有自己的優(yōu)勢——更精準、更多樣的數(shù)據(jù)集。例如,中國翻譯領(lǐng)域最大的語料數(shù)據(jù)庫所有者——中譯語通。據(jù)了解,這家脫胎于中國對外翻譯有限公司的團隊了擁有37個語種的翻譯語料庫,掌握超過五十億句對平行語料,上百億句單語語料??恐诜g領(lǐng)域的這一優(yōu)勢,中譯語通這一以語言服務起家,迅速轉(zhuǎn)型為人工智能和大數(shù)據(jù)的技術(shù)公司,有望與谷歌、微軟等互聯(lián)網(wǎng)巨頭,在機器翻譯服務領(lǐng)域分一杯羹。
機器翻譯服務之痛
機器翻譯由于技術(shù)的進步在處理能力上正迅速趕超人類,企業(yè)用戶對機器翻譯的認可度越來越高,但在服務形式上多年來卻幾乎一成不變。目前,to b端的翻譯服務主要面臨兩個痛點:
首先在翻譯形式上,以文本翻譯為例,基于c端服務的延續(xù)性,多數(shù)文本翻譯模式依然是10年前的對話框字句粘貼式翻譯,根本無法滿足大規(guī)模、短時間翻譯的需求。
除此之外,多數(shù)企業(yè)和個人對數(shù)據(jù)安全意識的提高,也讓他們對本地化翻譯有了更高要求。
目前,主要to b端的翻譯服務都需要被翻譯內(nèi)容上云,在Facebook數(shù)據(jù)泄漏丑聞及歐盟數(shù)據(jù)安全法生效的背景下,不少企業(yè)期待更本地化、安全的翻譯服務。據(jù)中譯語通相關(guān)研究報告顯示,僅在中國,對大規(guī)模、本地化翻譯服務的需求市場高達百億級。而“國際市場應該會更大。比如說一帶一路沿線國家,整個拓展出來應該是一個巨大的市場?!敝凶g語通稱。
從硬件入手,垂直領(lǐng)域的翻譯服務升級
這樣的調(diào)研結(jié)果讓中譯語通看到了to b端翻譯市場服務升級的巨大潛力。今年五月份,中譯語通開始嘗試機器翻譯上to b端新的服務方式,但這不是一件容易的事情。
圖:7月份的品牌戰(zhàn)略發(fā)布會上,中譯語通發(fā)布了MerCube企業(yè)級機器翻譯服務器。MerCube產(chǎn)品性能表顯示,MT G8單臺處理能力可達到16000字/秒,MerCube ASR可實現(xiàn)將1小時的音視頻在1分鐘內(nèi)識別、解析完成并導出文件。
“(開發(fā)這款產(chǎn)品的)契機更多還是市場的驅(qū)動,很多客戶其實是主動來找我們,覺得這個機器翻譯不錯,想買這個(產(chǎn)品),想本地化部署?!?/p>
為了滿足客戶對安全性的要求,中譯語通希望推出一款可以提供專屬的私有化部署方式的產(chǎn)品,讓信息在受控環(huán)境下運轉(zhuǎn),原文/譯文本地化存儲,解決用戶的數(shù)據(jù)安全問題。
要本地化部屬,首先對產(chǎn)品的硬件能力是一個巨大的考驗。
“最開始,我們也想過讓用戶自己配備硬件的方式??墒窃诜盏倪^程當中,你會發(fā)現(xiàn)用戶買的硬件是五花八門的。即使我們做好了配置,實施過程也比較曲折?!敝凶g語通稱。
此次發(fā)布的MerCube也因此直接配置了硬件能力——搭載了NVIDIA有史以來極其先進的數(shù)據(jù)中心級GPU Tesla V100,通過這種方式,一次性解決了用戶的軟件和硬件需求。區(qū)別于原來在標準的服務器上安裝軟件的方式,中譯語通提供一體機的解決方案,將機器翻譯引擎與硬件完美融合,從底層技術(shù)上做了改進,同等配置條件下可以大大提升處理效率。
圖:MerCube采用了NVIDIA?NVLink?技術(shù),提供更高帶寬與更多鏈路,可提升多 GPU 和多 GPU/CPU 系統(tǒng)配置的可擴展性。
垂直領(lǐng)域的翻譯服務依賴領(lǐng)域內(nèi)的長期積累。
以中譯語通為例,2014年其開始自主研發(fā)機器翻譯引擎,同年6月發(fā)布中英統(tǒng)計機器翻譯引擎,是繼谷歌、微軟、百度之后,國內(nèi)最早進行機器翻譯引擎研發(fā)的企業(yè)。這樣的早期布局為中譯語通占據(jù)了先發(fā)優(yōu)勢,中譯語通稱,目前每年的數(shù)據(jù)增長達到了平行語料兩億句對、單語語料五億句對的速度。在2015年12月,中譯語通發(fā)布了包含37個語種的機器翻譯引擎,成為國內(nèi)翻譯領(lǐng)域支持語種數(shù)量最多的企業(yè)。
在機器翻譯領(lǐng)域,每種新的語種擴展都需要千萬句對,要達到工業(yè)級的應用,在數(shù)據(jù)集數(shù)量上要求更高。這也是目前很多企業(yè)放棄了這個方向的原因。
目前,中譯語通的37個語種包含了“一帶一路”沿線18個官方語言中的14個,并且語種范圍還在持續(xù)擴大。而在這一大背景下,配合硬件產(chǎn)品,打通了軟件和數(shù)據(jù)的垂直服務者在機器翻譯領(lǐng)域大有可為。
(內(nèi)容來源:虎嗅網(wǎng))
(商業(yè)合作:business@gtcom.com.cn)