更新時間:2025-08-27 09:10:00作者:佚名
最近火山翻譯團隊公布了《請翻譯2020》的年度回顧,具體介紹了去年推出的火山翻譯、火山同傳等新功能,以及訓練機器翻譯時遇到的技術難題和應對方法。在2020年的最后三天,火山翻譯的使用請求量每天達到1.38億次,每日處理的文字數(shù)量超過百億級別。若將火山每日翻譯的字符量打印在A4紙上,疊放起來的紙張總高度,約莫有1.3座東方明珠電視塔那么高。
2020年國際機器翻譯大賽(WMT20)中取得第一名之后,火山翻譯團隊正在鉆研mRASP 、和MGNMT這些前沿技術。這些新技術的應用將帶來更令人興奮的效果,也許在2021年,火山翻譯會有更多令人矚目的表現(xiàn)。
火山翻譯爆發(fā)年:2020新品涌現(xiàn)
火山翻譯團隊憑借多年技術沉淀、產(chǎn)品設計及方案扶持,推出了包括火山同傳、火山翻譯API、火山翻譯及瀏覽器翻譯插件在內(nèi)的一系列關聯(lián)產(chǎn)品。
視頻翻譯工具:火山翻譯
二零二零年三月,火山翻譯團隊推出創(chuàng)新的人工智能視頻翻譯軟件——火山翻譯 V0.1版,開始對公眾進行封閉測試。
火山翻譯運用尖端語音識別與神經(jīng)翻譯技術,為視頻制作者提供專業(yè)便捷的視頻「錄制文字化-字幕生成-語言轉換」整體解決方案,把視頻制作過程中三項繁復工作「集中處理」完成。該產(chǎn)品具備交互式翻譯和專有名詞調(diào)整等輔助功能,既提升翻譯速度,又讓字幕表現(xiàn)更具特色。這款工具構建了更優(yōu)越的兩種語言字幕制作氛圍,顯著減少了兩種語言字幕的制作開銷,協(xié)助用戶便捷處理視頻內(nèi)容的跨語言分發(fā)事務。
火山系翻譯工具,可自動制作兩種語言字幕,能進行交互式翻譯,支持專業(yè)詞匯調(diào)整等操作
直播與會議翻譯:火山同傳
二零二零年十月,火山翻譯團隊推出了智能同傳產(chǎn)品火山同傳,旨在為線下會議、線上直播配備即時機器同傳支持。在這一年里,火山同傳陸續(xù)為飛書未來無限大會、知名藝術家村上隆的首場中國直播、第四屆CTDC首席技術官領袖峰會等多項直播和大會提供了服務并參與其中。
為了保障即時翻譯的精確度,以及實時字幕的優(yōu)良呈現(xiàn),火山同傳推出了兩種字幕方案,分別是整屏逐字展示模式,和影院級別的字幕穩(wěn)定保障模式,可以適應各種不同的使用環(huán)境。該產(chǎn)品支持55種語言的翻譯功能,同時具備中英日三種語言的聽寫辨認能力,這些都是它的高性能服務特色。通過人工輔助的校驗機制,能夠實時進行修正,確保字幕的準確無誤,并且保持播放的連貫性。特別推出的「VFT專業(yè)場景適配方案」,使翻譯模型的表述方式更能滿足大會在文體等方面的要求,為實時字幕呈現(xiàn)帶來了更佳方案。
知名日本藝術家村上隆首場中國直播,火山同傳提供智能同傳字幕
精準翻譯的在線平臺:火山翻譯網(wǎng)頁版
十一月,火山翻譯網(wǎng)頁版成功發(fā)布,推出了中文與英文兩種語言版本,同時包含了電腦版和手機版的在線翻譯功能,以及相關產(chǎn)品的詳細信息展示。
該翻譯網(wǎng)站能夠處理多達55種語言之間的相互轉換,單次翻譯的文本長度可以達到2000個漢字。它具備自動識別語言種類、快速復制翻譯結果、同時顯示原文和譯文等實用功能,方便用戶快速獲得準確的跨語言轉換服務。
產(chǎn)品介紹頁面系統(tǒng)性地列出了「機器翻譯API」、「視頻字幕翻譯」以及「智能同傳」等火山翻譯旗下的優(yōu)質(zhì)服務,另外還設有「網(wǎng)頁翻譯-瀏覽器插件」等應用的體驗入口。火山翻譯針對B端客戶的相關服務功能已整合進火山引擎智能應用版塊,致力于向更多客戶輸出企業(yè)級的技術產(chǎn)品與解決方案。
火山翻譯官網(wǎng)在線翻譯頁,支持55個語種全語向互譯
翻越“三座大山”,打造多語種、大量級服務的技術能力
這項出色的翻譯軟件得以實現(xiàn),多虧了火山翻譯組織里算法專家和工程技術人員多年來的辛勤付出。該軟件每日完整服務量超過一億次調(diào)用,團隊仍致力于增加更多語言種類多國語言在線翻譯,并且力求翻譯質(zhì)量更上一層樓。
語種擴展,支持55門語言互譯
這一年度,火山翻譯在拓展翻譯語言范疇上不斷努力,從起初僅有少數(shù)幾種語言,發(fā)展到如今能夠處理55種語言、2970種語言對之間的轉換。這其中涵蓋了馬其頓語、斯洛文尼亞語、烏爾都語、旁遮普語等較為罕見的語言類型。
在培養(yǎng)機器翻譯系統(tǒng)的歷程里,火山翻譯集體順利克服了若干關鍵難題:
1. 涉足冷門的翻譯領域
特定翻譯范疇的稀少性加大了模型訓練的挑戰(zhàn),特別是「泛娛樂場景」這類兼具極強非標準化與趣味性的翻譯范疇。針對這種情況,火山翻譯整合了「NMT范疇適配、范疇數(shù)據(jù)擴充、巨量模型訓練、多范疇模型」等多種范疇的技術,依據(jù)各范疇特性實施改良,成功突破了范疇罕見性造成的算法優(yōu)化困境。
2. 部分語種平行數(shù)據(jù)匱乏
語言種類豐富貝語網(wǎng)校,但少數(shù)語言的對應文本資料不足,這始終是培養(yǎng)機器翻譯系統(tǒng)時的一個難點。當可供對比的文本資料不足時,火山翻譯的技術人員借助自研的Fluid系統(tǒng),采用半自動學習方式,進行多種語言的基礎訓練,最終成功研制出一種多語言翻譯系統(tǒng),解決了因缺乏對比資料導致系統(tǒng)表現(xiàn)不佳、翻譯質(zhì)量不高等技術問題。
基于Fluid平臺的半監(jiān)督訓練
層次化建模
3. 服務量級大
工作中資源總是捉襟見肘。算法訓練和優(yōu)化期間,因為GPU資源緊張,需要訓練的語種數(shù)目卻非常可觀,火山翻譯團隊迫切需要提高GPU的使用效率來克服這一難題。為此,團隊采用了「多語言翻譯模型」來統(tǒng)籌資源,并行處理多種長尾語種的訓練,使資源利用程度顯著增強,圓滿完成了大規(guī)模服務的任務。
專業(yè)評測,火山翻譯獲國際比賽冠軍
不斷突破語言表達的局限,持續(xù)更新改進各個語言方向的翻譯水準,火山翻譯在全球范圍內(nèi)展現(xiàn)出很強的競爭優(yōu)勢。
2020年國際機器翻譯大賽舉辦期間,火山翻譯團隊從眾多競爭者中脫穎而出,在「中文-英語」這一核心翻譯任務上取得壓倒性勝利,最終贏得該項賽事的最高榮譽。另外,火山翻譯也贏得了「德語-英語」 、「德語-法語」 、「英語-高棉語」 以及「英語-普什圖語」 語言對機器翻譯競賽的桂冠,同時還奪得了平行語料過濾與對齊項目普什圖語和高棉語的兩個冠軍頭銜。
歷屆賽事里,「中文-英語」的轉換作業(yè)都是角逐最激烈、報名隊伍最多的機器翻譯挑戰(zhàn)項目。火山翻譯這支新銳隊伍,參與了「開放環(huán)境」的競賽——這種模式規(guī)定,依據(jù)提供的測試資料,參賽者能運用所有可用資源及策略,盡最大限度提升譯文質(zhì)量。此外,主辦方還選用了四種知名的在線機器翻譯服務(-A、G、Z、B)進行參照。此類競賽形式被視為"最能有效評估翻譯組合數(shù)據(jù)及算法整體水平"的場合。在比賽策劃機構特邀的語言學者的嚴謹評判下,火山翻譯憑借顯著的實力贏得了該項賽事的最高榮譽。
WMT20 賽事里中英翻譯排名靠前的系統(tǒng)評分,火山翻譯獲得最高分。Ave.z 指的是人工評估轉換后的標準化得分,這同時也是機器翻譯領域當前最受推崇的衡量標準。
與「中文-英語」方向不同,「德語-英語」方向一直是WMT賽事中的常規(guī)賽道,同時也是歐洲各國隊伍重點角逐的領域。在「德語-英語」賽事的終局人工評審階段,火山翻譯依然展現(xiàn)了高超的翻譯能力,最終拔得頭籌。最后,主辦方對參賽小組贊賞有加,稱火山翻譯這個新加入者特別突出,其表現(xiàn)勝過了眾多老牌團隊。
這張圖展示了火山翻譯與谷歌翻譯在各個語言對測試集上的表現(xiàn)差異情況,橫軸代表語言對信息,縱軸體現(xiàn)的是BLEU分數(shù)的差距。根據(jù)圖中數(shù)據(jù)可以知道,在左側棕色區(qū)域涵蓋的大部分語言對中,火山翻譯的自動評測分數(shù)都要好于谷歌。特別是日語轉中文、印尼語轉英語、中文轉日語這三個語言對,其分數(shù)比谷歌翻譯高出整整十個BLEU值。BLEU全稱多國語言在線翻譯,是當前應用最普遍的機器翻譯自動評估標準
火山翻譯和谷歌翻譯在各語向測試集上的表現(xiàn)對比
在英語的翻譯實踐中,火山翻譯有72%的自動評估結果好于谷歌翻譯。火山翻譯正不斷努力在其他語言上取得優(yōu)異表現(xiàn),希望為全球更多使用者提供令人滿意的翻譯體驗。
2020年歲末的最后三天,火山翻譯每日處理的文字量突破百億級別,每日的翻譯請求高達1.38億次,為飛書、今日頭條等眾多業(yè)務提供可靠支持。火山翻譯能夠靈活部署于公有云平臺或私有化環(huán)境,可以快速構建垂直領域的翻譯模型,以此滿足不同行業(yè)的特殊翻譯要求。
新技術將帶來更激動人心的翻譯體驗
翻譯產(chǎn)品與服務領域,無論是模型構建還是推理性能,都必須不斷進行創(chuàng)新并加大投入力度。根據(jù)2020年的工作總結,火山翻譯部門公開了他們正在推進的翻譯技術探索實踐,包括多種前沿方案
創(chuàng)造多語言預訓練的新范式mRASP
mRASP( Pre-)構建的關鍵理念在于塑造「翻譯領域的BERT標桿」,借助先期訓練手段實施大規(guī)模學習,隨后針對特定語言開展細致調(diào)整,便能獲得卓越的轉換表現(xiàn)。該系統(tǒng)在32組語言間進行的基礎訓練,于至少47種翻譯評估標準中均實現(xiàn)了整體性的明顯進步。在火山翻譯中,該技術已被廣泛使用,得到了業(yè)務上的實踐檢驗。
以BERT為典型代表的深度學習模型幾乎主導了所有自然語言處理任務,構成了各類NLP應用的基礎框架。mRASP與既有機器翻譯方法截然不同,開創(chuàng)了機器翻譯領域預訓練及后續(xù)精調(diào)的可行模式。
mRASP專門為機器翻譯工作環(huán)境打造,展現(xiàn)出三個突出的實用價值,分別是,能夠顯著提升翻譯質(zhì)量,有助于實現(xiàn)更高效的翻譯流程,有利于增強翻譯系統(tǒng)的整體性能。
1. 打破了資源場景的限制
任何平行語料庫質(zhì)量如何,翻譯效果都能得到改善。對于像標準英法對譯這樣條件較好的語料,即便已有四千萬對齊句用于訓練,采用mRASP方法依然能大幅提高性能,使BLEU分數(shù)增至44.3分。在資源匱乏的語言對上,mRASP展現(xiàn)出令人意想不到的效果,即便訓練數(shù)據(jù)僅有區(qū)區(qū)一萬句,經(jīng)過十分鐘的參數(shù)優(yōu)化過程,也能構建出一個質(zhì)量尚可的翻譯模型。
2. 打破了語種數(shù)量的限制
各種語言之間的轉換,包括孟加拉語轉換成古吉拉特語,或者印地語轉換成菲律賓語,只要涉及的是地球上存在的語言,都能通過mRASP直接進行優(yōu)化,而且優(yōu)化效果相當不錯。
3. 資源消耗低
其他上百種卡片的預訓練方法充斥著激烈的競爭,而mRASP則顯得更為親民,僅用八張卡就能在一周內(nèi)訓練完畢。可以說,mRASP在機器翻譯領域扮演著類似輕量級BERT的角色,它適用于各類機器翻譯任務,無論面對何種場景或語言,使用mRASP都極有可能帶來驚喜。
mRASP基于框架,利用多個語對的平行語料建立預訓練模型
高性能序列推理引擎
這是一種運行速度極快并且能夠具備多種功能的先進序列分析工具,它針對以某種技術為核心的序列信息處理器以及基于預測的序列生成器進行了顯著改進,在2019年12月便公開發(fā)源,已經(jīng)服務于諸如火山翻譯之類的許多項目和工作環(huán)境。根據(jù)消息,這可能是全球首個能夠全面兼容、GPT等不同類型模型快速運算的公開軟件。
可用于機器翻譯、自動問答、智能寫作、對話回復生成等多種文本生成情境,明顯提升線上模型推理效率,優(yōu)化用戶的使用感受,減少企業(yè)的運營維護開銷。
相比于目前其他開源序列推理引擎,具有如下幾點優(yōu)勢:
1. 高性能
運算能力極其迅速。拿轉換工作來說,比起先前最快的速度能提升十多倍。另外,它比現(xiàn)在市面上所有的開源順序計算工具都要出色,有的產(chǎn)品在效率上僅能比它強百分之四十左右。
2. 支持模型功能多
兼容眾多模型,比如BERT、GPT、VAE等,也兼容多種解碼途徑,例如beam 、集束搜索等。
3. 簡單易用,無縫銜接、等深度學習框架
建立模型規(guī)范,可方便地接入多種深度學習平臺訓練所得的模型。此外,提供現(xiàn)成的端到端模型部署方案,無需編寫任何代碼即可實現(xiàn)高速模型推斷,并且能夠靈活地進行多級復用。
解碼示意圖
鏡像生成式翻譯模型MGNMT
鏡像翻譯生成模型MGNMT(- )致力于處理機器翻譯在缺少平行語料時的難題,該模型已用于火山翻譯的多種語言轉換任務中。借助鏡像生成技術,MGNMT借助互為鏡像的翻譯路徑關聯(lián)性,同時融合翻譯系統(tǒng)和語言系統(tǒng),使兩者形成互補,因此大幅改善了譯文水準
現(xiàn)在的翻譯軟件必須在眾多互相參照的對照語料中學習,才能獲得良好的表現(xiàn)。不過,在許多語言種類少或專業(yè)方向獨特的情境里,互相參照的對照語料相當稀少。這種狀況下,互相參照的對照語料十分難得,必須更巧妙地運用;同時因為互相參照的對照語料不足,充分運用大量單一語言的資料也非常關鍵。
為了充分發(fā)掘雙語資料與單語資料的價值,該系統(tǒng)運用了多種核心方法,具體如下:
借助一個共同的潛在因素,把兩個互譯的轉換系統(tǒng)以及兩種語言的表述系統(tǒng),整合進一個概率框架里。
訓練期間,兩種翻譯路徑彼此增益。借助隱變量解析了成對雙語文本的語義等同性,使兩種翻譯路徑的模型得以更充分地運用雙語匹配資料;又憑借隱變量充當連接樞紐,任何一種語言的單語資料都能同步輔助兩種翻譯路徑的模型,進而更有效地利用了單語資料。
解碼期間,語言模型與翻譯模型彼此配合,正向翻譯模型和目標語言模型通過beam方法聯(lián)合解碼,從而形成若干候選譯文,接著反向翻譯模型和源語言模型對候選譯文進行評估,最終挑選出與原文含義最為貼近的優(yōu)選譯文。
在資源匱乏的環(huán)境中,MGNMT在各種數(shù)據(jù)集上都取得了最優(yōu)的翻譯表現(xiàn)。與常規(guī)模型對比,以及與回翻譯(Back-)結合增強數(shù)據(jù)以借助單語信息的方法相比,其效果都呈現(xiàn)出穩(wěn)定且突出的進步。
MGNMT的示意圖展示了該模型,它構建了兩個翻譯模型以及兩個語言模型,分別對應兩種翻譯方向。
結語
我們和你同樣,走走停停,卻從未動搖。我們和你同樣,歷經(jīng)坎坷,卻始終樂觀。在《請翻譯2020》的總結里,火山翻譯團隊透露,為了達到更出色的譯文質(zhì)量,打造更佳的跨國溝通感受,他們不知疲倦地為各種語言尋找最佳方案,旨在“縮小地球距離,拉近不同文明距離”。