更新時間:2025-08-30 11:09:47作者:佚名
原創 栗子,Owl 果殼
這實在是一件讓人費解的事,原本不打算在眾人面前提及,可如今屢次碰壁,思慮再三,雖不希望攪擾果殼頭條,卻不得不問——為何機器翻譯的文字,常常令人費解!
網友試著把鄭爽的動態譯成外文,居然變得異常流暢。旁觀者開始揣測,鄭爽的動態之所以讓人費解,也許是借助了自動翻譯的功能 | 圖片來自豆瓣@
機器翻譯已經很努力了!
過去的機器翻譯,往往先將句子分成若干部分,接著逐一進行轉換。
人的語言轉換并非如此。我們往往先完整閱讀整個語句留學之路,以便把握其內容網上在線翻譯,然后再用另一種語言轉述相似的含義。而常規的機器翻譯與人的閱讀習慣存在差異,這是導致轉換不夠流暢的一個關鍵因素。
其后,研究人員發現了一種稱作“神經機器翻譯”(NMT)的技術,這種技術力求模仿人類的翻譯過程。
“我是學生”的英文翻譯為法文 |
這種技術面對一段文字時,會借助編碼裝置將全文翻譯為一個數據序列,這個序列由若干數值構成,用以表述文本內容。接著,會采用解碼裝置,將這個數值序列翻譯成期望的語言形式。
這種人工智能,能夠更精準地識別字符間的關聯性,即便兩個文字相隔較遠,中間穿插了其他文字,也能綜合分析句子構造等要素。
編碼器和解碼器的性能怎樣提升?人類持續不斷地向算法提供文本資料,這些資料多數是兩種語言對照的,模型就能從中總結出更多模式,翻譯水平因此逐步提高。
即便持續進修,人工智能翻譯依然會產生大量晦澀難懂的譯文,谷歌翻譯
但還是有各種 bug
然而,單個人工智能即便掌握海量知識網上在線翻譯,也僅能提供基于概率的回應,無法準確把握語言內在的關聯性。以谷歌翻譯為例,它曾犯下過一次典型失誤。當輸入“北大不如清華”時,其輸出結果為“ is than ”。相比之下,人類譯者通常不會犯此類錯誤。
北大不如清華 | 谷歌翻譯
除此之外,AI 在將中文翻譯成其他語言時,還會面臨一個挑戰,那就是如何進行詞語劃分。
漢語中的字詞大多由兩個或以上漢字構成,而字與字之間并無停頓。掌握這門語言的人通常不會犯錯,但人工智能系統必須先弄清楚哪些字會組合成詞語或固定用法,才能做到更精準的轉換。
近些年,涌現出許多優秀的文本切分軟件,例如由百度技術人員 Sun Junyi 設計的結巴分詞,還有清華機構研發的,以及北大機構制作的等等。這些工具不承擔翻譯任務,不過它們同樣是通過海量文本進行學習而形成的智能系統。
當然,即便是再聰慧的詞匯分割人工智能,恐怕也無法處理“強權將我們的地盤瓜分”“我們內部出現了背叛者”這類棘手的句子翻譯。
我們中出了叛徒 | 彈丸論破
此外,自動翻譯仍然存在一個常見現象:單個詞語都能理解,整個句子的含義也能把握,只是整體表達顯得非常生硬。
嘿,我的老伙計,這不是翻譯腔嗎?
翻譯文字如果拘泥于原文形式,就常會脫離目標語言的表達習慣,造成表達生硬。這種生硬的表達在不恰當的語境中,會顯得不妥、晦澀,甚至令人發笑。雖然人工翻譯這種情況已不多見,但機器翻譯面對長句和上下文時,往往難以準確把握,容易產生類似“翻譯腔”的結果,有時直接閱讀原文反而更易理解。
忽視中文表達習慣的一個典型 | 編輯供圖
看不懂?譯后編輯很重要!
機器翻譯極大提升了信息交流的速度,假如僅要求獲得粗略含義,直接采用機器翻譯生成的文本,一般不會造成嚴重后果。然而在規范的文稿,乃至文學作品中,倘若有人膽敢直接運用機器翻譯的產物,那真稱得上是勇敢之人了。
對于需要快速翻譯且要求準確度的文本材料,采用機器翻譯再由人工進行修正,是一種兼顧速度與精確度的翻譯途徑,這種做法促使了譯后編輯這一新興職業的出現。
譯后編輯的工作,需要讓機器翻譯變得通順易懂,但這并不簡單,既要迅速找出機器翻譯文本中的問題,又要根據翻譯的用途,去調整和改進翻譯的最終效果。
有提供譯后編輯服務的公司 | .co
人們或許會疑惑:這項任務與翻譯校對的工作是否類似?事實上,兩者相去甚遠。除了必須具備翻譯前后語言的基礎認知,譯后編輯工作還要求熟悉機器翻譯的運作機制,并掌握基礎的編程能力,以便為機器翻譯系統創建必要的專業詞匯庫。
機器翻譯作為溝通手段,會不斷進步,生成的語句也會愈加明白。但語言不只是應用工具,后期修訂正是融合機器翻譯的高效性與人工翻譯的精準性,使人能迅速獲取易于理解,又帶有文采、蘊含情感的內容。
畢竟,如果有了譯后編輯,應該就不會這種翻譯了吧??