更新時間:2025-09-05 11:06:43作者:佚名
(多圖預(yù)警)
最近,百度的文心一言開始接受檢驗,卻引來非議,被稱作“模仿者”,“鴻蒙的仿制品”,在嗶哩嗶哩上受到猛烈抨擊。然而,說實話,許多人根本不在乎文心一言是否只是模仿,他們只是出于對百度的反感,連嘗試都不愿意,就立刻對這件事下了結(jié)論。我明白眾人皆對百度反感,我自己對這企業(yè)也深感不滿,畢竟其行事笨拙是公開的秘密。但事理有別,不能因其行為笨拙,我們就無視客觀情況。所以我選擇提出不同看法,向那些主張中譯英的人潑點冷水。
部分網(wǎng)友在文心一言的繪圖選項里鍵入一些在中英轉(zhuǎn)換時意義不明的詞匯,例如鍵入“總線”,文心一言會生成“巴士”的圖像,原因是總線和巴士在英文里都稱作bus,這就證明文心一言實際上是將中文翻譯成英文,然后利用公開可用的SD技術(shù)生成畫面,最后把生成的結(jié)果當(dāng)作自己創(chuàng)作的作品展示給用戶。
同樣的例子還有魚香肉絲
起重機(jī)(crane)
土耳其()張開翅膀
這確實可以算作是文心一言存在抄襲行為的一個確鑿依據(jù),中譯英能夠說明前述情況,不過,中譯英卻不能說明后文出現(xiàn)的狀況(后面的人工翻譯全部采用百度翻譯完成)
心中有數(shù)的人翻譯成英文是A with a clear mind,心中有數(shù)翻譯成英文是have a well--out plan,不管是哪一個都沒有竹子
唐伯虎點秋香的機(jī)器翻譯結(jié)果是Tang Bohu Dots ,其中完全沒有出現(xiàn)任何與“虎”相關(guān)的字眼
車流如織馬蹄疾,有河流,也有溪水,卻尋不到真龍蹤跡
機(jī)器翻譯并非如人們所想那般愚鈍,即便是百度翻譯,也能準(zhǔn)確翻譯前述內(nèi)容,且不會像文心一言那樣出現(xiàn)“拘泥字面”的誤判。
我們確實存在一個認(rèn)知偏差,當(dāng)中英轉(zhuǎn)換產(chǎn)生不確定性時英譯漢翻譯工具,是否就能斷定百度主要處理的是中文到英文的轉(zhuǎn)換,而不是英文到中文的轉(zhuǎn)換?或許我們都意識到了這種認(rèn)知偏差,但為了吸引關(guān)注度,或者僅僅為了批評百度,很多人故意忽略了另一種可能性。但事實上我們察覺到,凡是能夠通過漢譯英進(jìn)行說明的,同樣可以通過英譯漢進(jìn)行說明,而且英譯漢能夠說明的范圍更廣,以前面提到的幾張圖片為例
唐伯虎
街道上車馬往來,十分繁忙,不過這種說法存在疏漏英譯漢翻譯工具,因為百度只保留了車馬川流不息,而馬的部分卻缺失了
當(dāng)然也不排除那輛車是寶馬的可能
此外還有
燃燒的航天器,在翻譯成英文時,不會包含“熊”字,但若從英文翻譯回中文,搜索引擎會將“bear flame”解釋為熊熊火焰,這種現(xiàn)象便有了合理的說明
由此可見,文心一言并非像傳說中那樣進(jìn)行“漢譯英”,而是執(zhí)行“英譯漢”。那些支持“漢譯英”觀點的人所提供的論據(jù),不僅無法證實文心一言是模仿他人的產(chǎn)品,反而能夠表明它是獨立研發(fā)的,只是借助了英文的資料庫。
這可以解釋為何文心一言在理解中文時常出現(xiàn)偏差,畢竟其訓(xùn)練資料主要源自英文語料庫。
但以上都只是猜測,有其他證據(jù)能證明嗎?
哦,確實存在,百度先前便公布了ERNIE - ViLG 2.0的相關(guān)研究資料,其中包含了他們所采用的數(shù)據(jù)集信息,詳細(xì)內(nèi)容能夠查閱
當(dāng)然我知道你們是不會看的,所以我就截出來了
ERNIE - ViLG 2.0 的170M圖像文本對數(shù)據(jù),類似于LAION(et al.,2021)的數(shù)據(jù)集,也包括其他類型的數(shù)據(jù)。圖像自動對齊功能應(yīng)用在相同的平臺上。針對這些數(shù)據(jù),我們通過百度API3進(jìn)行處理,以獲取相應(yīng)的結(jié)果。
翻譯成中文是
ERNIE-ViLG 2.0的練習(xí)資料共計一億七千萬組圖文配對,涵蓋了公開可獲取的英文資料庫,例如LAION(等人,2021年)以及一系列內(nèi)部研發(fā)的中式資料。圖像自動編碼器在完全相同的視覺素材上實施訓(xùn)練。針對附帶英文說明的圖片,我們自動借助百度翻譯服務(wù)3將其轉(zhuǎn)化為中文文本。
憑借這些依據(jù),我們能夠極其審慎地認(rèn)定:文心一言產(chǎn)生英漢轉(zhuǎn)換的模糊現(xiàn)象,是因為它借助了英譯漢的資料庫,而不是漢譯英的部分被提供給其他程序用于生成圖像。
說實話,如果覺得文心一言只是個偽裝出來的東西,那未免小瞧了百度,雖然百度給人的印象不太好,但它還是有真材實料的。科研中最頭疼的問題是沒法確定哪條路是對的,因此只能反復(fù)嘗試,不斷犯錯。美國成功研發(fā)出核武器,蘇聯(lián)很快也開始了核武器的研發(fā)工作;蘇聯(lián)實現(xiàn)載人航天飛行,美國隨后也送人進(jìn)入了太空,因為一方已經(jīng)探索出可行的路徑,后來的國家只需跟隨即可。那么為什么在計算機(jī)領(lǐng)域蘇聯(lián)卻輸給了美國呢?蘇聯(lián)在國力對比上處于劣勢,卻將發(fā)展重心放在了電子管技術(shù)上,美國則轉(zhuǎn)向了晶體管研究,事實證明晶體管才是更先進(jìn)的路徑,蘇聯(lián)的選擇最終導(dǎo)致了失誤,為此承受了沉重的損失。
如今,方向已經(jīng)明確,既然確認(rèn)了該路徑具備實施條件,百度再次踏足此途將不會構(gòu)成挑戰(zhàn)。
和老前輩GPT-4相比,文心一言的表現(xiàn)實在令人大失所望。人們當(dāng)然可以批評它,指責(zé)它不夠完善,畢竟文心一言的能力是大家有目共睹的。同時,也有人會替它說話,認(rèn)為文心一言起步較晚,目前還處在發(fā)展初期,或者雖然文心一言提交的成果并不理想,但其他競爭者同樣表現(xiàn)平平,因此我們依然在全球范圍內(nèi)占據(jù)領(lǐng)先地位。然而所有這些行為都必須以客觀事實為依據(jù),不能憑空臆斷,更不能基于個人情緒進(jìn)行抨擊。即便要對百度提出批評,也要確保指責(zé)的靶子準(zhǔn)確無誤。