最新午夜国内自拍视频,曰本真人性做爰毛片,好吊色綜合網

“世界末日時鐘是23點57分。我們正在經(jīng)歷世界上的戲劇性的發(fā)展，這表明我們越來越接近末日和耶穌的回歸?！边@段驚悚的“預言”來自谷歌翻譯。2016年，谷歌宣布機器翻譯“重大突破”——神經(jīng)機器翻譯（GNMT），將翻譯質(zhì)量提高到接近人類筆譯的水平。然而，它將無意義的文本翻譯成怪異的宗教預言引起了新的恐慌。這次，要怪AI是“黑盒”，還是拖出谷歌員工來背鍋？

在Google Translate中鍵入“dog”一詞19次，然后選擇將這段無意義的文本從毛利語翻譯成英語，結(jié)果會怎樣？

彈出來的是一段看似亂碼宗教預言：

Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus’ return.

“世界末日時鐘還差3分鐘到12點。我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展，這表明我們越來越接近末日和耶穌的回歸?！?/p>

這只是Reddit以及其他網(wǎng)站用戶從谷歌翻譯中挖掘出來的眾多怪異、有時甚至是不祥的翻譯的一個例子。將原文設為索馬里語，連續(xù)輸入“ag”一詞，這個字符串會被翻譯成“sons of Gershon”（革順的兒子），“name of the LORD”（上帝的名字），并且會引用圣經(jīng)里的術(shù)語，例如“cubits”（肘，圣經(jīng)中的度量衡）和Deuteronomy（《申命記》）。谷歌翻譯是谷歌已經(jīng)推出10年的服務，現(xiàn)在可以翻譯超過100種語言。

在推特上，這些翻譯引起恐慌，有人甚至將這些奇怪的翻譯歸咎于鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測，其中一些奇怪的翻譯輸出可能來自收集自電子郵件或私人消息的文本。

谷歌發(fā)言人Justin Burr在一封電子郵件中表示：“Google Translate從網(wǎng)絡上的翻譯范例學習，不使用‘私人信息’進行翻譯，系統(tǒng)甚至都無法訪問到這些內(nèi)容?！薄斑@只是將無意義的話語輸入系統(tǒng)，導致產(chǎn)生的也是無意義的內(nèi)容的一種功能?！?/p>

對于這種怪異的輸出，有幾種可能的解釋。比如，這些惡意消息可能是心懷不滿的谷歌員工造成的，也可能是惡作劇用戶濫用“提供建議”按鈕造成的，該選項將接受用戶提供的有助于改善翻譯質(zhì)量的建議。

罪魁禍首可能是神經(jīng)機器翻譯

哈佛大學研究自然語言處理和計算機翻譯的助理教授Andrew Rush認為，內(nèi)部的質(zhì)量過濾器（quality filter）可能會捕捉到這種類型的惡意操作。Rush說，更有可能的是，這些奇怪的翻譯與2016年時谷歌翻譯的一個重大變化有關——它開始使用一種叫做“神經(jīng)機器翻譯”的技術(shù)。

在神經(jīng)機器翻譯中，使用一種語言的大量文本和另一種語言的相應譯文來訓練系統(tǒng)，以創(chuàng)建一個能夠在兩種語言之間相互翻譯的模型。Rush說，當系統(tǒng)被輸入無意義的文本時，它就會“產(chǎn)生幻覺”，生成怪異的輸出——就像谷歌的DeepDream視覺系統(tǒng)會產(chǎn)生可怕的圖像一樣。

谷歌DeepDream的作畫

“這些模型都是黑盒，你能找到多少訓練實例，它就能學到多少。” Rush說：“訓練實例中絕大部分看起來都像人類語言，因此當你給它一個新的實例時，它受到的訓練就是，不惜一切代價創(chuàng)造出一些看起來也像人類語言的東西。然而，如果你給它一些非常不同的東西，最好的翻譯將是一些看起來仍然流暢的文本，但根本與輸入無關。”

BBN Technologies的資深科學家、從事機器翻譯工作的Sean Colbath也同意，奇怪的輸出可能是由于Google Translate的算法試圖在混亂中尋找秩序。他還指出，這些產(chǎn)生最奇怪結(jié)果的語言——索馬里語、夏威夷語和毛利語——它們用于訓練的翻譯文本比英語或漢語等更廣泛使用的語言要小得多。因此，Colbath說，谷歌可能會使用《圣經(jīng)》這類的宗教文本（《圣經(jīng)》已經(jīng)被翻譯成多種語言），用這些文本來訓練它的模型，導致產(chǎn)生宗教內(nèi)容。

Rush也同意這種說法，如果谷歌使用《圣經(jīng)》來訓練它的神經(jīng)翻譯模型，那么就可以解釋一些奇怪的輸出了。事實上，索馬里語的幾個奇怪的翻譯版本與《舊約》中的某些章節(jié)很相似。比如《出埃及記》27：18提到“a hundred cubits”（長一百肘），并且有幾節(jié)經(jīng)文，包括《民數(shù)記》3:18討論了“sons of Gershon”（革順的兒子）。

谷歌發(fā)言人Justin Burr拒絕回答Google Translate的訓練數(shù)據(jù)是否包含宗教文本。

但有時候，確實感覺這個算法似乎在傳遞某種神秘的精神能量——它甚至會開笑話。

你看，用Google Translate翻譯“w hy ar e th e tran stla tions so wei rd”在索馬里語中的意思，它的輸出是，“這是一個讓它變得更好的好辦法”。

神經(jīng)機器翻譯的主要問題

Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫了一篇精彩的關于神經(jīng)機器翻譯的論文（文末附論文地址），現(xiàn)在仍然具有現(xiàn)實意義。在這里有必要總結(jié)一下：

1.神經(jīng)機器翻譯（NMT）在處理領域之外的數(shù)據(jù)時的表現(xiàn)很糟：當前的機器翻譯系統(tǒng)會生成非常流暢的輸出，這些輸出與領域外數(shù)據(jù)的輸入無關。因此像Google翻譯這樣的通用機器翻譯系統(tǒng)在法律或金融等專業(yè)領域的表現(xiàn)尤其糟糕。與基于短語的系統(tǒng)等傳統(tǒng)方法相比，NMT系統(tǒng)的效果更差。有多差呢？請參閱下面的圖表。非對角線上元素是是用領域外數(shù)據(jù)訓練后的結(jié)果，綠色條代表NMT，藍色條代表基于短語的系統(tǒng)。

將機器翻譯系統(tǒng)在一個領域內(nèi)（行）上訓練，并在另一個領域（列）上進行測試。

藍色：基于短語的系統(tǒng) 綠色：NMT

2.NMT在小數(shù)據(jù)集上表現(xiàn)不佳：一般而言，大多數(shù)機器學習都是這樣，但這個問題在NMT上尤為突出。 NMT的優(yōu)點在于，隨著數(shù)據(jù)量的增加，它的表現(xiàn)要（比基于短語的機器翻譯）更好，但在數(shù)據(jù)量很低的情況下，NMT的表現(xiàn)確實更差。事實上，正如作者所說，“在資源條件較差的情況下，NMT會產(chǎn)生與輸入內(nèi)容無關的流暢輸出?！边@可能是Motherboard的文章探討的一些關于NMT表現(xiàn)奇怪的另一個原因。

3.NMT在罕見詞匯上的表現(xiàn)不佳：盡管比基于短語的翻譯的表現(xiàn)更好，但NMT對于罕見或未見過的詞語翻譯的表現(xiàn)不佳。對于存在大量變形詞的語言及大量命名實體的領域，這可能成為一個問題，因為變形詞和命名實體一般非常罕見。

上圖是我們即將出版的書的第2章部分內(nèi)容的摘錄。例如，在土耳其語中，時不時就會遇到變形形式的詞。

如果單詞只被觀察到一次，就會被舍棄。字節(jié)成對編碼（byte-pair encoding）技術(shù)有助于解決這個問題，但有必要對此進行更詳細的研究。

4.長句的翻譯問題：對長句編碼及生成長句仍然是一個沒有解決的問題。機器翻譯系統(tǒng)隨句子長度的增加，其表現(xiàn)會越來越糟，NMT系統(tǒng)尤其如此。使用注意力有幫助，但問題遠未“解決”。在許多領域，如法律領域，冗長復雜的句子是很常見的。

5.注意力（Attention）機制不等于簡單對齊：這是一個非常微妙但重要的問題。在傳統(tǒng)的SMT系統(tǒng)（如基于短語的MT）中，對齊翻譯為模型的檢測提供了有用的調(diào)試信息。但是注意機制不能被視為傳統(tǒng)意義上的對齊，即使論文經(jīng)常將注意力機制作為“軟對齊”引起注意。在NMT系統(tǒng)中，除了源語言中的動詞之外，目標語言中的動詞也可以作為主語和賓語成分。

6.難以控制翻譯質(zhì)量：每個單詞都有多種翻譯，典型的機器翻譯系統(tǒng)在源句的翻譯結(jié)構(gòu)上表現(xiàn)很好。為了保持句子結(jié)構(gòu)的大小合理，會使用集束搜索（beam search）。通過改變集束寬度，可以找到低概率但正確的平移。而對于NMT系統(tǒng)，調(diào)整集束的寬度似乎沒有任何影響，甚至可能會有不良影響。

當數(shù)據(jù)量很大時，NMT系統(tǒng)仍然很難被擊敗。關于神經(jīng)網(wǎng)絡模型的黑盒性的討論也在繼續(xù)，今天的NMT模型（不論是基于LSTM還是Transformer）都會受此影響。這是一個活躍的研究領域，如果時間允許，我期待參加EMNLP關于該主題的研討會。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴