亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌翻譯竟然預言世界末日?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-07-23 09:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“世界末日時鐘是23點57分。我們正在經(jīng)歷世界上的戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸?!边@段驚悚的“預言”來自谷歌翻譯。2016年,谷歌宣布機器翻譯“重大突破”——神經(jīng)機器翻譯(GNMT),將翻譯質(zhì)量提高到接近人類筆譯的水平。然而,它將無意義的文本翻譯成怪異的宗教預言引起了新的恐慌。這次,要怪AI是“黑盒”,還是拖出谷歌員工來背鍋?

在Google Translate中鍵入“dog”一詞19次,然后選擇將這段無意義的文本從毛利語翻譯成英語,結(jié)果會怎樣?

彈出來的是一段看似亂碼宗教預言:

Doomsday Clock is three minutes at twelve We are experiencing characters and a dramatic developments in the world, which indicate that we are increasingly approaching the end times and Jesus’ return.

“世界末日時鐘還差3分鐘到12點。我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展,這表明我們越來越接近末日和耶穌的回歸?!?/p>

這只是Reddit以及其他網(wǎng)站用戶從谷歌翻譯中挖掘出來的眾多怪異、有時甚至是不祥的翻譯的一個例子。將原文設為索馬里語,連續(xù)輸入“ag”一詞,這個字符串會被翻譯成“sons of Gershon”(革順的兒子),“name of the LORD”(上帝的名字),并且會引用圣經(jīng)里的術(shù)語,例如“cubits”(肘,圣經(jīng)中的度量衡)和Deuteronomy(《申命記》)。谷歌翻譯是谷歌已經(jīng)推出10年的服務,現(xiàn)在可以翻譯超過100種語言。

在推特上,這些翻譯引起恐慌,有人甚至將這些奇怪的翻譯歸咎于鬼魂和惡魔。reddit上TranslateGate子論壇上有用戶推測,其中一些奇怪的翻譯輸出可能來自收集自電子郵件或私人消息的文本。

谷歌發(fā)言人Justin Burr在一封電子郵件中表示:“Google Translate從網(wǎng)絡上的翻譯范例學習,不使用‘私人信息’進行翻譯,系統(tǒng)甚至都無法訪問到這些內(nèi)容?!薄斑@只是將無意義的話語輸入系統(tǒng),導致產(chǎn)生的也是無意義的內(nèi)容的一種功能?!?/p>

對于這種怪異的輸出,有幾種可能的解釋。比如,這些惡意消息可能是心懷不滿的谷歌員工造成的,也可能是惡作劇用戶濫用“提供建議”按鈕造成的,該選項將接受用戶提供的有助于改善翻譯質(zhì)量的建議。

罪魁禍首可能是神經(jīng)機器翻譯

哈佛大學研究自然語言處理和計算機翻譯的助理教授Andrew Rush認為,內(nèi)部的質(zhì)量過濾器(quality filter)可能會捕捉到這種類型的惡意操作。Rush說,更有可能的是,這些奇怪的翻譯與2016年時谷歌翻譯的一個重大變化有關——它開始使用一種叫做“神經(jīng)機器翻譯”的技術(shù)。

在神經(jīng)機器翻譯中,使用一種語言的大量文本和另一種語言的相應譯文來訓練系統(tǒng),以創(chuàng)建一個能夠在兩種語言之間相互翻譯的模型。Rush說,當系統(tǒng)被輸入無意義的文本時,它就會“產(chǎn)生幻覺”,生成怪異的輸出——就像谷歌的DeepDream視覺系統(tǒng)會產(chǎn)生可怕的圖像一樣。

谷歌DeepDream的作畫

“這些模型都是黑盒,你能找到多少訓練實例,它就能學到多少。” Rush說:“訓練實例中絕大部分看起來都像人類語言,因此當你給它一個新的實例時,它受到的訓練就是,不惜一切代價創(chuàng)造出一些看起來也像人類語言的東西。然而,如果你給它一些非常不同的東西,最好的翻譯將是一些看起來仍然流暢的文本,但根本與輸入無關。”

BBN Technologies的資深科學家、從事機器翻譯工作的Sean Colbath也同意,奇怪的輸出可能是由于Google Translate的算法試圖在混亂中尋找秩序。他還指出,這些產(chǎn)生最奇怪結(jié)果的語言——索馬里語、夏威夷語和毛利語——它們用于訓練的翻譯文本比英語或漢語等更廣泛使用的語言要小得多。因此,Colbath說,谷歌可能會使用《圣經(jīng)》這類的宗教文本(《圣經(jīng)》已經(jīng)被翻譯成多種語言),用這些文本來訓練它的模型,導致產(chǎn)生宗教內(nèi)容。

Rush也同意這種說法,如果谷歌使用《圣經(jīng)》來訓練它的神經(jīng)翻譯模型,那么就可以解釋一些奇怪的輸出了。事實上,索馬里語的幾個奇怪的翻譯版本與《舊約》中的某些章節(jié)很相似。比如《出埃及記》27:18提到“a hundred cubits”(長一 百肘),并且有幾節(jié)經(jīng)文,包括《民數(shù)記》3:18討論了“sons of Gershon”(革順的兒子)。

谷歌發(fā)言人Justin Burr拒絕回答Google Translate的訓練數(shù)據(jù)是否包含宗教文本。

但有時候,確實感覺這個算法似乎在傳遞某種神秘的精神能量——它甚至會開笑話。

你看,用Google Translate翻譯“w hy ar e th e tran stla tions so wei rd”在索馬里語中的意思,它的輸出是,“這是一個讓它變得更好的好辦法”。

神經(jīng)機器翻譯的主要問題

Philipp Koehn和Rebecca Knowles在2017年就這一主題撰寫了一篇精彩的關于神經(jīng)機器翻譯的論文(文末附論文地址),現(xiàn)在仍然具有現(xiàn)實意義。在這里有必要總結(jié)一下:

1.神經(jīng)機器翻譯(NMT)在處理領域之外的數(shù)據(jù)時的表現(xiàn)很糟:當前的機器翻譯系統(tǒng)會生成非常流暢的輸出,這些輸出與領域外數(shù)據(jù)的輸入無關。因此像Google翻譯這樣的通用機器翻譯系統(tǒng)在法律或金融等專業(yè)領域的表現(xiàn)尤其糟糕。與基于短語的系統(tǒng)等傳統(tǒng)方法相比,NMT系統(tǒng)的效果更差。有多差呢?請參閱下面的圖表。非對角線上元素是是用領域外數(shù)據(jù)訓練后的結(jié)果,綠色條代表NMT,藍色條代表基于短語的系統(tǒng)。

將機器翻譯系統(tǒng)在一個領域內(nèi)(行)上訓練,并在另一個領域(列)上進行測試。

藍色:基于短語的系統(tǒng) 綠色:NMT

2.NMT在小數(shù)據(jù)集上表現(xiàn)不佳:一般而言,大多數(shù)機器學習都是這樣,但這個問題在NMT上尤為突出。 NMT的優(yōu)點在于,隨著數(shù)據(jù)量的增加,它的表現(xiàn)要(比基于短語的機器翻譯)更好,但在數(shù)據(jù)量很低的情況下,NMT的表現(xiàn)確實更差。事實上,正如作者所說,“在資源條件較差的情況下,NMT會產(chǎn)生與輸入內(nèi)容無關的流暢輸出?!边@可能是Motherboard的文章探討的一些關于NMT表現(xiàn)奇怪的另一個原因。

3.NMT在罕見詞匯上的表現(xiàn)不佳:盡管比基于短語的翻譯的表現(xiàn)更好,但NMT對于罕見或未見過的詞語翻譯的表現(xiàn)不佳。對于存在大量變形詞的語言及大量命名實體的領域,這可能成為一個問題,因為變形詞和命名實體一般非常罕見。

上圖是我們即將出版的書的第2章部分內(nèi)容的摘錄。例如,在土耳其語中,時不時就會遇到變形形式的詞。

如果單詞只被觀察到一次,就會被舍棄。字節(jié)成對編碼(byte-pair encoding)技術(shù)有助于解決這個問題,但有必要對此進行更詳細的研究。

4.長句的翻譯問題:對長句編碼及生成長句仍然是一個沒有解決的問題。 機器翻譯系統(tǒng)隨句子長度的增加,其表現(xiàn)會越來越糟,NMT系統(tǒng)尤其如此。使用注意力有幫助,但問題遠未“解決”。在許多領域,如法律領域,冗長復雜的句子是很常見的。

5.注意力(Attention)機制不等于簡單對齊:這是一個非常微妙但重要的問題。在傳統(tǒng)的SMT系統(tǒng)(如基于短語的MT)中,對齊翻譯為模型的檢測提供了有用的調(diào)試信息。但是注意機制不能被視為傳統(tǒng)意義上的對齊,即使論文經(jīng)常將注意力機制作為“軟對齊”引起注意。在NMT系統(tǒng)中,除了源語言中的動詞之外,目標語言中的動詞也可以作為主語和賓語成分。

6.難以控制翻譯質(zhì)量:每個單詞都有多種翻譯,典型的機器翻譯系統(tǒng)在源句的翻譯結(jié)構(gòu)上表現(xiàn)很好。為了保持句子結(jié)構(gòu)的大小合理,會使用集束搜索(beam search)。通過改變集束寬度,可以找到低概率但正確的平移。而對于NMT系統(tǒng),調(diào)整集束的寬度似乎沒有任何影響,甚至可能會有不良影響。

當數(shù)據(jù)量很大時,NMT系統(tǒng)仍然很難被擊敗。關于神經(jīng)網(wǎng)絡模型的黑盒性的討論也在繼續(xù),今天的NMT模型(不論是基于LSTM還是Transformer)都會受此影響。這是一個活躍的研究領域,如果時間允許,我期待參加EMNLP關于該主題的研討會。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6242

    瀏覽量

    110101
  • 機器翻譯
    +關注

    關注

    0

    文章

    141

    瀏覽量

    15437

原文標題:谷歌翻譯竟預言世界末日,專家解密神經(jīng)翻譯6大難題

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    亮亮視野AR翻譯眼鏡亮相HICOOL 2025全球創(chuàng)業(yè)者峰會

    、IASP世界大會和京臺科技論壇獨家提供AR翻譯技術(shù)服務之后,亮亮視野再次亮相大型國際論壇,旗下AR翻譯眼鏡逐漸成為北京文化科技新符號,也是北京打造“全球創(chuàng)新創(chuàng)業(yè)生態(tài)之都”的最新實例。
    的頭像 發(fā)表于 10-23 17:34 ?825次閱讀

    AI Agent 顛覆連鎖門店管理?華為《智能世界 2035》重磅預言!

    ...... 整個世界仿佛擁有一個共同的智能大腦,AI Agent 不只是工具,更是企業(yè)與行業(yè)的自主協(xié)同超級節(jié)點。 上述正是華為《智能世界 2035》報告描繪的藍圖: 在十大技術(shù)躍遷的推動下,制造、能源、商業(yè)服務、醫(yī)療、教育等多個行業(yè)正在飛速進行 A
    的頭像 發(fā)表于 10-11 16:47 ?444次閱讀
    AI Agent 顛覆連鎖門店管理?華為《智能<b class='flag-5'>世界</b> 2035》重磅<b class='flag-5'>預言</b>!

    亮亮視野AR翻譯眼鏡亮相2025北京文化論壇

    世界大會和京臺科技論壇獨家提供AR翻譯技術(shù)服務之后,亮亮視野再次服務大型國際論壇,旗下AR翻譯眼鏡也正逐漸成為北京文化科技新符號。
    的頭像 發(fā)表于 09-30 11:14 ?700次閱讀

    工業(yè)網(wǎng)關:連接工業(yè)現(xiàn)場與數(shù)字世界的“翻譯官”

    。這時,工業(yè)網(wǎng)關就登場了,它就像一個專業(yè)的“翻譯官”,不僅能讓這些設備“開口說話”,還能把它們的數(shù)據(jù)安全、高效地傳送到更遠的地方,甚至云端。那么,工業(yè)網(wǎng)關到底能用在哪些場景上呢?今天咱們就來好好聊聊。
    的頭像 發(fā)表于 09-24 14:45 ?374次閱讀
    工業(yè)網(wǎng)關:連接工業(yè)現(xiàn)場與數(shù)字<b class='flag-5'>世界</b>的“<b class='flag-5'>翻譯</b>官”

    成都京東方醫(yī)院完成世界首例反向折疊脊柱畸形手術(shù)

    近日,成都京東方醫(yī)院成功完成世界首例反向折疊脊柱畸形矯正手術(shù),為一名曾被預言“活不過13歲”的極重度脊柱畸形患者帶來新生。
    的頭像 發(fā)表于 09-18 15:48 ?354次閱讀

    翻譯失去網(wǎng)絡,時空壺新T1翻譯機開創(chuàng)首個離線模型賦能全球溝通新體驗

    在全球化交流日益緊密的當下,跨語言溝通工具的重要性愈發(fā)凸顯。近日,時空壺推出的T1翻譯機憑借其強大的離線模型與便捷應用,成為市場焦點,為人們在跨國交流場景中帶來前所未有的便利。時空壺T1翻譯機搭載了
    的頭像 發(fā)表于 09-08 16:52 ?813次閱讀
    當<b class='flag-5'>翻譯</b>失去網(wǎng)絡,時空壺新T1<b class='flag-5'>翻譯</b>機開創(chuàng)首個離線模型賦能全球溝通新體驗

    聲智科技聲學模型賦予AI感知物理世界

    在科技浪潮的尖端,一個新時代正悄然開啟。NVIDIA創(chuàng)始人黃仁勛曾預言,未來通用人工智能(AGI)將不再局限于虛擬世界,而是能夠與物理世界深度交互的“物理AI”。圖靈獎得主楊立昆和計算機科學家李飛飛
    的頭像 發(fā)表于 09-02 17:46 ?935次閱讀

    谷歌DeepMind重磅發(fā)布Genie 3,首次實現(xiàn)世界模型實時交互

    電子發(fā)燒友網(wǎng)綜合報道 當?shù)貢r間2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。這款被英偉達科學家Jim Fan譽為“游戲引擎2.0”的模型,通過單文本提示即可生成實時
    的頭像 發(fā)表于 08-13 08:27 ?6394次閱讀

    谷歌地圖GPS定位

    谷歌地圖GPS定位:精準導航背后的技術(shù)解析 谷歌地圖作為全球最受歡迎的地圖服務之一,其精準的GPS定位功能為用戶提供了極大便利。本文將深入探討谷歌地圖如何利用GPS技術(shù),實現(xiàn)高精度定位,并帶來革命性
    的頭像 發(fā)表于 05-29 16:54 ?772次閱讀

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣

    UPS(不間斷電源)故障頻發(fā)?原因竟然是這樣
    的頭像 發(fā)表于 04-19 13:53 ?1165次閱讀
    UPS(不間斷電源)故障頻發(fā)?原因<b class='flag-5'>竟然</b>是這樣

    探索信號分析的奇妙世界

    在這個信息爆炸的時代無線通信已經(jīng)成為我們生活中不可或缺的一部分無論是手機、無線網(wǎng)絡還是衛(wèi)星通信背后都有一個共同的英雄——信號分析儀今天,就讓我們一起探索這個奇妙的無線電世界了解信號分析產(chǎn)品如何幫助
    的頭像 發(fā)表于 04-07 09:49 ?514次閱讀
    探索信號分析的奇妙<b class='flag-5'>世界</b>

    測量ADS1274的DOUT[5:8],竟然和地是通的,這是怎么回事?

    測量ADS1274的DOUT[5:8],竟然和地是通的,這是怎么回事? 是芯片的問題?
    發(fā)表于 02-13 08:21

    AI助力實時翻譯耳機

    你是否曾經(jīng)因為語言障礙而無法與外國人順暢交流?或者在旅行中因為語言不通而錯過了一些精彩的經(jīng)歷?現(xiàn)在,隨著AI技術(shù)的發(fā)展,實時翻譯耳機可以幫你輕松解決這些問題。 1 什么是實時翻譯耳機 實時翻譯耳機
    的頭像 發(fā)表于 01-24 11:14 ?2960次閱讀
    AI助力實時<b class='flag-5'>翻譯</b>耳機

    ADS8361輸入不接的時候,輸出端的時序竟然有波形出來,是哪里的問題?

    我現(xiàn)在在使用這款ADS8361采集芯片,請問,當輸入不接的時候,輸出端的時序竟然有波形出來,有6萬多,我感覺是不是芯片有問題?當沒有輸入信號,輸出端竟然有波形,而且還是一個很寬的高電平,但是每20個脈沖,輸出端波形一致,感覺是不是哪里出問題了?請大牛解答下,謝謝!
    發(fā)表于 12-20 08:06

    LLMWorld上線代碼翻譯新工具——問丫·碼語翻譯俠,快來體驗!

    01. 工具介紹 aicode.llmworld.net 問丫·碼語翻譯俠 是一款由LLMWorld新推出的代碼翻譯工具,支持各種語言之間的翻譯,包括計算機語言到自然語言。 02.
    的頭像 發(fā)表于 12-09 11:11 ?1538次閱讀
    LLMWorld上線代碼<b class='flag-5'>翻譯</b>新工具——問丫·碼語<b class='flag-5'>翻譯</b>俠,快來體驗!