亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

介紹NMT模型魯棒性對抗訓(xùn)練的三部曲

深度學(xué)習(xí)自然語言處理 ? 來源:天宏NLP ? 2023-02-20 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要介紹NMT模型魯棒性的相關(guān)改進(jìn)工作,介紹一下對抗訓(xùn)練的三部曲,一作皆是ChengYong,分別中了2018,2019和2020的ACL。

第一項工作為 Towards Robust Neural Machine Translation (ACL 2018)

本文的問題引入為一個小實(shí)驗,即將機(jī)器翻譯的源句進(jìn)行微小擾動(同義詞替換),69.74%的翻譯句子也隨之改變,并且原始輸入和擾動輸入對應(yīng)的翻譯句間BLEU僅為79.01,因此,作者希望通過對抗訓(xùn)練來加強(qiáng)Encoder和Decoder的抗干擾能力。

5c4f9db4-afe5-11ed-bfe3-dac502259ad0.png

具體做法如上圖,首先是噪聲的引入,作者提出兩種方式:

1)詞匯級別,計算余弦相似度進(jìn)行同義詞替換;

2)特征級別,在詞向量上加入高斯噪聲。

然后是噪聲數(shù)據(jù)的使用,對應(yīng)上圖中三個損失函數(shù):

1)Ltrue(x, y)是正常訓(xùn)練NMT的損失函數(shù);

2)Lnoisy(x', y)是加強(qiáng)Decoder的去噪能力,即對應(yīng)有噪聲的Hx',Decoder也能得到正確的輸出;

3)Linv(x, x'),旨在加強(qiáng)Encoder的去噪能力,即針對噪聲數(shù)據(jù)x',Encoder得到的Hx'也應(yīng)與原表征Hx相近,訓(xùn)練過程采用了min-max two-player策略,引入Discriminator進(jìn)行交互對抗訓(xùn)練,Encoder得到Hx和Hx'應(yīng)該盡可能相似騙過Discriminator,而Discriminator則要分開有、無噪聲的數(shù)據(jù),兩者迭代訓(xùn)練以加強(qiáng)Encoder對噪聲數(shù)據(jù)x'的建模能力。

文章優(yōu)勢在于不改變模型結(jié)構(gòu),可拓展到任意噪聲干擾或是針對特定任務(wù)進(jìn)行設(shè)計,如作者對輸入數(shù)據(jù)進(jìn)行刪除、替換等token級噪聲時,發(fā)現(xiàn)使用詞匯級別噪聲的引入訓(xùn)練的模型更魯棒。

第二項工作為 Robust Neural Machine Translation with Doubly Adversarial Inputs (ACL 2019)

這項工作不同于上文的模型無關(guān),而是將NMT看成“白盒”,從而基于梯度生成對抗輸入,文章的核心思想就是下面這條式子,其中x',x分別代表有無噪聲的數(shù)據(jù),R(·)為相似性度量,后面的是負(fù)對數(shù)Loss,通俗來講就是找到噪聲不是太大的x'(保證x'與x語義相近),使得模型的Loss最大,這樣才能最有效地加強(qiáng)模型魯棒性。

5c7ebaea-afe5-11ed-bfe3-dac502259ad0.png

具體做法分為兩部分,分別是Encoder攻擊和Decoder防御。在Encoder端,x為Encoder的輸入,模型會算出某個詞表征xi的梯度gxi,然后在詞表中找出使Loss最大的x替換原有的詞xi,做法是在詞典中計算表征“e(x)-e(xi)”與gxi的相似度,使相似度最大的xi'為所得。同時,噪聲xi'不應(yīng)與原始xi差太遠(yuǎn),作者使用了Masked LM提取候選詞,在原句中,會將需要替換的詞先mask,然后選擇預(yù)測的topk作為候選項,至于哪些詞會被mask或替換則為隨機(jī)均勻采樣。

5c9792a4-afe5-11ed-bfe3-dac502259ad0.png

在Decoder端,z為Decoder的輸入,與Encoder中的噪聲xi'類似,以同樣的方法得到zi',但針對zi的采樣與xi有關(guān),即xi隨機(jī)采樣,zi需要大概率在xi替換的同樣位置進(jìn)行替換。因此,回望整個訓(xùn)練方式,Encoder的作用是找到使梯度最大的xi'擾亂模型,Decoder的作用是即使輸入為zi',仍能輸入正確的結(jié)果,具有一定魯棒性。

我覺得本文有兩點(diǎn)值得思考,首先是基于梯度最大來找噪聲詞,能夠更有力的對模型魯棒能力發(fā)起攻擊,其實(shí)這個可以更進(jìn)一步,Encoder輸入中需要被替換的詞并非隨機(jī)采樣,而是找使Loss最大的詞,相關(guān)文章改進(jìn)CE Loss為Focal Loss也就是這個思想,我們可以直覺判斷,模型建模較好的是高頻詞,建模不好的是低頻詞,低頻詞的Loss比較大,我們在大Loss的基礎(chǔ)上再找大梯度,這樣攻擊效果更強(qiáng)力,同時可以提高模型對低頻詞的魯棒性。第二點(diǎn)是作者對xi的替換處理,還要回詞典中尋找進(jìn)行詞替換,這樣未免更加麻煩了,為什么不在一定范圍內(nèi),直接找梯度最大的向量進(jìn)行替換了呢?如果怕語義信息不相似,縮小相似度量范圍就好了,這樣更方便。

第三項工作為 AdvAug: Robust Adversarial Augmentation for Neural Machine Translation (ACL 2020)

這項工作是在第二項的基礎(chǔ)上進(jìn)行了數(shù)據(jù)增強(qiáng)的改進(jìn),采用的方法為線性插值,首先針對原始數(shù)據(jù)(x, y),作者用第二項工作的方法造出一堆噪聲數(shù)據(jù),然后對噪聲數(shù)據(jù)進(jìn)行線性插值生成更多的偽數(shù)據(jù),令人比較奇怪的是,作者對不同的parallel data pair同樣進(jìn)行了線性插值,可能兩句話雖不同含義,但是插值后在向量空間,源句和目標(biāo)句也能表達(dá)類似語義?

5cb5247c-afe5-11ed-bfe3-dac502259ad0.png


5cd27d56-afe5-11ed-bfe3-dac502259ad0.png







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ACL
    ACL
    +關(guān)注

    關(guān)注

    0

    文章

    61

    瀏覽量

    12712

原文標(biāo)題:NMT對抗訓(xùn)練的三部曲

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    油煙機(jī)選購三部曲

    油煙機(jī)選購三部曲廚房油煙含有20多萬種有害物質(zhì),不僅會致癌,對腸道、大腦神經(jīng)等也有很大的危害。廚房油煙已成為人體健康的隱形殺手。而肩負(fù)清潔廚房油煙的重任,一款好的吸油煙機(jī)將為你的生活增色不少
    發(fā)表于 12-22 14:45

    三部曲(全書)

    天嵌的三部曲。
    發(fā)表于 07-01 16:41

    冒泡排序法三部曲の一、冒泡排序原理版

    的類型就多進(jìn)行3x4次排序,為了解決這個問題,對冒泡排序法進(jìn)行進(jìn)一步優(yōu)化,將在冒泡排序法三部曲の二、冒泡排序優(yōu)化中解決這個問題。
    發(fā)表于 09-12 10:30

    冒泡排序法三部曲の冒泡排序原理版(一)

    ;, array[n]);printf("\t");//空格一次}return 0;}運(yùn)行結(jié)果上述代碼沒有問題,但是如果數(shù)組是類似{1,2,3,5,4}這樣的類型就多進(jìn)行3x4次排序,為了解決這個問題,對冒泡排序法進(jìn)行進(jìn)一步優(yōu)化,將在冒泡排序法三部曲の二、冒泡排序優(yōu)化中解決這個問題。
    發(fā)表于 09-12 10:42

    冒泡排序法三部曲の二冒泡排序法的優(yōu)化

    本帖最后由 盧小二 于 2019-9-14 11:23 編輯 環(huán)境:VS2017C language在冒泡排序法三部曲の一冒泡排序法的原理之后,其實(shí)存在一些可優(yōu)化的問題,首先就是假如是
    發(fā)表于 09-13 12:17

    榮耀Note9什么時候上市?榮耀三部曲華為榮耀Note9即將發(fā)布,配置、渲染圖、價格消息匯總

    喜歡全面屏新機(jī)?喜歡大屏手機(jī)?那這部6.6英寸的超大屏全面屏手機(jī)真的是不容錯過。這就是華為即將發(fā)布的最新旗艦,榮耀三部曲之一的---榮耀Note 9。
    發(fā)表于 08-02 10:16 ?4080次閱讀

    是什么意思_Robust為什么翻譯成

    的定義 是什么意思?頭一次看到這個詞的你可能會想歪(邪惡的笑臉)。但其實(shí)
    發(fā)表于 11-29 09:08 ?13w次閱讀
    <b class='flag-5'>魯</b><b class='flag-5'>棒</b><b class='flag-5'>性</b>是什么意思_Robust為什么翻譯成<b class='flag-5'>魯</b><b class='flag-5'>棒</b><b class='flag-5'>性</b>

    存儲三部曲的第一——NAS

    目前數(shù)據(jù)存儲的形態(tài),主要就是SAN、NAS和OBJ這種。作為存儲三部曲的第一,先來說說我最喜歡的NAS。 NAS(Network Attached Storage),網(wǎng)絡(luò)附加存儲。簡單的說
    的頭像 發(fā)表于 12-03 14:11 ?3511次閱讀

    存儲三部曲最后一SAN的現(xiàn)狀如何?

    今天分享存儲三部曲的最后一,高冷的SAN。 SAN(Storage Area Network),存儲局域網(wǎng)絡(luò),一種主要基于FC(FibreChannel)的光纖通道存儲技術(shù),用于SAN中的存儲就是
    的頭像 發(fā)表于 12-03 14:15 ?3141次閱讀

    如何提高事件檢測(ED)模型和泛化能力?

    論文中指出,以往關(guān)于ED的工作都是考慮如何提升模型的性能,而較少考慮模型和泛化能力,作者將模型
    的頭像 發(fā)表于 12-31 10:21 ?3760次閱讀

    簡單總結(jié)幾種NLP常用的對抗訓(xùn)練方法

    對抗訓(xùn)練本質(zhì)是為了提高模型,一般情況下在傳統(tǒng)訓(xùn)練
    的頭像 發(fā)表于 11-09 10:17 ?3826次閱讀
    簡單總結(jié)幾種NLP常用的<b class='flag-5'>對抗</b><b class='flag-5'>訓(xùn)練</b>方法

    的含義以及如何提高模型?

    的含義以及如何提高模型? 什么是
    的頭像 發(fā)表于 10-29 11:21 ?5177次閱讀

    在機(jī)器學(xué)習(xí)中的重要

    在機(jī)器學(xué)習(xí)領(lǐng)域,模型是指模型在面對輸入數(shù)據(jù)的擾動、異常值、噪聲或對抗性攻擊時,仍能保持性
    的頭像 發(fā)表于 11-11 10:19 ?1821次閱讀

    深度學(xué)習(xí)模型優(yōu)化

    。異常值和噪聲可能會誤導(dǎo)模型訓(xùn)練,導(dǎo)致模型在面對新數(shù)據(jù)時表現(xiàn)不佳。 數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化 :將數(shù)據(jù)轉(zhuǎn)換到同一尺度上,有助于模型更好地學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律,從而提高
    的頭像 發(fā)表于 11-11 10:25 ?1945次閱讀

    AS三部曲之二 | TSN同步運(yùn)行機(jī)制:多級設(shè)備同步如何避免誤差累積?

    (AS三部曲之一:如何理解TSN同步概念中的時鐘角色?)中,我們詳細(xì)介紹了IEEE802.1AS標(biāo)準(zhǔn)作為IEEE1588PTP協(xié)議的特定應(yīng)用規(guī)范,在時間敏感網(wǎng)絡(luò)(TSN
    的頭像 發(fā)表于 09-25 17:32 ?803次閱讀
    AS<b class='flag-5'>三部曲</b>之二 | TSN同步運(yùn)行機(jī)制:多級設(shè)備同步如何避免誤差累積?