亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于長(zhǎng)度感知注意機(jī)制的長(zhǎng)度可控摘要模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 2023-01-06 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以往的長(zhǎng)度可控摘要模型大多在解碼階段控制長(zhǎng)度,而編碼階段對(duì)指定的摘要長(zhǎng)度不敏感。這樣模型傾向于生成和訓(xùn)練數(shù)據(jù)一樣長(zhǎng)的摘要。在這篇論文中,作者提出了一種長(zhǎng)度感知注意機(jī)制(LAAM,length-aware attention mechanism)來(lái)適應(yīng)基于期望長(zhǎng)度的編碼。

本文的方法是在由原始訓(xùn)練數(shù)據(jù)構(gòu)建的摘要長(zhǎng)度平衡數(shù)據(jù)集上訓(xùn)練 LAAM,然后像往常一樣進(jìn)行微調(diào)。結(jié)果表明,這種方法可以有效地生成具有所需長(zhǎng)度的高質(zhì)量摘要,甚至是原始訓(xùn)練集中從未見(jiàn)過(guò)的短長(zhǎng)度摘要。

e92b8d12-8d5b-11ed-bfe3-dac502259ad0.png

論文題目:Length Control in Abstractive Summarization by Pretraining Information Selection

收錄會(huì)議:

ACL 2022

論文鏈接:

https://aclanthology.org/2022.acl-long.474.pdf

代碼鏈接:

https://github.com/yizhuliu/lengthcontrol

背景

摘要任務(wù)目的是改寫(xiě)原文,在簡(jiǎn)明流暢的摘要中再現(xiàn)原文的語(yǔ)義和主題。為了在不同的移動(dòng)設(shè)備或空間有限的網(wǎng)站上顯示摘要,我們必須生成不同長(zhǎng)度的摘要。

長(zhǎng)度可控的摘要是一個(gè)多目標(biāo)優(yōu)化問(wèn)題,包括:

在期望的長(zhǎng)度內(nèi)生成完整的摘要

以及根據(jù)期望的長(zhǎng)度選擇適當(dāng)?shù)男畔?/p>

相關(guān)方法

現(xiàn)有的基于編解碼器模型的長(zhǎng)度可控摘要可分為兩類:

解碼時(shí)的早停

編碼前的信息選擇

解碼過(guò)程中的早停方法關(guān)注何時(shí)輸出 eos(end of sequence),也就是摘要的結(jié)束標(biāo)志。有人設(shè)計(jì)了專門的方法。這個(gè)專門方法是通過(guò)在測(cè)試期間將期望長(zhǎng)度的位置上的所有候選單詞分配 ?∞ 的分?jǐn)?shù)來(lái)生成 eos。這個(gè)方法可以應(yīng)用于任何 seq2seq 模型。然而,這些方法只是簡(jiǎn)單地為解碼器增加了長(zhǎng)度要求,而忽略了從源文檔編碼內(nèi)容或信息選擇也必須適應(yīng)不同長(zhǎng)度要求的問(wèn)題。

基于信息選擇的方法分為兩階段。一個(gè)突出的例子是 LPAS,在第一階段,從源文檔中提取最重要的l個(gè)標(biāo)記作為所需長(zhǎng)度的原型摘要,并在第二階段通過(guò)雙編碼器對(duì)源文檔和原型摘要進(jìn)行編碼。一方面,這種兩階段方法會(huì)在中間結(jié)果中引入噪聲。另一方面,這些方法的第二階段沒(méi)有第一手的長(zhǎng)度信息,這削弱了長(zhǎng)度控制。

本文方法

在本文中,作者提出了LAAM(長(zhǎng)度感知注意機(jī)制),它擴(kuò)展了 Transformer seq2seq 模型,具有根據(jù)長(zhǎng)度約束在上下文中選擇信息的能力。

LAAM 重新 normalize 編碼器和解碼器之間的注意力,以增強(qiáng)指定長(zhǎng)度范圍內(nèi)具有更高注意力分?jǐn)?shù)的 token,幫助從源文檔中選擇長(zhǎng)度感知信息。隨著解碼進(jìn)行,增強(qiáng) token 的數(shù)量將會(huì)逐步減少,直到 eos 獲得最高的注意力分?jǐn)?shù),這有助于在指定長(zhǎng)度上停止解碼過(guò)程。

LAAM 可以被認(rèn)為是上一節(jié)兩類方法的混合版本。

同時(shí)作者觀察到,在現(xiàn)有訓(xùn)練集中,不同長(zhǎng)度的摘要數(shù)量有很大差異。為了平衡摘要在不同長(zhǎng)度范圍內(nèi)的分布,本文提出了一種啟發(fā)式方法:首先定義摘要長(zhǎng)度范圍,然后從原文中直接抽取不同長(zhǎng)度的摘要,根據(jù)特定指標(biāo)控制抽取摘要的相關(guān)度,從而創(chuàng)建長(zhǎng)度平衡數(shù)據(jù)集(LBD,length-balanced dataset)。

在本文方法中,先從原始的摘要數(shù)據(jù)集創(chuàng)建一個(gè) LBD。之后,在 LBD 上預(yù)訓(xùn)練LAAM,以增強(qiáng) LAAM 在長(zhǎng)度約束下的文本選擇能力。最后,將預(yù)訓(xùn)練后的 LAAM 在原始數(shù)據(jù)集上微調(diào),以學(xué)習(xí)將所選文本改寫(xiě)為不同長(zhǎng)度的摘要。

當(dāng)前訓(xùn)練數(shù)據(jù)集中沒(méi)有短摘要,微調(diào)后的模型沒(méi)有見(jiàn)過(guò)短摘要,所以如果用它生成短摘要的話算是 zero-shot。得益于 LDB 的預(yù)訓(xùn)練,本文的方法可以解決zero-shot情況下的長(zhǎng)度控制問(wèn)題。

本文的主要貢獻(xiàn):

提出了LAAM(長(zhǎng)度感知注意機(jī)制)來(lái)生成具有所需長(zhǎng)度的高質(zhì)量摘要。

設(shè)計(jì)了一種啟發(fā)式方法,從原始數(shù)據(jù)集中創(chuàng)建一個(gè)LBD(長(zhǎng)度平衡數(shù)據(jù)集)。在 LBD 上對(duì) LAAM 進(jìn)行預(yù)訓(xùn)練后,LAAM 效果能有提升,并且可以有效解決 zero-shot 情況下的短摘要生成問(wèn)題。

LAAM

e969c8de-8d5b-11ed-bfe3-dac502259ad0.png

上圖是 Transformer 解碼器。

左上方為源文檔輸入:,作為注意力的 Key。

最左側(cè)為模型當(dāng)前輸出:,作為注意力的 Query,兩者點(diǎn)乘得到注意力矩陣。 注意力矩陣分為兩部分, 負(fù)責(zé)文本信息選擇, 負(fù)責(zé)結(jié)束標(biāo)志選擇

注意力矩陣的第一行加粗了 Top3,第二行加粗了 Top2,第三行加粗了 Top1,對(duì)加粗的進(jìn)行提權(quán),本文通過(guò)這種方式向模型傳遞句子剩余預(yù)測(cè)長(zhǎng)度信息。

也會(huì)進(jìn)行提權(quán),并且越接近指定長(zhǎng)度,提權(quán)幅度越大,模型也就更容易預(yù)測(cè)出 eos。

提權(quán)后要進(jìn)行一次歸一化,不然和不為 1。

這就是本文提出的 LAAM 模型。

總結(jié)

本文方案的整體流程是:

用原始訓(xùn)練集生成 LBD(長(zhǎng)度平衡數(shù)據(jù)集)

在 LBD 上預(yù)訓(xùn)練 LAAM 模型

在原始訓(xùn)練集上微調(diào) LAAM 模型

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編解碼器
    +關(guān)注

    關(guān)注

    0

    文章

    277

    瀏覽量

    25150
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1229

    瀏覽量

    26001

原文標(biāo)題:ACL 2022 | 基于長(zhǎng)度感知注意機(jī)制的長(zhǎng)度可控摘要模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    關(guān)于伺服電纜長(zhǎng)度問(wèn)題的詳解

    對(duì)信號(hào)完整性的影響機(jī)制 1. 傳輸延遲與波形畸變 伺服系統(tǒng)中的編碼器信號(hào)對(duì)時(shí)序極為敏感,當(dāng)電纜長(zhǎng)度超過(guò)30米時(shí),信號(hào)傳播延遲可達(dá)150ns以上。特別是100MHz以上的高頻脈沖信號(hào),在50米電纜傳輸后可能出現(xiàn)明顯的上升沿鈍化現(xiàn)象。建議采
    的頭像 發(fā)表于 11-01 07:40 ?338次閱讀

    pipe發(fā)送超過(guò)16384長(zhǎng)度,會(huì)被截?cái)嘣趺唇鉀Q?

    我在使用paho_mqtt 發(fā)送數(shù)據(jù)的時(shí)候,短包沒(méi)問(wèn)題,發(fā)現(xiàn)數(shù)據(jù)長(zhǎng)度超過(guò)16384就會(huì)崩潰; 追查之下發(fā)現(xiàn)pipe 寫(xiě)入數(shù)據(jù)以后,一次性讀出來(lái)只有16384; 反復(fù)測(cè)試之后,看到第二次接收到3255;為什么會(huì)分兩次接收。
    發(fā)表于 10-11 06:18

    小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾
    的頭像 發(fā)表于 09-10 09:28 ?4181次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    電纜的長(zhǎng)度會(huì)影響特性阻抗嗎?

    電纜的長(zhǎng)度會(huì)影響特性阻抗嗎?
    發(fā)表于 09-08 07:08

    信號(hào)走線長(zhǎng)度:輻射發(fā)射的隱形 “操盤(pán)手”

    一前言在電子設(shè)備中,隨著電路集成度不斷提高以及工作頻率持續(xù)上升,電磁兼容性(EMC)成為關(guān)鍵問(wèn)題。信號(hào)走線作為電路中信號(hào)傳輸?shù)耐ǖ溃?b class='flag-5'>長(zhǎng)度對(duì)輻射發(fā)射有著顯著影響,這不僅關(guān)系到設(shè)備自身的穩(wěn)定運(yùn)行,還關(guān)
    的頭像 發(fā)表于 08-05 11:33 ?516次閱讀
    信號(hào)走線<b class='flag-5'>長(zhǎng)度</b>:輻射發(fā)射的隱形 “操盤(pán)手”

    六類線永久鏈路的長(zhǎng)度不能超過(guò)多少米-科蘭

    六類線永久鏈路的長(zhǎng)度不能超過(guò)90米,這是根據(jù)國(guó)際標(biāo)準(zhǔn)TIA/EIA-568及ISO/IEC 11801明確規(guī)定的上限值。以下為具體說(shuō)明: 一、標(biāo)準(zhǔn)依據(jù)與定義 永久鏈路(Permanent Link
    的頭像 發(fā)表于 07-14 10:09 ?539次閱讀
    六類線永久鏈路的<b class='flag-5'>長(zhǎng)度</b>不能超過(guò)多少米-科蘭

    CYUSB3014如何增加最大傳輸數(shù)據(jù)長(zhǎng)度?

    我正在使用 CYUSB3014(FX3)在 PC 的 USB 和 FPGA 之間傳輸數(shù)據(jù)。 對(duì)于小于2097152的數(shù)據(jù)長(zhǎng)度,數(shù)據(jù)都可以成功傳輸?shù)絇C。 如果數(shù)據(jù)長(zhǎng)度超過(guò) 2097152(power
    發(fā)表于 05-19 08:03

    VirtualLab Fusion應(yīng)用:相干時(shí)間和相干長(zhǎng)度計(jì)算器

    摘要 在本用例中,我們介紹了一種計(jì)算器,它可以根據(jù)給定光源的波譜信息快速估計(jì)其時(shí)間相干特性。然后,可以將該計(jì)算器的結(jié)果自動(dòng)復(fù)制到通用探測(cè)器中,以便在考慮時(shí)間相干性時(shí)應(yīng)用近似方法,而無(wú)需對(duì)光源的波長(zhǎng)
    發(fā)表于 04-08 08:48

    線束導(dǎo)線長(zhǎng)度的定義有哪些?重要嗎?

    關(guān)于線束導(dǎo)向長(zhǎng)度的定義,定義了適當(dāng)?shù)摹?zhǔn)確的導(dǎo)線長(zhǎng)度,可用于線束制造。
    的頭像 發(fā)表于 03-27 11:46 ?846次閱讀

    變頻串聯(lián)諧振耐壓試驗(yàn)裝置:如何根據(jù)電纜長(zhǎng)度與截面積選擇容量

    在選擇變頻串聯(lián)諧振耐壓試驗(yàn)裝置的容量時(shí),需要考慮電纜的長(zhǎng)度和截面積,因?yàn)樗鼈冎苯佑绊懙皆囼?yàn)所需的電壓、電流以及設(shè)備的容量。以下是根據(jù)電纜長(zhǎng)度和截面積選擇變頻串聯(lián)諧振耐壓試驗(yàn)裝置容量的詳細(xì)步驟: 一
    的頭像 發(fā)表于 03-14 09:39 ?817次閱讀

    如何使用DMA進(jìn)行USART不定長(zhǎng)度接收

    在上一講中,我們對(duì)USART進(jìn)行了簡(jiǎn)單介紹,并講解了如何在不使用DMA的情況下進(jìn)行不定長(zhǎng)度數(shù)據(jù)接收,本講將著重講解如何使用DMA進(jìn)行USART不定長(zhǎng)度接收。
    的頭像 發(fā)表于 02-18 17:01 ?1264次閱讀
    如何使用DMA進(jìn)行USART不定<b class='flag-5'>長(zhǎng)度</b>接收

    光纜接頭預(yù)留長(zhǎng)度一般不少于多少米

    光纜接頭預(yù)留長(zhǎng)度的具體要求可能會(huì)因應(yīng)用場(chǎng)景、設(shè)計(jì)規(guī)范或特定需求而有所不同。但一般來(lái)說(shuō),光纜接頭預(yù)留長(zhǎng)度通常有一個(gè)基本標(biāo)準(zhǔn)。 一種常見(jiàn)的標(biāo)準(zhǔn)是,光纜接頭預(yù)留長(zhǎng)度一般不少于7米。這一長(zhǎng)度
    的頭像 發(fā)表于 02-14 09:55 ?2210次閱讀

    VirtualLab Fusion應(yīng)用:相干時(shí)間和相干長(zhǎng)度計(jì)算器

    摘要 在本用例中,我們介紹了一種計(jì)算器,它可以根據(jù)給定光源的波譜信息快速估計(jì)其時(shí)間相干特性。然后,可以將該計(jì)算器的結(jié)果自動(dòng)復(fù)制到通用探測(cè)器中,以便在考慮時(shí)間相干性時(shí)應(yīng)用近似方法,而無(wú)需對(duì)光源的波長(zhǎng)
    發(fā)表于 12-27 08:48

    石油鉆桿的內(nèi)外螺紋及長(zhǎng)度如何測(cè)量?

    和尺寸變化設(shè)定,測(cè)量外螺紋部分接頭的長(zhǎng)度。內(nèi)螺紋部分設(shè)置2組雙測(cè)頭和1只二維激光測(cè)量傳感器,雙測(cè)頭測(cè)量鉆桿接頭外徑尺寸,同時(shí)通過(guò)測(cè)頭部分滑臺(tái)的行走距離和尺寸變化設(shè)定,測(cè)量?jī)?nèi)螺紋部分接頭的長(zhǎng)度。二維激光
    發(fā)表于 12-05 13:54

    示波器小技能:TDR測(cè)量線纜長(zhǎng)度

    今天用示波器給大家演示一下,如何測(cè)試線纜的長(zhǎng)度。Chrent設(shè)備連接本次使用的實(shí)驗(yàn)器材:快速邊沿脈沖發(fā)生器小板支持10納秒或更小時(shí)基的示波器一臺(tái)5V直流電源待測(cè)試電纜BNC轉(zhuǎn)接頭首先將設(shè)備和示波器
    的頭像 發(fā)表于 11-21 01:04 ?2333次閱讀
    示波器小技能:TDR測(cè)量線纜<b class='flag-5'>長(zhǎng)度</b>