午夜av福利成人,最近中文字幕在线中文视频

語法錯誤糾正（GEC）指的是試圖對語法和其他類型的寫作錯誤進行建模，并給出語法和拼寫建議，從而改善文檔、電子郵件、文章甚至非正式聊天中的書面輸出質量。在過去 15 年里，GEC 的質量有了很大提高，其中很大一部分原因是它將問題重塑為一項“翻譯”任務。例如，將這種方法引入 Google 文檔后，用戶采納的語法糾正建議數(shù)量顯著增加。

將問題重塑為一項“翻譯”任務

https://aclanthology.org/P06-1032/

但是，GEC 模型面臨的最大挑戰(zhàn)之一是數(shù)據(jù)稀少。不同于其他語音識別（Speech recognition）和機器翻譯（Machine translation）等自然語言處理（NLP）任務，即便是針對英語這樣的高資源語言，GEC 可用的訓練數(shù)據(jù)非常有限。對于這類問題，一個常見的補救措施是使用一系列技術來生成合成數(shù)據(jù)，其中包括啟發(fā)式隨機詞或字符級的損壞，以及基于模型的方法。然而，這些方法往往是簡化的，不能反映實際用戶錯誤類型的真實分布。

在 EACL 第 16 屆創(chuàng)新使用 NLP 構建教育應用研討會上發(fā)表的《使用有標簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成》（Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models）一文中，我們介紹了有標簽損壞模型。這種方法受到機器翻譯中流行的回譯數(shù)據(jù)合成技術啟發(fā)，能夠精確控制合成數(shù)據(jù)的生成，確保產生與實踐中錯誤分布更加一致的多樣化輸出。我們使用有標簽損壞模型來生成一個新的數(shù)據(jù)集（包含 2 億個句子）。目前這個數(shù)據(jù)集應發(fā)布，可供研究人員提供真實的 GEC 預訓練數(shù)據(jù)。通過將新的數(shù)據(jù)集整合到訓練流水線，我們能夠顯著改善 GEC 的基線。

使用有標簽損壞模型進行語法錯誤糾正的合成數(shù)據(jù)生成

https://aclanthology.org/2021.bea-1.4/

回譯

https://aclanthology.org/P16-1009/

數(shù)據(jù)集（包含 2 億個句子）

https://github.com/google-research-datasets/C4_200M-synthetic-dataset-for-grammatical-error-correction

有標簽損壞模型

將傳統(tǒng)的損壞模型應用于 GEC，其背后的理念是，從一個語法正確的句子開始，然后通過添加錯誤“損壞”它。通過在現(xiàn)有 GEC 數(shù)據(jù)集中切換源句和目標句，可以輕松地訓練出損壞模型，之前的研究已經表明，這種方法對生成改進的 GEC 數(shù)據(jù)集非常有效。

提供干凈的輸入句（綠色）后，傳統(tǒng)損壞模型會生成一個不符合語法的句子（紅色）

之前的研究

https://aclanthology.org/D19-1119.pdf

我們提出的有標簽損壞模型建立在這一理念的基礎之上，它將一個干凈的句子作為輸入，加上一個錯誤類型標簽，描述所要重現(xiàn)的錯誤類型。然后，它為輸入句生成一個包含指定錯誤類型的語法錯誤版本。與傳統(tǒng)的損壞模型相比，為不同句子選擇不同的錯誤類型增加了損壞的多樣性。

有標簽損壞模型會根據(jù)錯誤類型標簽，為干凈的輸入句（綠色）生成損壞（紅色）。限定詞錯誤可能會導致丟失限定詞 “a”，而名詞屈折變化錯誤可能導致錯誤的復數(shù)形式 “sheeps”

為使用此模型生成數(shù)據(jù)，我們首先從 C4 語料庫中隨機選擇了 2 億個干凈的句子，并為每個句子分配了一個錯誤類型標簽，令其相對頻率與小型開發(fā)集 BEA-dev 的錯誤類型標簽分布相匹配。由于 BEA-dev 是一個精心制作的集合，涵蓋各種英語水平，范圍很廣，我們預計其標簽分布能夠代表現(xiàn)實中出現(xiàn)的寫作錯誤。然后，我們用一個有標簽損壞模型來合成源句。

使用有標簽損壞模型生成合成數(shù)據(jù)。在合成的 GEC 訓練語料庫中，干凈的 C4 句子（綠色）與損壞的句子（紅色）配對。遵循開發(fā)集（條形圖）中錯誤類型的頻率，使用有標簽損壞模型生成損壞的句子

C4 語料庫

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

BEA-dev

https://aclanthology.org/W19-4406.pdf

結果

在我們的實驗中，有標簽損壞模型在兩個標準開發(fā)集（CoNLL-13 和 BEA-dev）上表現(xiàn)優(yōu)于無標簽損壞模型，比后者高出三個 F0.5-點（GEC 研究中的一個標準指標，結合了精確率和召回率（Precision and recall），更注重精確率），并在兩個廣泛使用的學術測試集（CoNLL-14 和 BEA-test）上體現(xiàn)了最先進的水平。

CoNLL-13

https://aclanthology.org/W13-3601.pdf

標準指標

https://aclanthology.org/P17-1074/

CoNLL-14

https://aclanthology.org/W14-1701.pdf

此外，使用有標簽損壞模型不僅能在標準的 GEC 測試集上獲得收益，還能夠讓 GEC 系統(tǒng)適應用戶的語言水平。這一點會十分有用，原因之一是英語母語寫作者的錯誤標簽分布往往與非英語母語寫作者的分布有很大不同。例如，英語母語者通常會犯更多標點符號和拼寫錯誤，而限定詞錯誤（例如缺少或多加冠詞，如 “a”、“an” 或 “the”）在非英語母語寫作者的文本中更為常見。

結論

眾所周知，神經序列模型對數(shù)據(jù)的需求非常大，但用于語法錯誤糾正的注釋訓練數(shù)據(jù)卻很少。新的 C4_200M 語料庫是一個包含各種語法錯誤的合成數(shù)據(jù)集，用于預訓練 GEC 系統(tǒng)時，它體現(xiàn)出了最先進的性能。通過發(fā)布該數(shù)據(jù)集，我們希望為 GEC 研究人員提供寶貴的資源來訓練強大的基線系統(tǒng)。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關注

關注
8

文章
7310

瀏覽量
93738
模型

模型

+關注

關注
1

文章
3627

瀏覽量
51617

亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

搜索歷史

關于標簽數(shù)據(jù)提升語法錯誤糾正效果

評論