亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Transformer架構(gòu)的InstructGPT介紹

jf_pmFSk4VX ? 來(lái)源:GiantPandaCV ? 2023-03-08 09:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 論文信息

1.1 prompt learning

Prompt Learning是自然語(yǔ)言處理中的一種技術(shù),它通過(guò)設(shè)計(jì)一些提示語(yǔ)(prompt)來(lái)指導(dǎo)模型在執(zhí)行任務(wù)時(shí)進(jìn)行學(xué)習(xí)和推理。Prompt Learning技術(shù)的核心思想是,在模型的輸入中加入一些人工設(shè)計(jì)的提示語(yǔ),這些提示語(yǔ)能夠幫助模型更好地理解輸入數(shù)據(jù)的含義和任務(wù)要求,從而提高模型在特定任務(wù)上的性能。通常情況下,提示語(yǔ)可以是一個(gè)問(wèn)題、一段描述或者一個(gè)特定的標(biāo)記序列。

1.2 GPT的介紹

GPT(Generative Pre-trained Transformer)的目標(biāo)是訓(xùn)練出一種能夠生成自然語(yǔ)言文本的模型。它使用了大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)自動(dòng)學(xué)習(xí)文本數(shù)據(jù)的語(yǔ)言規(guī)律,進(jìn)而能夠生成自然流暢的文本。GPT是一種基于Transformer架構(gòu)的深度學(xué)習(xí)模型,可以用于自然語(yǔ)言生成、文本分類、語(yǔ)言理解等多種任務(wù)。

GPT的目標(biāo)是通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式,將海量的自然語(yǔ)言文本轉(zhuǎn)化為一種通用的語(yǔ)言表示形式,從而使得模型能夠在不同的任務(wù)中進(jìn)行遷移學(xué)習(xí),提高模型的泛化能力。為了達(dá)到這個(gè)目標(biāo),GPT使用了預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。在預(yù)訓(xùn)練階段,GPT使用大量的無(wú)標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,從而學(xué)習(xí)文本的語(yǔ)言規(guī)律;在微調(diào)階段,GPT使用有標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),以適應(yīng)特定的任務(wù)。

GPT是“Generative Pre-trained Transformer”的縮寫(xiě),是由OpenAI推出的自然語(yǔ)言處理模型。目前已經(jīng)發(fā)布了三代版本,每一代都有其獨(dú)特的特點(diǎn)和應(yīng)用。

以下是GPT一、二、三代的對(duì)比:

GPT-1

發(fā)布于2018年,包含1.17億個(gè)參數(shù)。

使用了12層transformer結(jié)構(gòu),可以預(yù)測(cè)下一個(gè)詞。

在通用自然語(yǔ)言處理任務(wù)上表現(xiàn)出色,包括文本分類、情感分析、摘要生成等。

缺點(diǎn)是對(duì)于長(zhǎng)文本生成不如人意,容易出現(xiàn)重復(fù)和無(wú)意義的內(nèi)容。

GPT-2

發(fā)布于2019年,參數(shù)量是GPT-1的10倍,達(dá)到了1.5億個(gè)。

使用了24層transformer結(jié)構(gòu),可以生成更長(zhǎng)、更復(fù)雜的文本。

在多項(xiàng)自然語(yǔ)言處理任務(wù)上表現(xiàn)出色,并且可以生成高質(zhì)量的文章、對(duì)話等。

由于生成的文本過(guò)于真實(shí),存在濫用的風(fēng)險(xiǎn),OpenAI沒(méi)有將模型公開(kāi)發(fā)布。

GPT-3

發(fā)布于2020年,參數(shù)量是GPT-2的13倍,達(dá)到了1.75萬(wàn)億個(gè)。

使用了1750億個(gè)語(yǔ)言模型參數(shù),可以生成更加自然、流暢、有邏輯的文本。

在多項(xiàng)自然語(yǔ)言處理任務(wù)上表現(xiàn)出色,甚至可以完成類似編程的任務(wù),例如編寫(xiě)簡(jiǎn)單的代碼。

GPT-3也被用于自然語(yǔ)言生成、對(duì)話系統(tǒng)、問(wèn)答系統(tǒng)等應(yīng)用,具有廣泛的應(yīng)用前景。

總體來(lái)說(shuō),隨著模型的迭代和參數(shù)量的增加,GPT的性能逐漸提高,同時(shí)也具有更廣泛的應(yīng)用前景。

1.3 InstructGPT

InstructGPT是一種基于GPT-3的自然語(yǔ)言處理模型,它是由AI2(Allen Institute for Artificial Intelligence)開(kāi)發(fā)的。與GPT-3不同的是,InstructGPT專注于解決指導(dǎo)型對(duì)話(instructional dialogue)的任務(wù)。指導(dǎo)型對(duì)話是指一種對(duì)話形式,其中一個(gè)人(通常是教師或者專家)向另一個(gè)人(通常是學(xué)生或者用戶)提供指導(dǎo)、解釋和建議。在這種對(duì)話中,用戶通常會(huì)提出一系列問(wèn)題,而指導(dǎo)者則會(huì)針對(duì)這些問(wèn)題提供詳細(xì)的答案和指導(dǎo)。

InstructGPT使用了GPT-3的架構(gòu)和預(yù)訓(xùn)練技術(shù),但是對(duì)其進(jìn)行了針對(duì)性的微調(diào),使其能夠更好地應(yīng)對(duì)指導(dǎo)型對(duì)話任務(wù)。具體而言,InstructGPT通過(guò)對(duì)大量的指導(dǎo)型對(duì)話數(shù)據(jù)進(jìn)行微調(diào),使得模型能夠更加準(zhǔn)確地理解用戶的問(wèn)題,并且能夠生成更加準(zhǔn)確、詳細(xì)的答案和指導(dǎo)。此外,InstructGPT還支持多輪對(duì)話,可以對(duì)用戶的多個(gè)問(wèn)題進(jìn)行連續(xù)的回答和指導(dǎo)。

InstructGPT的應(yīng)用場(chǎng)景包括在線教育、智能客服等領(lǐng)域,可以幫助用戶更快地獲取所需的知識(shí)和指導(dǎo),并且能夠提高教育和客服的效率。

2. 方法框架

InstructGPT是一種基于語(yǔ)言模型的自然語(yǔ)言處理技術(shù),旨在解決指令性任務(wù)(instructional tasks),例如問(wèn)答、推薦、提示、教育等領(lǐng)域。其技術(shù)路線主要包括以下幾個(gè)步驟:

數(shù)據(jù)收集:收集大規(guī)模的指令性文本數(shù)據(jù),包括問(wèn)答、教育、用戶指南等。

數(shù)據(jù)預(yù)處理:對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理,包括分詞、標(biāo)記化、詞干提取、停用詞過(guò)濾、詞向量化等。

模型訓(xùn)練:使用預(yù)處理后的數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型,通常采用基于Transformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),例如GPT(Generative Pre-trained Transformer)。

模型微調(diào):針對(duì)具體的指令性任務(wù),對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),例如通過(guò)遷移學(xué)習(xí)或fine-tuning的方法,使得模型能夠更好地適應(yīng)特定的任務(wù)和領(lǐng)域。

模型優(yōu)化:對(duì)微調(diào)后的模型進(jìn)行進(jìn)一步優(yōu)化,包括模型壓縮、量化、剪枝等技術(shù),以提高模型的速度和效率。

應(yīng)用部署:將優(yōu)化后的模型部署到具體的應(yīng)用場(chǎng)景中,例如問(wèn)答系統(tǒng)、推薦系統(tǒng)、教育平臺(tái)等,提供高效、準(zhǔn)確的指令性服務(wù)。

3. InstructGPT的訓(xùn)練模式

0cc2a646-bcb1-11ed-bfe3-dac502259ad0.png

我們得想辦法怎么讓這個(gè)過(guò)程變得更輕松一點(diǎn):

首先利用GPT-3進(jìn)行初始化,希望對(duì)這個(gè)比較強(qiáng)大的模型先進(jìn)行一些prompt learning來(lái)進(jìn)行fine-tuning。先人工構(gòu)造一批數(shù)據(jù),讓模型學(xué)一學(xué),獲得一個(gè)模型。

然后,我們讓模型根據(jù)一系列提示輸出來(lái)評(píng)估其效果。我們讓模型針對(duì)每個(gè)提示生成多個(gè)輸出,隨后讓人員對(duì)這些輸出進(jìn)行打分排序。雖然排序過(guò)程也需要人工干預(yù),但相較于直接讓人員編寫(xiě)訓(xùn)練數(shù)據(jù),這種方法更為便捷。因此,這一過(guò)程能夠更輕松地標(biāo)注更多數(shù)據(jù)。然而,這些標(biāo)注數(shù)據(jù)不能直接用于訓(xùn)練模型,因?yàn)樗鼈兇砹艘环N排序結(jié)果。但我們可以訓(xùn)練一個(gè)打分模型,稱為“reward model”。該模型的作用在于對(duì)于每一個(gè)pair進(jìn)行打分,以評(píng)估輸出結(jié)果與提示是否足夠匹配。

接下來(lái),我們繼續(xù)訓(xùn)練模型,給定一些prompt,得到輸出之后,把prompt和output輸入給RM,得到打分,然后借助強(qiáng)化學(xué)習(xí)的方法,來(lái)訓(xùn)練該模型,如此反復(fù)迭代,最終修煉得到最終的模型,也就是最終的InstructGPT。

可以看出InstructGPT的訓(xùn)練模式就是先靠人類手工設(shè)計(jì)一些精華信息,然后利用模型來(lái)嘗試模仿這些信息。之后根據(jù)模仿程度進(jìn)行比對(duì)和打分,根據(jù)打分進(jìn)行調(diào)整。最后打分機(jī)器就可以和模型配合,自動(dòng)化地進(jìn)行模型的迭代。這種迭代過(guò)程就是RLHF

InstructGPT論文中,給出了上述三個(gè)步驟,涉及的訓(xùn)練樣本也是非常多的:

SFT數(shù)據(jù)集:人類預(yù)設(shè)的13k的prompts;

RM數(shù)據(jù)集:用來(lái)訓(xùn)練打分模型的數(shù)據(jù),包含33K的prompts;

PRO數(shù)據(jù)集:31K最后的數(shù)據(jù)。

前兩步的prompts,來(lái)自于OpenAI的在線API上的用戶使用數(shù)據(jù),以及雇傭的標(biāo)注者手寫(xiě)的。最后一步則全都是從API數(shù)據(jù)中采樣的,下表的具體數(shù)據(jù):

4. 對(duì)InstructGPT的展望

作為一個(gè)基于自然語(yǔ)言處理技術(shù)的AI語(yǔ)言模型,InstructGPT可以為用戶提供基本的對(duì)話和回答問(wèn)題的服務(wù),但它仍存在以下不足:

缺乏真實(shí)人類的情感和情緒表達(dá)能力,無(wú)法在情感和社交領(lǐng)域提供有意義的支持。

缺乏真實(shí)世界知識(shí)和實(shí)際經(jīng)驗(yàn),對(duì)于需要領(lǐng)域?qū)I(yè)知識(shí)的問(wèn)題回答可能不夠準(zhǔn)確。

可能存在一些潛在的偏見(jiàn)和錯(cuò)誤,這取決于模型的訓(xùn)練數(shù)據(jù)和算法。

隨著對(duì)話時(shí)間的增加,InstructGPT的回答可能變得越來(lái)越冗長(zhǎng)或者不夠精確。

語(yǔ)言模型的工作基于已有的數(shù)據(jù)集,如果沒(méi)有合適的數(shù)據(jù)集或者缺少某些領(lǐng)域的數(shù)據(jù),模型的表現(xiàn)就會(huì)受到限制。

總之,InstructGPT目前還存在一些限制,盡管我們已經(jīng)取得了很大進(jìn)展,但仍需要進(jìn)一步的研究和發(fā)展,以實(shí)現(xiàn)更加高效和智能的AI對(duì)話系統(tǒng)。





審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Pro
    Pro
    +關(guān)注

    關(guān)注

    0

    文章

    96

    瀏覽量

    39960
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16677
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14533
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1236

    瀏覽量

    9743

原文標(biāo)題:InstructGPT介紹

文章出處:【微信號(hào):GiantPandaCV,微信公眾號(hào):GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?924次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案

    如何更改ABBYY PDF Transformer+界面語(yǔ)言

    在安裝ABBYY PDF Transformer+時(shí)會(huì)讓您選擇界面語(yǔ)言。此語(yǔ)言將用于所有消息、對(duì)話框、按鈕和菜單項(xiàng)。在特殊情況下,您可能需要在安裝完成后更改界面語(yǔ)言以適應(yīng)需求,方法其實(shí)很簡(jiǎn)單,本文
    發(fā)表于 10-11 16:13

    谷歌將AutoML應(yīng)用于Transformer架構(gòu),翻譯結(jié)果飆升!

    為了探索AutoML在序列域中的應(yīng)用是否能夠取得的成功,谷歌的研究團(tuán)隊(duì)在進(jìn)行基于進(jìn)化的神經(jīng)架構(gòu)搜索(NAS)之后,使用了翻譯作為一般的序列任務(wù)的代理,并找到了Evolved Transformer這一新的Transformer
    的頭像 發(fā)表于 06-16 11:29 ?3391次閱讀

    解析Transformer中的位置編碼 -- ICLR 2021

    引言 Transformer是近年來(lái)非常流行的處理序列到序列問(wèn)題的架構(gòu),其self-attention機(jī)制允許了長(zhǎng)距離的詞直接聯(lián)系,可以使模型更容易學(xué)習(xí)序列的長(zhǎng)距離依賴。由于其優(yōu)良的可并行性以及可觀
    的頭像 發(fā)表于 04-01 16:07 ?1.3w次閱讀
    解析<b class='flag-5'>Transformer</b>中的位置編碼 -- ICLR 2021

    如何使用Transformer來(lái)做物體檢測(cè)?

    導(dǎo)讀 本文為一個(gè)Facebook的目標(biāo)檢測(cè)Transformer (DETR)的完整指南,詳細(xì)介紹了DETR架構(gòu)的內(nèi)部工作方式以及代碼。 介紹 DEtection
    的頭像 發(fā)表于 04-25 10:45 ?3110次閱讀
    如何使用<b class='flag-5'>Transformer</b>來(lái)做物體檢測(cè)?

    Transformer深度學(xué)習(xí)架構(gòu)的應(yīng)用指南介紹

    Understanding, NLU)信息檢索和自然語(yǔ)言生成(Natural Language Generation, NLG)等語(yǔ)言和語(yǔ)義任務(wù)中取得了顯著的成功。這一壯舉主要?dú)w功于開(kāi)創(chuàng)性的Transformer架構(gòu),導(dǎo)致
    的頭像 發(fā)表于 05-06 11:32 ?5117次閱讀
    <b class='flag-5'>Transformer</b>深度學(xué)習(xí)<b class='flag-5'>架構(gòu)</b>的應(yīng)用指南<b class='flag-5'>介紹</b>

    使用跨界模型Transformer來(lái)做物體檢測(cè)!

    這是一個(gè)Facebook的目標(biāo)檢測(cè)Transformer (DETR)的完整指南。 介紹 DEtection TRansformer (DETR)是Facebook研究團(tuán)隊(duì)巧妙地利
    的頭像 發(fā)表于 06-10 16:04 ?2765次閱讀
    使用跨界模型<b class='flag-5'>Transformer</b>來(lái)做物體檢測(cè)!

    InstructGPT與ChatGPT的學(xué)習(xí)與解讀

      相比于GPT,2022年初推出的InstructGPT在某種程度上更像是ChatGPT的“直系前輩”。因?yàn)?b class='flag-5'>InstructGPT大量的使用到了人類反饋與指導(dǎo),在大力出奇跡的GPT3的基礎(chǔ)上,更加
    發(fā)表于 02-13 09:47 ?0次下載
    <b class='flag-5'>InstructGPT</b>與ChatGPT的學(xué)習(xí)與解讀

    ChatGPT/GPT的原理 ChatGPT的技術(shù)架構(gòu)

    ChatGPT 是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架構(gòu)開(kāi)發(fā)的對(duì)話AI模型,是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4
    發(fā)表于 02-24 10:05 ?2365次閱讀

    GPT/GPT-2/GPT-3/InstructGPT進(jìn)化之路

    在預(yù)訓(xùn)練階段,GPT 選擇 transformer 的 decoder 部分作為模型的主要模塊,transformer 是 2017年 google 提出的一種特征抽取模型,GPT 以多層 transformer 堆疊的方式構(gòu)成
    的頭像 發(fā)表于 03-03 11:14 ?4823次閱讀

    Transformer結(jié)構(gòu)及其應(yīng)用詳解

    本文首先詳細(xì)介紹Transformer的基本結(jié)構(gòu),然后再通過(guò)GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名應(yīng)用工作的介紹并附上GitHub鏈接,看看
    的頭像 發(fā)表于 06-08 09:56 ?3031次閱讀
    <b class='flag-5'>Transformer</b>結(jié)構(gòu)及其應(yīng)用詳解

    RetNet架構(gòu)Transformer架構(gòu)對(duì)比分析

    微軟研究院最近提出了一個(gè)新的 LLM 自回歸基礎(chǔ)架構(gòu) Retentive Networks (RetNet)[1,4],該架構(gòu)相對(duì)于 Transformer 架構(gòu)的優(yōu)勢(shì)是同時(shí)具備:訓(xùn)練
    發(fā)表于 07-26 10:44 ?1709次閱讀
    RetNet<b class='flag-5'>架構(gòu)</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>對(duì)比分析

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?1297次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)
    的頭像 發(fā)表于 07-09 11:42 ?1981次閱讀

    Transformer架構(gòu)概述

    由于Transformer模型的出現(xiàn)和快速發(fā)展,深度學(xué)習(xí)領(lǐng)域正在經(jīng)歷一場(chǎng)翻天覆地的變化。這些突破性的架構(gòu)不僅重新定義了自然語(yǔ)言處理(NLP)的標(biāo)準(zhǔn),而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發(fā)表于 06-10 14:24 ?763次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>架構(gòu)</b>概述