亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Meta是如何構(gòu)建新人工智能CICERO的?

jf_WZTOguxH ? 來源:極客邦科技 InfoQ ? 2023-01-16 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前段時間,Meta 正式發(fā)布人工智能 CICEROO——這是第一個在時下流行的戰(zhàn)略游戲 Diplomacy 中表現(xiàn)達到人類水平的人工智能。在 CICEROO 的背后,有哪些技術(shù)實踐?

本文最初發(fā)布于 Meta AI 官方博客。

長期以來,游戲一直是人工智能最新進展的試驗場——從深藍戰(zhàn)勝國際象棋大師 Garry Kasparov,到 AlphaGo 熟練掌握圍棋,再到 Pluribus 在撲克游戲中戰(zhàn)勝了人類高手。但真正有用的多功能代理不能局限于在棋盤上移動棋子。我們能否建立更有效、更靈活的代理,使用語言進行談判、說服,并與人合作,像人那樣實現(xiàn)戰(zhàn)略目標?

日前,我們宣布了一項突破性進展,向著構(gòu)建掌握這些技能的人工智能邁進了重要的一步。我們已經(jīng)構(gòu)建了一個代理 CICERO——這是第一個在時下流行的戰(zhàn)略游戲 Diplomacy 中表現(xiàn)達到人類水平的人工智能。CICERO 在 webDiplomacy.net(該游戲的在線版本)上證明了這一點,它的成績是人類玩家平均分的兩倍多,并且在玩過多個游戲的玩家中排名前 10%。

幾十年來,Diplomacy 一直被視為人工智能領(lǐng)域近乎不可能的重大挑戰(zhàn),因為它要求玩家掌握了解他人動機和觀點的藝術(shù);制定復雜的計劃并調(diào)整策略;然后用自然語言與他人達成協(xié)議,說服他們建立伙伴關(guān)系和聯(lián)盟,等等。CICERO 在使用自然語言與人進行外交談判方面表現(xiàn)非得常出色,以至于玩家常常傾向于與 CICERO 而不是其他人類玩家合作。

與國際象棋和圍棋等游戲不同,Diplomacy 是一個關(guān)于人而不是棋子的游戲。如果代理無法辨別出某人可能在虛張聲勢,或者另一個玩家會認為某一舉動具有攻擊性,那么它很快就會輸?shù)粲螒?。同樣,如果它不能像真人那樣說話——表現(xiàn)出同情心,建立關(guān)系,并對游戲有一定的了解——它就無法找到其他愿意與它合作的玩家。

a61eb1a8-9566-11ed-bfe3-dac502259ad0.png

我們的主要成就是打通了兩個完全不同的人工智能研究領(lǐng)域并開發(fā)了新技術(shù):戰(zhàn)略推理(如 AlphaGo 和 Pluribus 等代理中使用的技術(shù))和自然語言處理(如 GPT-3、BlenderBot 3、LaMDA 和 OPT-175B 等模型中使用的技術(shù))。舉個例子,CICERO 可以推斷出,在游戲后期,它會需要特定玩家的支持,然后精心設(shè)計一個策略來贏得這個人的青睞——甚至可以識別出這個玩家從自己特定的視角所看到的風險和機會。

a6387fa2-9566-11ed-bfe3-dac502259ad0.png

我們已經(jīng)將代碼開源,并發(fā)表了一篇論文,希望可以為更廣泛的人工智能社區(qū)帶來幫助,讓他們使用 CICERO 來推動人類與人工智能的合作進一步進展。如果你想了解更多關(guān)于這個項目的信息,或者試用這個代碼,請移步 CICERO 的官網(wǎng)。感興趣的研究人員可以向 CICERO RFP 提交建議,獲取數(shù)據(jù)使用權(quán)。

我們是如何構(gòu)建 CICERO 的?

CICERO 的核心是一個可控的 Diplomacy 對話模型,外加一個策略推理引擎。在游戲中的每個時刻,CICERO 都會查看棋盤及其對話歷史,并對其他玩家可能采取的行動建模。然后,它會用這個方案來控制一個可以生成自由對話的語言模型,告知其他玩家它的計劃,為其他玩家提出合理的行動建議,與他們做好協(xié)調(diào)。

可控的對話

為了構(gòu)建一個可控的對話模型,我們從一個有 27 億參數(shù)的類似 BART 的語言模型開始,使用從互聯(lián)網(wǎng)上收集的文本對它進行了預訓練,然后使用 webDiplomacy.net 上超過 4 萬個人類游戲?qū)λM行了優(yōu)化。我們開發(fā)了一些技術(shù),將訓練數(shù)據(jù)中的信息與游戲中相應的計劃動作進行自動標注,這樣,在推理時我們就可以控制對話的生成,討論代理和其對話伙伴所期望的具體行動。

例如,如果我們的代理在扮演法國,在涉及英格蘭支持法國進入勃艮第的計劃時,對話模型可能會生成這樣一條信息發(fā)送給英格蘭,“嗨,英格蘭!你愿意支持我進入勃艮第嗎?”以這種方式控制對話生成,可以使 CICERO 將對話建立在一套計劃之上,并隨著時間的推移完善和改進,以更好地進行談判。這有助于代理更有效地協(xié)調(diào)和說服其他玩家。

第 1 步:使用棋盤狀態(tài)和當前對話,CICERO 對每個人下一步會做什么做了一個初步預測。

a66202c8-9566-11ed-bfe3-dac502259ad0.png

第 2 步:CICERO 利用規(guī)劃反復完善該預測,然后利用這些預測為自己和合作伙伴形成一個意圖。

a6710a02-9566-11ed-bfe3-dac502259ad0.png

第 3 步:根據(jù)棋盤狀態(tài)、對話和意圖,生成幾條候選信息。

a6a05596-9566-11ed-bfe3-dac502259ad0.png

第 4 步:對候選信息進行過濾,減少廢話,使價值最大化,并確保其符合意圖。

a6b44506-9566-11ed-bfe3-dac502259ad0.png

我們利用一些過濾機制——例如經(jīng)過訓練的分類器來區(qū)分人類和模型生成的文本——來進一步提高對話質(zhì)量,確保生成的對話是切合實際的,與當前游戲狀態(tài)和之前的信息相一致,并且戰(zhàn)略上也合理。

對話感知策略 & 規(guī)劃

以前,在象棋、圍棋和撲克等對抗性游戲中的超人代理是通過自我強化學習(RL)創(chuàng)建的——讓代理與自身的其他副本進行數(shù)百萬次對局來學習最佳策略。然而,涉及合作的游戲需要對人類在現(xiàn)實生活中的實際行為進行建模,而不是對完美的機器人副本應該做什么進行建模。特別是,我們希望 CICERO 制定的計劃與它和其他玩家的對話一致。

人類建模的經(jīng)典方法是監(jiān)督學習,即用帶標簽的數(shù)據(jù)(如過去游戲中人類玩家的行動數(shù)據(jù)庫)來訓練代理。然而,純粹依靠監(jiān)督學習根據(jù)過去的對話結(jié)果來選擇行動,會導致代理的能力相對較弱,而且很容易被利用。例如,一個玩家可以告訴代理,“很高興我們能達成一致,你將把你的部隊從巴黎撤出!”由于類似的信息只有在達成協(xié)議時才會出現(xiàn)在訓練數(shù)據(jù)中,所以代理可能真的會將其部隊調(diào)離巴黎,即使這樣做是一個明顯的戰(zhàn)略失誤。

為了解決這個問題,CICERO 會運行一個迭代規(guī)劃算法,平衡對話的一致性和合理性。首先,代理會根據(jù)它與其他玩家的對話預測每個人在當前回合的策略,同時也預測其他玩家會如何預測代理的策略。然后,它會運行我們開發(fā)的名為 piKL 的規(guī)劃算法,根據(jù)其他玩家預測的策略選擇具有更高期望值的新策略來迭代改進自己的預測,同時還會設(shè)法使新的預測接近于初始的策略預測。我們發(fā)現(xiàn),與單純的監(jiān)督學習相比,piKL 能更好地模擬人類游戲,幫代理選出更好的策略。

a6e1a7f8-9566-11ed-bfe3-dac502259ad0.png

生成自然、有目的的對話

在 Diplomacy 中,玩家與他人的交談方式,甚至比他們移動棋子的方式更重要。在與其他玩家一起制定策略時,CICERO 能夠說出清晰而有說服力的話。例如,在一個演示游戲中,CICERO 要求一個玩家立即在棋盤的某個部分提供支持,同時向另一個玩家施加壓力,使其在后續(xù)的游戲中考慮結(jié)盟。

a70303b2-9566-11ed-bfe3-dac502259ad0.png

在這些交流中,CICERO 試圖通過向三個不同的玩家提供行動建議來執(zhí)行其策略。在第二次對話中,代理能夠告訴其他玩家為什么他們應該合作,以及合作如何對雙方有利。在第三次對話中,CICERO 既是在征集信息,也是在為未來的行動打基礎(chǔ)。

哪里還有改進空間?

必須認識到,CICERO 有時也會生成不一致的對話,妨礙目標的達成。在下面的例子中,CICERO 扮演的是奧地利,它與自己的第一條信息(要求意大利移到威尼斯)前后矛盾了。雖然我們的過濾器套件就是用于檢測這類錯誤,但它并不完美。

a71ef856-9566-11ed-bfe3-dac502259ad0.png

將 Diplomacy 作為促進 人類與人工智能互動的沙盒

在競合類游戲中,以目標為導向的對話系統(tǒng)的出現(xiàn),對于協(xié)調(diào) AI 與人類的意圖和目標提出了重要的社交和技術(shù)挑戰(zhàn)。Diplomacy 為研究這一問題提供了一個特別有趣的環(huán)境,因為玩游戲需要在相互沖突的目標中艱難應對,并將這些復雜的目標翻譯成自然語言。舉個簡單的例子,玩家可能會為了維持一個盟友關(guān)系而選擇在短期利益上做出妥協(xié),目的是希望這個盟友能夠在下個回合中幫助他們?nèi)〉酶欣牡匚弧?/p>

雖然我們在這項工作中取得了重大的進展,但是,將語言模型與具體意圖緊密結(jié)合的能力,以及確定這些意圖的技術(shù)(和規(guī)范)挑戰(zhàn),仍然是有待解決的重要問題。通過開放 CICERO 的源代碼,我們希望人工智能研究人員能夠基于我們的工作以負責任的方式繼續(xù)研究下去。通過使用我們的對話模型進行零樣本分類,我們已經(jīng)在這個新領(lǐng)域中圍繞檢測和刪除有毒信息做了一些初步的工作。我們希望,Diplomacy 可以作為一個安全的沙盒來推進人類與人工智能互動的研究。

未來展望

雖然 CICERO 只會玩 Diplomacy 這個游戲,但這項成果背后的技術(shù)涉及到現(xiàn)實世界的許多應用。比如,通過規(guī)劃和 RL 控制自然語言生成,減少人類和人工智能驅(qū)動的代理之間的溝通障礙。再比如,如今的人工智能助手只擅長回答簡單的問題,如告訴你天氣,但如果他們能維持長時間的對話,并以教給你一個新技能為目標,那會怎樣?另外,想象有一個視頻游戲,其中的非玩家角色(NPC)可以像人一樣計劃和交談——理解你的動機并相應地調(diào)整對話——以幫助你完成攻打城堡的任務。

我們非常看好這些領(lǐng)域未來的發(fā)展?jié)摿?,也希望可以看到其他人基于我們的研究開展進一步的工作。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49596

    瀏覽量

    260105
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    568

    瀏覽量

    11238
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Arm與Meta深化戰(zhàn)略合作

    近日,Arm 與 Meta 宣布一項戰(zhàn)略合作項目,雙方將圍繞人工智能 (AI) 軟件與數(shù)據(jù)中心基礎(chǔ)設(shè)施兩大核心領(lǐng)域,全面提升各計算層面的 AI 效率,為全球數(shù)十億用戶打造更豐富的體驗。從驅(qū)動終端側(cè)
    的頭像 發(fā)表于 10-24 17:54 ?1417次閱讀

    利用超微型 Neuton ML 模型解鎖 SoC 邊緣人工智能

    的框架小 10 倍,速度也快 10 倍,甚至可以在最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹這對開發(fā)人員意味著什么,以及使用 Neuton 模型如何改進您的開發(fā)和終端
    發(fā)表于 08-31 20:54

    人工智能+”,走老路難賺到新錢

    昨天的“人工智能+”刷屏了,這算是官方第一次對“人工智能+”這個名稱定性吧?今年年初到現(xiàn)在,涌現(xiàn)出了一大批基于人工智能的創(chuàng)業(yè)者,這已經(jīng)算是AI2.0時代的第三波創(chuàng)業(yè)潮了,第一波是基礎(chǔ)大模型,第二波
    的頭像 發(fā)表于 08-27 13:21 ?449次閱讀
    “<b class='flag-5'>人工智能</b>+”,走老路難賺到新錢

    挖到寶了!人工智能綜合實驗箱,高校新工科的寶藏神器

    的深度學習,構(gòu)建起從基礎(chǔ)到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節(jié)省經(jīng)費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:30

    挖到寶了!比鄰星人工智能綜合實驗箱,高校新工科的寶藏神器!

    的深度學習,構(gòu)建起從基礎(chǔ)到前沿的完整知識體系,一門實驗箱就能滿足多門課程的學習實踐需求,既節(jié)省經(jīng)費又不占地 。 五、代碼全開源,學習底層算法 所有實驗全部開源,這對于想要深入學習人工智能技術(shù)的人來說
    發(fā)表于 08-07 14:23

    超小型Neuton機器學習模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應用.

    Neuton 是一家邊緣AI 公司,致力于讓機器 學習模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最先進的邊緣設(shè)備上進行人工智能處理。在這篇博文中,我們將介紹
    發(fā)表于 07-31 11:38

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能

    迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
    發(fā)表于 07-14 11:23

    新人工智能硬件培訓AI 基礎(chǔ)入門學習課程參考2025版(大模型篇)

    人工智能大模型重塑教育與社會發(fā)展的當下,無論是探索未來職業(yè)方向,還是更新技術(shù)儲備,掌握大模型知識都已成為新時代的必修課。從職場上輔助工作的智能助手,到課堂用于學術(shù)研究的智能工具,大模型正在工作生活
    發(fā)表于 07-04 11:10

    如何構(gòu)建邊緣人工智能基礎(chǔ)設(shè)施

    隨著人工智能的不斷發(fā)展,其爭議性也越來越大;而在企業(yè)和消費者的眼中,人工智能價值顯著。如同許多新興科技一樣,目前人工智能的應用主要聚焦于大規(guī)模、基礎(chǔ)設(shè)施密集且高功耗的領(lǐng)域。然而,隨著人工智能
    的頭像 發(fā)表于 06-09 09:48 ?785次閱讀

    開售RK3576 高性能人工智能主板

    ,HDMI-4K 輸出,支 持千兆以太網(wǎng),WiFi,USB 擴展/重力感應/RS232/RS485/IO 擴展/I2C 擴展/MIPI 攝像頭/紅外遙控 器等功能,豐富的接口,一個全新八核擁有超強性能的人工智能
    發(fā)表于 04-23 10:55

    維視智造助力高校人工智能和機器視覺課程落地

    人工智能浪潮下,機器視覺成為未來產(chǎn)業(yè)升級的重點技術(shù),對培養(yǎng)新型創(chuàng)新人才意義重大。
    的頭像 發(fā)表于 04-19 15:37 ?1128次閱讀

    曙光SothisAI人工智能管理平臺接入DeepSeek

    近日,曙光SothisAI人工智能管理平臺發(fā)布全新3.0版本,新版本在原功能基礎(chǔ)上優(yōu)化了整體性能及使用體驗,并實現(xiàn)了DeepSeek全線接入,不僅提供對話服務、知識庫及RAG管理、智能構(gòu)建等能力
    的頭像 發(fā)表于 02-18 09:22 ?964次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗

    Meta公司近日宣布,將推出一款名為Meta Motivo的全新人工智能模型。該模型具備控制類似人類的數(shù)字代理動作的能力,有望為元宇宙的用戶體驗帶來顯著提升。 Meta Motivo的
    的頭像 發(fā)表于 12-16 10:34 ?1284次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    嵌入式和人工智能究竟是什么關(guān)系? 嵌入式系統(tǒng)是一種特殊的系統(tǒng),它通常被嵌入到其他設(shè)備或機器中,以實現(xiàn)特定功能。嵌入式系統(tǒng)具有非常強的適應性和靈活性,能夠根據(jù)用戶需求進行定制化設(shè)計。它廣泛應用于各種
    發(fā)表于 11-14 16:39

    亞馬遜將推出最新人工智能芯片

    近日,亞馬遜(Amazon.com)宣布即將推出其最新的人工智能芯片,標志著這家大型科技集團在半導體領(lǐng)域的又一重大舉措。據(jù)悉,亞馬遜正尋求通過數(shù)十億美元的半導體投資獲得豐厚回報,并計劃減少對當前市場領(lǐng)導者英偉達的依賴。
    的頭像 發(fā)表于 11-14 15:27 ?735次閱讀