亚洲精品久久久久久久久久久,亚洲国产精品一区二区制服,亚洲精品午夜精品,国产成人精品综合在线观看,最近2019中文字幕一页二页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

用PyTorch實現(xiàn)了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個熱帖,樓主用PyTorch實現(xiàn)了基本的RL算法,而且每個算法都在一個文件夾中完成,即使沒有GPU,每個算法也可以在30秒內(nèi)完成訓練。

近日,有開發(fā)人員用PyTorch實現(xiàn)了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個帖子在Reddit論壇上獲得了195個贊并引發(fā)了熱議,一起來看一下吧。

特點如下:

每個算法都在一個文件中完成。

每個算法的長度可達100~150行代碼。

即使沒有GPU,每個算法也可以在30秒內(nèi)完成訓練。

Envs固定在“CartPole-v1”上,你只需關注執(zhí)行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內(nèi)存和目標網(wǎng)絡)

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評論中,不少朋友表示了對樓主的認可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個——我知道把代碼簡化到最少是很費事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學習的例子,要花至少30多分鐘來收集所有依賴配置,結果發(fā)現(xiàn)我的平臺上少了一些關鍵的東西?!?/p>

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4750

    瀏覽量

    97019
  • 代碼
    +關注

    關注

    30

    文章

    4932

    瀏覽量

    72867
  • pytorch
    +關注

    關注

    2

    文章

    812

    瀏覽量

    14596

原文標題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    SM4算法實現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實現(xiàn)為: 本算法的解密實現(xiàn)與加密實現(xiàn)結構是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    復雜的軟件算法硬件IP核的實現(xiàn)

    具體方法與步驟 通過 C 語言實現(xiàn)軟件算法,并驗證算法的有效性以后,就可以進行算法的 HDL 轉化工作了。通過使用 Altium Des
    發(fā)表于 10-30 07:02

    基于Matlab與FPGA的雙邊濾波算法實現(xiàn)

    前面發(fā)過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對邊緣的保持比前幾個好很多,當然實現(xiàn)上也是復雜很多。本文將從原理
    的頭像 發(fā)表于 07-10 11:28 ?3853次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實現(xiàn)</b>

    FT232RL USB 轉串口工業(yè)級替代方案DT232RL公司產(chǎn)品競爭力直線提升

    DT232RL的成本與技術雙突破 摘要 面對進口FT232RL芯片的高成本與供貨風險,本文驗證國產(chǎn)DT232RL方案的工業(yè)級替代可行性。實測表明,該方案較國內(nèi)同類產(chǎn)品單一個串口芯片成
    的頭像 發(fā)表于 07-03 17:00 ?505次閱讀

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    易于理解和實踐,全部代碼均在JupyterNotebook環(huán)境中實現(xiàn),僅依賴基礎庫進行算法構建。代碼庫組織結構如下:├──1_simple_rl.ipynb├──
    的頭像 發(fā)表于 04-23 13:22 ?1167次閱讀
    18個常用的強化學習<b class='flag-5'>算法</b>整理:從基礎方法到高級模型的理論技術與代碼<b class='flag-5'>實現(xiàn)</b>

    FOC 算法實現(xiàn)永磁同步電機調(diào)整指南

    本文檔介紹使用 FOC 算法實現(xiàn)永磁同步電機 (Permanent Magnet SynchronousMotor,PMSM)調(diào)整所需的步驟和設置,該算法如 AN1078《PMSM
    發(fā)表于 03-03 01:53

    PID控制算法的C語言實現(xiàn):PID算法原理

    在工業(yè)應用中 PID 及其衍生算法是應用最廣泛的算法之一,是當之無愧的萬能算法,如果能夠熟練掌握 PID 算法的設計與實現(xiàn)過程,對于一般的研
    發(fā)表于 02-26 15:24

    操作指南:pytorch云服務器怎么設置?

    設置PyTorch云服務器需選擇云平臺,創(chuàng)建合適的GPU實例,安裝操作系統(tǒng)、Python及Anaconda,創(chuàng)建虛擬環(huán)境,根據(jù)CUDA版本安裝PyTorch,配置環(huán)境變量,最后驗證安裝。過程中需考慮
    的頭像 發(fā)表于 02-08 10:33 ?548次閱讀

    利用Arm Kleidi技術實現(xiàn)PyTorch優(yōu)化

    PyTorch 是一個廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協(xié)作,持續(xù)改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術提升 Arm
    的頭像 發(fā)表于 12-23 09:19 ?1533次閱讀
    利用Arm Kleidi技術<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>PyTorch</b>優(yōu)化

    vLLM項目加入PyTorch生態(tài)系統(tǒng),引領LLM推理新紀元

    近日,vLLM項目宣布正式成為PyTorch生態(tài)系統(tǒng)的一部分,標志著該項目與PyTorch的合作進入了一個全新的階段。本文將從以下幾個方面進行介紹,特別提醒:安裝方案在第四個部分,可選擇性閱讀
    的頭像 發(fā)表于 12-18 17:06 ?1406次閱讀
    vLLM項目加入<b class='flag-5'>PyTorch</b>生態(tài)系統(tǒng),引領LLM推理新紀元

    PyTorch 2.5.1: Bugs修復版發(fā)布

    ,以提升用戶體驗。 二,PyTorch 2.5.1 的主要修內(nèi)容 1,RPM 和 arm64 發(fā)行版支持: 2.5.1 版本修復基于 RPM 的發(fā)行版和 arm64 發(fā)行版中的一些問題,這些修復使得
    的頭像 發(fā)表于 12-03 16:11 ?1896次閱讀
    <b class='flag-5'>PyTorch</b> 2.5.1: Bugs修復版發(fā)布

    FacenetPytorch人臉識別方案--基于米爾全志T527開發(fā)板

    、facenet_pytorch算法實現(xiàn)人臉識別深度神經(jīng)網(wǎng)絡1.簡介Facenet-PyTorch是一個基于PyTorch框架
    的頭像 發(fā)表于 11-28 15:12 ?1264次閱讀
    FacenetPytorch人臉識別方案--基于米爾全志T527開發(fā)板

    【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+內(nèi)容簡介

    內(nèi)容簡介這是一本深入解讀基礎算法及其電路設計,以打通算法研發(fā)到數(shù)字IC設計的實現(xiàn)屏障,以及指導芯片設計工程師從底層掌握復雜電路設計與優(yōu)化方法為目標的專業(yè)技術書。任何芯片(如WiFi芯片、5G芯片
    發(fā)表于 11-21 17:14

    【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+介紹基礎硬件算法模塊

    作為嵌入式開發(fā)者往往比較關注硬件和軟件的協(xié)調(diào)。本書介紹除法器,信號發(fā)生器,濾波器,分頻器等基本算法的電路實現(xiàn),雖然都是基礎內(nèi)容,但是也是最常用到的基本模塊。 隨著逆全球化趨勢的出現(xiàn),過去的研發(fā)
    發(fā)表于 11-21 17:05

    【「從算法到電路—數(shù)字芯片算法的電路實現(xiàn)」閱讀體驗】+一本介紹基礎硬件算法模塊實現(xiàn)的好書

    作為嵌入式開發(fā)者往往比較關注硬件和軟件的協(xié)調(diào)。本書介紹除法器,信號發(fā)生器,濾波器,分頻器等基本算法的電路實現(xiàn),雖然都是基礎內(nèi)容,但是也是最常用到的基本模塊,本書的內(nèi)容比較對本人胃口。 我們先來
    發(fā)表于 11-20 13:42