长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

可定制算法和環境,這個開源強化學習框架火了

2021-11-20 18:38
來源:澎湃新聞·澎湃號·湃客
字號

機器之心報道

機器之心編輯部

強化學習框架怎么選?不如自己定制一個。

強化學習(reinforcement learning,RL)是近年來最受關注的人工智能研究方向之一,在機器人、游戲等領域應用甚廣。現有的強化學習框架往往無法支持高效、定制化的訓練場景的問題。

近日,GitHub 上一個名為 JORLDY 的開源、可定制強化學習(RL)框架引發關注。

項目地址:https://github.com/kakaoenterprise/JORLDY

JORLDY 的主要優點是提供多種分布式強化學習算法,并且易于定制。由于 JORLDY 目前還是 beta 版本,與現有框架相比存在一些不足。

開發團隊表示未來將繼續提高 JORLDY 的可用性。此外,他們還計劃添加新的強化學習環境和算法,例如基于模型的強化學習、多智能體強化學習和元強化學習。

該開源 RL 框架具有以下特性:

提供 20 + 種強化學習算法和多種強化學習環境;

算法和環境可定制;

可以添加新的算法和環境;

使用 ray 提供分布式 RL 算法;

算法的基準測試是在許多 RL 環境中進行的。

分布式架構

為了實現分布式強化學習,該項目使用 ray(允許參與者并行交互)和多進程,支持單個參與者(actor)訓練、同步分布式訓練和異步分布式訓練。

單個參與者訓練

單個參與者訓練腳本中包含主進程和管理進程。在主進程中,單個智能體與環境交互以收集轉移(transition)數據,并借助這些數據訓練網絡。在管理進程中,使用最新的網絡進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示:

同步分布式訓練

同步分布式訓練腳本和單個參與者訓練腳本類似,也是包含主進程和管理進程。在主進程中,多個參與者同時并行交互以收集轉移數據,并借助這些數據訓練模型。在管理進程中,用最新的模型進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示:

異步分布式訓練

異步分布式訓練腳本中包含交互進程、主進程和管理進程。在交互進程中,多個參與者并行交互以收集轉移數據。與同步分布式訓練腳本不同,每個參與者都是異步交互的。更具體地說,在異步分布式訓練腳本中,參與者交互時,僅為在特定時間內已完成的參與者傳輸數據。在主進程中借助轉移數據訓練模型。在管理進程中使用最新的模型進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示。

安裝與使用

安裝代碼如下:

git clone https://github.com/kakaoenterprise/JORLDY.git cd JORLDYpip install -r requirements.txt

# linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0 # for opencvapt-get -y install gifsicle # for gif optimize

使用以下代碼開始使用 JORLDY:

cd jorldy

# Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault

# Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8

感興趣的小伙伴快去試試吧!

參考鏈接:

https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/

? THE END

原標題:《可定制算法和環境,這個開源強化學習框架火了》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            博彩百家乐官网组选六六组| 赌博百家乐赢不了| 海滨湾国际娱乐城| 澳门百家乐介绍| ican博彩通| 百家乐高级技巧| 百家乐官网赢钱的技巧是什么| 大发888娱乐客户端下载| 哪个百家乐投注比较好| 百家乐官网必赢外挂软件| 百家乐平台| 大发888收获| 网络百家乐免费试玩| 博彩百家乐官网网址| 澳门足球博彩网站| 同花顺百家乐的玩法技巧和规则| 百家乐冯式打法| 百家乐官网破解方法技巧| 网上百家乐官网靠谱吗| 鸿宝娱乐| 边城棋牌中心| 大发888开户注册| 百家乐麻将牌| 励骏会百家乐的玩法技巧和规则 | 大发888真钱官网| 公海百家乐的玩法技巧和规则 | 孟村| 大发888为什么这么卡| 回力百家乐的玩法技巧和规则| 足球百家乐官网系统| 钱隆百家乐官网的玩法技巧和规则 | 网络百家乐模拟投注| 百家乐能赢到钱吗| 百家乐官网平注常赢规则| 玩百家乐官网技巧看路| 凯斯娱乐城| 现金网信誉排行| 老虎机破解| 百家乐客户端软件| 太阳城百家乐分析解码| 百家乐冲动|