- +1
可定制算法和環境,這個開源強化學習框架火了
機器之心報道
機器之心編輯部
強化學習框架怎么選?不如自己定制一個。
強化學習(reinforcement learning,RL)是近年來最受關注的人工智能研究方向之一,在機器人、游戲等領域應用甚廣。現有的強化學習框架往往無法支持高效、定制化的訓練場景的問題。
近日,GitHub 上一個名為 JORLDY 的開源、可定制強化學習(RL)框架引發關注。

項目地址:https://github.com/kakaoenterprise/JORLDY
JORLDY 的主要優點是提供多種分布式強化學習算法,并且易于定制。由于 JORLDY 目前還是 beta 版本,與現有框架相比存在一些不足。
開發團隊表示未來將繼續提高 JORLDY 的可用性。此外,他們還計劃添加新的強化學習環境和算法,例如基于模型的強化學習、多智能體強化學習和元強化學習。
該開源 RL 框架具有以下特性:
提供 20 + 種強化學習算法和多種強化學習環境;
算法和環境可定制;
可以添加新的算法和環境;
使用 ray 提供分布式 RL 算法;
算法的基準測試是在許多 RL 環境中進行的。
分布式架構
為了實現分布式強化學習,該項目使用 ray(允許參與者并行交互)和多進程,支持單個參與者(actor)訓練、同步分布式訓練和異步分布式訓練。
單個參與者訓練
單個參與者訓練腳本中包含主進程和管理進程。在主進程中,單個智能體與環境交互以收集轉移(transition)數據,并借助這些數據訓練網絡。在管理進程中,使用最新的網絡進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示:

同步分布式訓練
同步分布式訓練腳本和單個參與者訓練腳本類似,也是包含主進程和管理進程。在主進程中,多個參與者同時并行交互以收集轉移數據,并借助這些數據訓練模型。在管理進程中,用最新的模型進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示:

異步分布式訓練
異步分布式訓練腳本中包含交互進程、主進程和管理進程。在交互進程中,多個參與者并行交互以收集轉移數據。與同步分布式訓練腳本不同,每個參與者都是異步交互的。更具體地說,在異步分布式訓練腳本中,參與者交互時,僅為在特定時間內已完成的參與者傳輸數據。在主進程中借助轉移數據訓練模型。在管理進程中使用最新的模型進行評估得到一個分數,并在主進程中記錄這個分數和訓練結果。訓練流程如下圖所示。

安裝與使用

安裝代碼如下:
git clone https://github.com/kakaoenterprise/JORLDY.git cd JORLDYpip install -r requirements.txt
# linuxapt-get update apt-get -y install libgl1-mesa-glx # for opencvapt-get -y install libglib2.0-0 # for opencvapt-get -y install gifsicle # for gif optimize
使用以下代碼開始使用 JORLDY:
cd jorldy
# Examples: python [script name] --config [config path]python single_train.py --config config.dqn.cartpolepython single_train.py --config config.rainbow.atari --env.name assault
# Examples: python [script name] --config [config path] --[optional parameter key] [parameter value]python single_train.py --config config.dqn.cartpole --agent.batch_size 64python sync_distributed_train.py --config config.ppo.cartpole --train.num_workers 8
感興趣的小伙伴快去試試吧!
參考鏈接:
https://www.reddit.com/r/MachineLearning/comments/qp9bra/project_jorldy_opensource_reinforcement_learning/
? THE END
原標題:《可定制算法和環境,這個開源強化學習框架火了》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司