2. DRL Agent

FinRL 集成了 ElegantRL、Stable Baseline 3 和 RLlib 中经过微调的标准 DRL 算法。ElegantRL 是一个由 AI4Finance 维护的可扩展、有弹性的 DRL 库,其性能比 Stable Baseline 3 和 RLlib 更快更稳定。在三层架构部分,将详细解释 ElegantRL 如何在 FinRL 中完美地发挥其作用。如果您感兴趣,请参考 ElegantRL 的 GitHub 页面文档

借助这三个强大的 DRL 库,FinRL 为用户提供了以下算法

start/image/alg_compare.png

如介绍中所述,FinRL 的 DRL Agent 是由依赖于三个著名 DRL 库(ElegantRL、Stable Baseline 3 和 RLlib)的经过微调的标准 DRL 算法构建的。

支持的算法包括:DQN、DDPG、多 Agent DDPG、PPO、SAC、A2C 和 TD3。我们还允许用户通过调整这些 DRL 算法(例如,自适应 DDPG)或采用集成方法来设计他们自己的 DRL 算法。DRL 算法的比较如下表所示

../../_images/alg_compare.png

用户可以选择他们喜欢的 DRL Agent 进行训练。不同的 DRL Agent 在各种任务中可能有不同的表现。

ElegantRL: DRL 库

../../_images/ElegantRL_icon.jpeg

强化学习 (RL) 的一句话总结:在 RL 中,Agent 通过与未知环境持续交互,以试错的方式学习,在不确定性下做出序贯决策,并在探索(新领域)和利用(利用经验学到的知识)之间取得平衡。

深度强化学习 (DRL) 在解决对人类具有挑战性的现实问题方面具有巨大潜力,例如游戏、自然语言处理 (NLP)、自动驾驶汽车和金融交易。自 AlphaGo 成功以来,各种 DRL 算法和应用正以前所未有的方式涌现。ElegantRL 库使研究人员和从业者能够流水线化地实现 DRL 技术的颠覆性“设计、开发和部署”。

将要介绍的库在以下几个方面体现了“优雅”

  • 轻量级:核心代码少于 1,000 行,例如 helloworld。

  • 高效:性能与 Ray RLlib 相当。

  • 稳定:比 Stable Baseline 3 更稳定。

ElegantRL 支持最先进的 DRL 算法,包括离散和连续算法,并在 Jupyter notebooks 中提供了用户友好的教程。ElegantRL 在 Actor-Critic 框架下实现了 DRL 算法,其中 Agent (也称为 DRL 算法) 由一个 Actor 网络和一个 Critic 网络组成。由于代码结构的完整性和简洁性,用户可以轻松定制自己的 Agent。

请参考 ElegantRL 的 GitHub 页面文档获取更多详细信息。