参数模块:方便调整仿真环境参数、训练参数
环境模块:进行被控对象的运动仿真,定义了与环境的交互方式,包括状态的获取、动作的执行以及奖励的反馈
代理模块:代理(Agent)即强化学习中的被训练的控制器,定义了代理的决策策略,通常是一个神经网络。
学习算法库模块:包含PPO、DDPG、DQN等多种强化学习算法,用户可以调用不同的算法来训练代理(Agent)
并行化模块:使用多线程或多进程的方式,定义了多个仿真环境异步并行采样训练数据的策略和不同进程之间的通信规则等。使用户能够充分利用多核cpu的优势,加速训练。
可视化模块:使用matplotlib等工具可视化仿真环境,方便用户实时监控仿真环境中被控对象的状态
监控和日志模块:记录强化学习训练过程,使用可视化工具(tensorboard、visdom等)直观地展示训练过程中策略网络的性能指标、奖励曲线等
点击空白处退出提示
评论