项目使用DDPG算法和Keras对TORCS赛车模拟平台进行训练,以达到最优路径和最短时间的训练效果。
DDPG:其主要结合改进了以下三种算法或框架:
· DPG(Deterministic Policy Gradient)确定性策略梯度算法
· DQN(Deep Q-Network)深度Q网络
· AC(Actor-Critic)随机离线策略 Actor−Critic框架
DDPG可以看成是DQN的扩展版 ,不同的是,以往的DQN在最终输出的是一个动作向量,对于DDPG是最终确定地只输出一个动作。而且,DDPG让DQN可以扩展到连续的动作空间。
可以用来作为强化学习、机器学习、深度学习课设。
点击空白处退出提示
评论