强化学习是试错的艺术,通过不断的尝试来学习更好的策略。近年来,强化 学习在游戏、棋牌、机器人等领域展现出了强大的潜力,是机器人领域一个研究热点[2],基本思想是通过智能体(Agent)在环境中不断尝试,学习完成目标的更优策略,以达到从环境中获得奖励值更多的目的。强化学习算法被许多人认为是走向通用人工智能道路的关键算法。
本文针对DQN强化学习算法[1]在贪吃蛇路径规划中这一具体问题的应用中,对其状态空间、奖励函数、动作空间、网络结构等方面的设计进行了一系列的探索。贪吃蛇机器人通过DQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的 Q 值。移动贪吃蛇采用ε-greedy的探索策略,选择一个最优动作,到达下一个观察。贪吃蛇机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验数据证明,贪吃蛇在多变环境中可以很好地获取最优路径去寻觅果实。
点击空白处退出提示
评论