这是一个人工智能强化学习项目,智能体挑战人类的认知逻辑推理能力。人类和智能体进行一场比赛,在10*10的矩阵方格内用最短的时间和步数找到飞机的头部即为获胜方,飞机随机生成,为‘士’字形。找到除飞机的方格为‘空’,找到飞机除头部的位置为‘伤’,找到头部游戏结束。智能体根据训练目的的不同分为两个模型进行训练,主要采用DDQN和PPO两种算法进行强化学习训练。采用Ray框架rllib进行训练,最后达到性能为平均5-6步找到飞机头部,优于人类平均水平。
点击空白处退出提示
这是一个人工智能强化学习项目,智能体挑战人类的认知逻辑推理能力。人类和智能体进行一场比赛,在10*10的矩阵方格内用最短的时间和步数找到飞机的头部即为获胜方,飞机随机生成,为‘士’字形。找到除飞机的方格为‘空’,找到飞机除头部的位置为‘伤’,找到头部游戏结束。智能体根据训练目的的不同分为两个模型进行训练,主要采用DDQN和PPO两种算法进行强化学习训练。采用Ray框架rllib进行训练,最后达到性能为平均5-6步找到飞机头部,优于人类平均水平。
评论