在复杂动态的仿真环境中,研发多架无人机的自主协同决策算法,以完成高效围捕任务。
点击空白处退出提示
在复杂动态的仿真环境中,研发多架无人机的自主协同决策算法,以完成高效围捕任务。
环境构建: 使用 Gazebo 与 ROS 搭建了高自由度的无人机动力学模型,模拟了飞行控制、传感器噪声及复杂障碍环境。
算法核心设计: 创新性地设计了融合 围捕成功率、能量消耗、防碰撞、队形保持 的多目标混合奖励函数,有效解决了多智能体训练的信用分配与协同难题。
训练与优化: 采用 Ray/RLlib 框架进行分布式训练,系统性地进行了超参数搜索(如学习率、熵系数),显著加速了模型收敛,并最终使智能体学会了高度协同的围捕策略。
高自由度的无人机动力学模型
多智能体训练的信用分配与协同
显著加速了模型收敛,并最终使智能体学会了高度协同的围捕策略。




评论