1.针对多智能体决策的研究,本文选取计算机兵棋平台君尚,设计了强化学习并结合规则的决策模型。其中蓝方是以强化学习为主的多智能体决策方,红方是以专家知识为主的规则方,通过红蓝方奖励的对比,证明以强化学习为主的蓝方决策模型的有效性。
2.针对动作空间过大,导致强化学习算法收敛慢的问题,本文首先对GTrXL模型进行改进、优化和调整,然后和Kubernetes集群两种方式一起来加快奖励的收敛。为了验证本文提出的改进后神经网络模型GTrXL的加速性能,本文在OpenAI Gym框架中的StatelessCarPole上进行实验。通过实验,改进后的神经网络模型GTrXL比LSTM(长短期记忆网络)约快20%,证明了改进模型的优越性。最后用Kubernetes集群和改进后GTrXL共同加速了实验进程。
点击空白处退出提示














评论