基于博弈论及Q学习的多Agent协作追捕算法

【摘要】 多协作追捕问题是多Agent协调与协作研究中的一个典型问题。针对具有学习能力的单逃跑者追协作追捕算法。首先,建立协作追捕团队,并构建协作追捕的博捕问题,提出了一种基于博弈论及Nash累积奖赏的运动轨迹,并把运动轨迹调整到弈模型;其次,通过对逃跑者策略选择的学习,建立逃跑者有限的执行均衡策略完成追捕任务。同时,针对追捕者的策略集中;最后,求解协作追捕博弈得到在求解中可能存在多个均衡解的问题,加入了虚拟行动行为选择算法来选择最优的均衡策略。仿真实验表明,所提算法能够有效地解决障碍环境中单个具有学习能力的逃跑者的追捕问题,实验数据对比分析表明该算法在同等条件下的追捕效率要优于纯博弈或纯学习的追捕算法。Step均衡解,每个TAgentC#-2,2,,,学习;强化学习Abstract:ThemultiFANWenxin1*HANMengyun1ZHENGYanbin1