针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提...针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提出多无人战车协同突防决策方法。针对多智能体决策时智能体策略变化互相影响的问题,通过在算法的AC结构中引入自注意力机制,使每个智能体进行决策和策略评估时更加关注那些对其影响较大的智能体;并采用自注意力机制计算每个智能体的回报权值,按照每个智能体自身贡献进行回报分配,提升了战车间的协同性;最后通过在想定环境中进行实验,验证了多战车协同突防决策方法的有效性。展开更多
文摘针对多无人战车陆上突防作战时如何根据实时态势进行协同智能决策这一问题,结合多智能体无人战车突防作战过程建立马尔可夫(MDP)模型,并基于多智能体深度确定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient,MADDPG)提出多无人战车协同突防决策方法。针对多智能体决策时智能体策略变化互相影响的问题,通过在算法的AC结构中引入自注意力机制,使每个智能体进行决策和策略评估时更加关注那些对其影响较大的智能体;并采用自注意力机制计算每个智能体的回报权值,按照每个智能体自身贡献进行回报分配,提升了战车间的协同性;最后通过在想定环境中进行实验,验证了多战车协同突防决策方法的有效性。