在进行实时对抗的任务中,对于敌方的动作识别较为困难,需要根据对方的移动轨迹或行为来分析对方的意图,预测其未来目标,构建规划策略库.针对此问题,提出基于数据驱动的多智能体识别算法,该算法首先采用基于自动机的特征提取方法,获得规...在进行实时对抗的任务中,对于敌方的动作识别较为困难,需要根据对方的移动轨迹或行为来分析对方的意图,预测其未来目标,构建规划策略库.针对此问题,提出基于数据驱动的多智能体识别算法,该算法首先采用基于自动机的特征提取方法,获得规划需要的位置和任务信息;然后将规划识别问题转换为多分类问题,并从单智能体角度切入,给出了一种基于极端梯度提升(extreme gradient boosting,XGBoost)的多分类模型;之后,对于多智能体之间可能存在的合作行为,使用无监督学习的一种基于密度对噪声鲁棒的空间聚类算法(density-based spatial clustering of applications with noise,DBSCAN)对多智能体进行分簇,以促进协同合作.对于同簇智能体,构建了一种针对多智能体的多分类模型,完成对多智能体的目标预测.在获悉敌方目标后,提出基于博弈的围捕逼停算法,构建非合作动态博弈模型,通过求解纳什均衡得到应对敌方的最优策略.最后,通过仿真验证了所提出算法的有效性.展开更多
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案...目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。展开更多
文摘在进行实时对抗的任务中,对于敌方的动作识别较为困难,需要根据对方的移动轨迹或行为来分析对方的意图,预测其未来目标,构建规划策略库.针对此问题,提出基于数据驱动的多智能体识别算法,该算法首先采用基于自动机的特征提取方法,获得规划需要的位置和任务信息;然后将规划识别问题转换为多分类问题,并从单智能体角度切入,给出了一种基于极端梯度提升(extreme gradient boosting,XGBoost)的多分类模型;之后,对于多智能体之间可能存在的合作行为,使用无监督学习的一种基于密度对噪声鲁棒的空间聚类算法(density-based spatial clustering of applications with noise,DBSCAN)对多智能体进行分簇,以促进协同合作.对于同簇智能体,构建了一种针对多智能体的多分类模型,完成对多智能体的目标预测.在获悉敌方目标后,提出基于博弈的围捕逼停算法,构建非合作动态博弈模型,通过求解纳什均衡得到应对敌方的最优策略.最后,通过仿真验证了所提出算法的有效性.
文摘目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。