面向飞行器智能协同控制的分层双时延策略梯度强化学习方法

Hierarchical Twin-Delayed Policy Gradient Reinforcement Learning for Intelligent Cooperative Control of Aircraft

在线阅读下载PDF

导出

摘要针对多飞行器智能协同控制中因规模大、环境复杂及资源受限导致的建模与协同难题,以提高决策算法效率为目标,构建了多智能体分层决策架构,提出了智能协同控制方法。首先,将飞行器作为智能体构建协同控制模型;其次,采用部分可观测马尔可夫决策过程模型解决观测信息不全问题;然后,针对博弈环境多变和学习成本问题,提出基于集中训练分布执行的分层双时延策略梯度强化学习方法,融合有模型(model-based)与无模型(model-free)机制高效利用现有博弈环境的演化模型;最后,在分层智能决策框架下,进行典型多飞行器博弈及千次多场景的仿真验证。结果表明,新方法有效解决多飞行器协同控制问题,相较于多智能体强化学习算法MAPPO和QMIX,训练时间分别减少了51.03%和79.03%,算法效率(累积回报)分别提升了37.51%和58.73%,规避机动成功率分别提高了17.63%和39.79%。 To address the modeling and coordination challenges in intelligent cooperative control of aircraft caused by large-scale systems,complex environments,and resource constraints,this study proposes an intelligent cooperative control method by establishing a hierarchical multi-agent decision-making architecture with the goal of improving decision-making algorithm efficiency.First,aircraft is modeled as an intelligent agent to establish a cooperative control framework.Second,a partially observable Markov decision process(POMDP)model is employed to handle incomplete observation information.Then,to tackle the issues of dynamic game environments and high learning costs,a hierarchical twin-delayed policy gradient reinforcement learning method based on centralized training with decentralized execution is proposed,which effectively combines model-based and model-free mechanisms to leverage existing game environment evolution models.Finally,under the hierarchical decision-making framework,simulations of typical multi-aircraft game scenarios and thousands of multi-scenario tests are conducted.The results demonstrate that the proposed method successfully resolves multi-aircraft cooperative control problem.Compared to the multi-agent reinforcement learning algorithms MAPPO and QMIX,the training time is reduced by 51.03%and 79.03%,algorithm efficiency(cumulative reward)is improved by 37.51%and 58.73%,and evasion maneuver success rate is increased by 17.63%and 39.79%,respectively.

作者马宇安豆林熙祥赵建福张光华牛鸿敏 MA Yu;AN Dou;LIN Xixiang;ZHAO Jianfu;ZHANG Guanghua;NIU Hongmin(School of Electronics and Control Engineering,Chang’an University,Xi’an 710064,China;School of Automation Science and Engineering,Xi’an Jiaotong University,Xi’an 710049,China)

机构地区长安大学电子与控制工程学院西安交通大学自动化科学与工程学院

出处《西安交通大学学报》北大核心 2025年第9期88-98,共11页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(62173268,62103318) 陕西省自然科学基金资助项目(2021JQ-288)。

关键词智能决策多飞行器智能协同控制分层决策强化学习 intelligent decision-making multi-aircraft intelligent cooperative control hierarchical decision reinforcement learning

分类号 TJ765 [兵器科学与技术—武器系统与运用工程]

作者简介马宇(1988-),男,讲师。

引文网络
相关文献

参考文献9

1郑卓,路坤锋,王昭磊,姚征.飞行器集群协同控制技术分析与展望[J].宇航学报,2023,44(4):538-545. 被引量：6
2方峰,蔡远利.三体对抗中的自适应协同突防策略[J].西安交通大学学报,2017,51(4):72-78. 被引量：5
3鲜勇,田海鹏,王剑,史金倩.基于微分对策的导弹智能机动突防研究[J].飞行力学,2014(1):70-73. 被引量：14
4任章,郭栋,董希旺,李清东.飞行器集群协同制导控制方法及应用研究[J].导航定位与授时,2019,6(5):1-9. 被引量：22
5谭浪,巩庆海,王会霞.基于深度强化学习的追逃博弈算法[J].航天控制,2018,36(6):3-8. 被引量：14
6ZHANG Jiandong,YANG Qiming,SHI Guoqing,LU Yi,WU Yong.UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning[J].Journal of Systems Engineering and Electronics,2021,32(6):1421-1438. 被引量：24
7裴培,何绍溟,王江,林德福.一种深度强化学习制导控制一体化算法[J].宇航学报,2021,42(10):1293-1304. 被引量：33
8南英,蒋亮.基于深度强化学习的弹道导弹中段突防控制[J].指挥信息系统与技术,2020,11(4):1-9. 被引量：11
9王建波,孙冉,刘忠凯,张小科,郭泓佐,胡怀中.面向储能辅助火电机组一次调频的深度强化学习控制策略[J].西安交通大学学报,2024,58(6):186-192. 被引量：3

二级参考文献86

1王彤,李磊,蒋琪.“进攻性蜂群使能战术”项目推进无人蜂群能力发展分析[J].战术导弹技术,2020(1):33-38. 被引量：26
2袁俊.导弹防御系统的弹道导弹突防[J].上海航天,2005,22(1):48-51. 被引量：9
3张克,刘永才,关世义.多智能体系统在导弹攻防对抗仿真中应用的可行性研究[J].战术导弹技术,2001(6):59-65. 被引量：8
4查旭,崔平远,常伯浚.攻击固定目标的飞行器制导控制一体化设计[J].宇航学报,2005,26(1):13-18. 被引量：21
5雍恩米,唐国金,罗亚中.弹道导弹中段机动突防制导问题的仿真研究[J].导弹与航天运载技术,2005(4):13-18. 被引量：18
6龙涛,陈岩,沈林成.基于合同机制的多UCAV分布式协同任务控制[J].航空学报,2007,28(2):352-357. 被引量：24
7赵秀娜,袁泉,马宏绪,黄茜薇.机动弹头中段突防姿态的搜索算法研究[J].航天控制,2007,25(4):13-16. 被引量：3
8李建勋,佟明安,金德琨.协商微分对策理论及其在多机空战分析中的应用[J].系统工程理论与实践,1997,17(6):68-72. 被引量：14
9汤一华,陈士橹,万自明.基于零控脱靶量的大气层外拦截中制导研究[J].飞行力学,2007,25(3):34-37. 被引量：9
10朱·费登伯格,让·梯诺尔.博弈论[M].黄涛,等译.北京:中国人民出版社,2010:53-65.

共引文献114

1方俊逸,陈国良.追捕条件下旋翼无人机逃脱方法研究[J].数字制造科学,2023(2):114-119. 被引量：1
2苗昊春,刘重,王根.协同制导控制技术发展现状及展望[J].前瞻科技,2022(4):40-54. 被引量：2
3胡阳修,赵长春,贾成龙,钱洲元,胡涛.基于ROS的集群无人机同步路径编队控制[J].航空学报,2022,43(S01):100-109. 被引量：6
4刘闯,鱼小军,张婷,朱豪坤.无人集群装备仿真试验关键技术现状及趋势[J].航空学报,2022,43(S01):21-33. 被引量：10
5鲜勇,李少朋,李振华,刘炳琪,常燕.基于梯度粒子群算法的纵横向机动跳跃弹道设计及优化[J].弹道学报,2015,27(3):1-6. 被引量：4
6鲜勇,李少朋,雷刚,张大巧.弹道导弹中段机动突防技术研究综述[J].飞航导弹,2015(9):43-46. 被引量：12
7熊思宇,李刚,王华吉,陈峰.三体对抗中的微分对策协同突防策略[J].空军工程大学学报（自然科学版）,2018,19(4):79-85. 被引量：8
8胡翌玮,蔡远利.主动防御的滑模制导算法研究[J].导弹与航天运载技术,2018(1):63-68. 被引量：3
9史恒,朱纪洪.主动防御的最优预测协同制导律研究[J].空间控制技术与应用,2019,45(4):64-70. 被引量：8
10李刚,王蜀杰,李兴格.地空导弹突防技术综述[J].飞航导弹,2019,0(8):35-38. 被引量：4

1王力川.人工智能技术在电力设备运维检修中的应用与实践[J].消费电子,2025(11):86-88.
2马旺,李少波,傅广,汪明,刘祖仁,杨波.基于复杂网络的供应链网络研究综述[J].计算机与数字工程,2025,53(6):1575-1580.
3韩雨,陈志轩,王翊萱,李春杰,雷伟,焦彦利,刘攀.基于深度强化学习的入口匝道流量调控方法[J].汽车安全与节能学报,2025,16(4):587-597.
4薛春亭,董克,史敬文.机械电气故障应急处理研究[J].葡萄酒,2022(14):0171-0172.
5郭祥富,张旭,刘书铭,王得道,李琼林,贾子昊,孙媛媛.计及动态相关性的配电网稳态电能质量智能评价方法[J].浙江电力,2024,43(12):28-37. 被引量：1
6何杏宇,高锦,杨桂松.基于博弈共识的异构多智能体分布式强化学习方法[J].计算机应用研究,2025,42(9):2676-2682.
7秦新凯,王然风,付翔,窦治衡,李品钰.基于无模型深度强化学习的煤泥浮选智能控制研究[J].工矿自动化,2025,51(8):25-33.
8张晓明,王馨慰,张昊天,王晨铮,陈启立.基于深度强化学习的地源热泵系统全局优化控制研究[J].建筑科学,2025,41(8):86-99.
9罗頔.高填方路基施工中强夯法加固处理技术研究[J].中文科技期刊数据库(文摘版)工程技术,2025(9):129-132.
10吴天放.电力设备制造企业优化收入确认时点的三大路径[J].中国商界,2025(15):66-67.

西安交通大学学报

2025年第9期

浏览历史

内容加载中请稍等...

面向飞行器智能协同控制的分层双时延策略梯度强化学习方法

参考文献9

二级参考文献86

共引文献114

相关作者

相关机构

相关主题

浏览历史