一种基于生成对抗模仿学习的作战决策方法

A decision⁃making method based on generative adversarial imitation learning

在线阅读下载PDF

导出

摘要为研究有限作战指挥样本下的智能决策方法,针对作战决策经验难以表达和智能决策学习训练样本稀缺等问题,基于联合战役仿真推演环境,提出了一种基于生成对抗模仿学习的作战决策方法。该方法整合了作战决策经验表示与学习过程,在上层决策和底层动作分层的基础上,采用规则定义特定任务执行逻辑,并利用生成对抗模仿学习算法提升智能体场景泛化能力。在构设的典型对抗场景中,该方法达到了预期效果,算法训练收敛,智能体输出决策合理。实验结果初步表明,生成对抗模仿学习作为一种智能作战决策方法,具有进一步研究价值。 To study the intelligent decision making methods under limited decision samples,aiming at the problems that operational decisionmaking experience is difficult to express and the training samples for intelligent decision learning are limited,based on the joint operational simulation and drill environment,a decisionmaking method based on generative adversarial imitation learning is proposed.This method integrates the operational decisionmaking experience representation and learning process.On the basis of highlevel decisionmaking and lowlevel action,rule definitions are used to specify the logic of task execution,and generative adversarial imitation learning algorithms are utilized to improve the generalization ability of intelligent agents in scenarios.This method achieved expected results in the constructed typical adversarial scenarios.The algorithm training converged and the decisions output by the intelligent agent are reasonable.Preliminary experimental results indicate that generative adversarial imitation learning,as an intelligent operational decisionmaking method,has value for further research.

作者李东许霄吴琳 LI Dong;XU Xiao;WU Lin(College of Joint Operation,National Defense University,Beijing 100091,China)

机构地区国防大学联合作战学院

出处《指挥控制与仿真》 2024年第2期18-23,共6页 Command Control & Simulation

基金国家自然科学基金(62006235)。

关键词智能决策作战决策基于规则的方法生成对抗模仿学习 intelligent decision-making operational decision-making rule-based method generative adversarial imitation learning

分类号 E917 [军事]

作者简介李东(1987-),男,工程师,研究方向为军事智能决策;许霄(1987-),男,工程师。

引文网络
相关文献

参考文献1

1林嘉豪,章宗长,姜冲,郝建业.基于生成对抗网络的模仿学习综述[J].计算机学报,2020,43(2):326-351. 被引量：23

二级参考文献7

1金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212. 被引量：2
2徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：21
3李耀宇,朱一凡,杨峰,贾全.基于逆向强化学习的舰载机甲板调度优化方案生成方法[J].国防科技大学学报,2013,35(4):171-175. 被引量：20
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：133
5王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：337
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：500
7高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：275

共引文献22

1杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：3
2李林.人工智能生成内容的艺术性研究[J].大众文艺（学术版）,2020(1):98-99. 被引量：2
3朱应钊,李嫚,胡颖茂.模仿学习在机器人领域的应用进展[J].广东通信技术,2020,40(9):44-47. 被引量：2
4姜冲,章宗长,陈子璇,朱佳成,蒋俊鹏.一种数据高效的第三人称模仿学习方法[J].计算机科学,2021,48(2):238-244. 被引量：2
5李庆旭,王巧华,马美湖.基于生成对抗网络的禽蛋图像数据生成研究[J].农业机械学报,2021,52(2):236-245. 被引量：9
6赵世达,王树才,白宇,郝广钊,涂本帅.基于生成对抗网络与ICNet的羊骨架图像实时语义分割[J].农业机械学报,2021,52(2):329-339. 被引量：5
7胡平,林雪华,张冉.基于Transformer网络的双臂机器人模仿学习方法[J].信息与电脑,2021,33(6):33-35.
8刘晓茜,王方.人工智能干预下的汉字重构研究[J].设计,2021,34(13):43-45.
9卢向日,汪湛清,马宏宾.零和博弈对抗中的代价函数选择与性能评价[J].微电子学与计算机,2021,38(7):30-35. 被引量：4
10李祥霞,谢娴,李彬,尹华,许波,郑心炜.生成对抗网络在医学图像处理中的应用[J].计算机工程与应用,2021,57(18):24-37. 被引量：5

1李斌,姜小清.肝切除术式合理决策要点[J].中国实用外科杂志,2022,42(12):1416-1420. 被引量：3
2姜庆华,吴玉剑,姜佳奇.高职院校“一站式”学生社区运行机制研究[J].教育与职业,2023(20):73-77. 被引量：12
3宫明明.旅游企业会计核算存在的问题与对策探讨[J].财会学习,2023(34):92-94.
4姜萌萌.提升战时党委领导作战效能的着力点[J].军队党的生活,2024(2):42-43.
5史红权,陈行军,赵鑫业,聂俊峰,褚骁庚.决策中心战的能力需求与技术支撑[J].火力与指挥控制,2023,48(11):109-115.
6丁鹏,宋亚飞.代价敏感的空中目标意图识别方法[J].航空学报,2023,44(24):171-186. 被引量：6
7无,逯志安,鲁冰,谭小龙.对新兴领域军事治理的认识与思考[J].新华月报,2024(2):120-122.
8孙彧,潘宣宏,姜敏,王可杰,邢权.无人机蜂群作战样式及运用探析[J].战术导弹技术,2023(5):142-150. 被引量：8
9单圣哲,张伟伟.基于自博弈深度强化学习的空战智能决策方法[J].航空学报,2024,45(4):200-212. 被引量：3
10李东,许霄,吴琳,胡晓峰.联合战役仿真环境对强化学习的挑战[J].计算机仿真,2023,40(8):9-12. 被引量：1

指挥控制与仿真

2024年第2期

浏览历史

内容加载中请稍等...

一种基于生成对抗模仿学习的作战决策方法

参考文献1

二级参考文献7

共引文献22

相关作者

相关机构

相关主题

浏览历史