-
题名对抗环境下的智能兵棋系统设计及其关键技术
被引量:3
- 1
-
-
作者
孙宇祥
李原百
周胜
赵俊杰
周献中
-
机构
南京大学控制科学与智能工程系
南京大学智能装备新技术研究中心
-
出处
《火力与指挥控制》
CSCD
北大核心
2024年第2期33-41,共9页
-
基金
国家自然科学青年基金(62306135)
教育部青年基金(23YJC630156)
江苏省青年基金资助项目(BK20230783)。
-
文摘
智能博弈对抗领域已成为当前研究的热门领域之一。侧重在兵棋推演系统的体系构建和模块设计,分析了兵棋推演系统的建模要素,包括兵棋要素、兵棋规则及智能接口设计,构建了智能兵棋推演系统的整体架构。通过A3C强化学习智能算法对系统设计进行可行性验证。其中,改进了强化学习训练过程的奖励设置,明确智能兵棋环境的状态输入、算法驱动过程及动作输出过程,通过自主实现的智能兵棋推演系统,验证了所提的系统理论与工作。该工作为基于强化学习的智能博弈系统的设计与实现提供了可行路径,并为以后基于强化学习的智能博弈对抗研究提供了基础平台。
-
关键词
智能博弈
智能兵棋
强化学习
系统设计
-
Keywords
Intelligent game
intelligent wargame
reinforcement learning
system design
-
分类号
TJ01
[兵器科学与技术—兵器发射理论与技术]
-
-
题名基于自适应噪声的最大熵进化强化学习方法
被引量:6
- 2
-
-
作者
王君逸
王志
李华雄
陈春林
-
机构
南京大学控制科学与智能工程系
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2023年第1期54-66,共13页
-
基金
国家自然科学基金(62006111,62073160,62176116)
江苏省自然科学基金(BK20200330)资助。
-
文摘
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升.
-
关键词
深度强化学习
进化策略
进化强化学习
最大熵
自适应噪声
-
Keywords
Deep reinforcement learning
evolution strategies
evolutionary reinforcement learning
maximum entropy
adaptive noise
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-