-
题名引入威胁空间搜索的五子棋深度强化学习方法
- 1
-
-
作者
牛学芬
王子游
陈灵
吴育华
刘雨泽
徐长明
-
机构
东北大学秦皇岛分校计算机与通信工程学院
东北大学研究生院
-
出处
《重庆理工大学学报(自然科学)》
北大核心
2025年第8期118-125,共8页
-
基金
河北省自然科学基金项目面上项目(F2022501015)。
-
文摘
结合蒙特卡罗树搜索与深度神经网络的深度强化学习方法,已经成为解决复杂博弈问题的基准方法,但仍面临奖励稀疏及训练成本高等问题。为此,提出引入威胁空间搜索的五子棋深度强化学习方法:首先,设计了嵌入到蒙特卡罗树搜索的统一威胁空间搜索算法,缓解了奖励稀疏的问题;其次,提出了基于领域知识的双层知识库,加快算法搜索速度;此外,将威胁动作空间作为神经网络的输入特征,增强了模型对关键局部形势的感知能力;最后;利用走法过滤机制有效缩小了动作空间。实验结果表明:上述改进措施显著提升了自博弈程序的学习速度和竞技水平。
-
关键词
蒙特卡罗树搜索
深度神经网络
威胁空间搜索
自博弈
-
Keywords
MCTS
deep neural networks
threat space search
self-play
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于改进蚁群算法的飞机航路规划研究
被引量:5
- 2
-
-
作者
梁洁雅
田卫萍
杨志坚
-
机构
北方自动控制技术研究所
-
出处
《火力与指挥控制》
CSCD
北大核心
2021年第3期67-71,共5页
-
文摘
由于飞机在遂行作战任务时面临的飞行环境较为复杂,针对飞行区域内地形特征多样、威胁信息不确定的问题,提出了一种改进的蚁群算法,将飞行区域和威胁源映射到三维空间中以实现飞机规避威胁源的航路规划,该算法的特点主要是可变的搜索步长和信息素动态更新机制,设计了合理的启发值和适应度值计算方式,使规划出的航路能够利用地形优势隐蔽自身。仿真结果表明,该算法能够合理规划出满足飞行任务的航路,有效躲避威胁源。
-
关键词
规避威胁
三维空间
信息素更新
可变搜索步长
-
Keywords
avoid threats
three-dimensional space
pheromone update
variable search step
-
分类号
TJ01
[兵器科学与技术—兵器发射理论与技术]
-