-
题名引入威胁空间搜索的五子棋深度强化学习方法
- 1
-
-
作者
牛学芬
王子游
陈灵
吴育华
刘雨泽
徐长明
-
机构
东北大学秦皇岛分校计算机与通信工程学院
东北大学研究生院
-
出处
《重庆理工大学学报(自然科学)》
北大核心
2025年第8期118-125,共8页
-
基金
河北省自然科学基金项目面上项目(F2022501015)。
-
文摘
结合蒙特卡罗树搜索与深度神经网络的深度强化学习方法,已经成为解决复杂博弈问题的基准方法,但仍面临奖励稀疏及训练成本高等问题。为此,提出引入威胁空间搜索的五子棋深度强化学习方法:首先,设计了嵌入到蒙特卡罗树搜索的统一威胁空间搜索算法,缓解了奖励稀疏的问题;其次,提出了基于领域知识的双层知识库,加快算法搜索速度;此外,将威胁动作空间作为神经网络的输入特征,增强了模型对关键局部形势的感知能力;最后;利用走法过滤机制有效缩小了动作空间。实验结果表明:上述改进措施显著提升了自博弈程序的学习速度和竞技水平。
-
关键词
蒙特卡罗树搜索
深度神经网络
威胁空间搜索
自博弈
-
Keywords
MCTS
deep neural networks
threat space search
self-play
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-