引入威胁空间搜索的五子棋深度强化学习方法

Deep reinforcement learning for Gomoku with threat-space search

在线阅读下载PDF

导出

摘要结合蒙特卡罗树搜索与深度神经网络的深度强化学习方法,已经成为解决复杂博弈问题的基准方法,但仍面临奖励稀疏及训练成本高等问题。为此,提出引入威胁空间搜索的五子棋深度强化学习方法:首先,设计了嵌入到蒙特卡罗树搜索的统一威胁空间搜索算法,缓解了奖励稀疏的问题;其次,提出了基于领域知识的双层知识库,加快算法搜索速度;此外,将威胁动作空间作为神经网络的输入特征,增强了模型对关键局部形势的感知能力;最后;利用走法过滤机制有效缩小了动作空间。实验结果表明:上述改进措施显著提升了自博弈程序的学习速度和竞技水平。 Deep reinforcement learning methods integrating Monte Carlo tree search(MCTS)and deep neural networks(DNN)have become the benchmark approach for solving complex gaming problems.However,challenges such as sparse rewards and high training costs remain prominent.To address these issues,this paper proposes an improved deep reinforcement learning method for Gomoku by incorporating threat space search(TSS).First,a unified threat space search algorithm is designed.It seamlessly integrates with MCTS to mitigate the sparse reward problem.Then,a domain knowledge-based dual-layer knowledge base structure is proposed to enhance search efficiency.Next,threat-based offensive and defensive sets are incorporated as neural network input features to improve the model’s perception of critical local game situations.Finally,a move filtering mechanism is developed based on threat space features to effectively reduce the action space.Experimental results demonstrate these improvements markedly enhance both the learning efficiency and competitive performance of the self-play program.

作者牛学芬王子游陈灵吴育华刘雨泽徐长明 NIU Xuefen;WANG Ziyou;CHEN Ling;WU Yuhua;LIU Yuze;XU Changming(School of Computer and Communication Engineering,Northeastern University,Qinhuangdao 066004,China;Graduate School,Northeastern University,Qinhuangdao 066004,China)

机构地区东北大学秦皇岛分校计算机与通信工程学院东北大学研究生院

出处《重庆理工大学学报(自然科学)》北大核心 2025年第8期118-125,共8页 Journal of Chongqing University of Technology:Natural Science

基金河北省自然科学基金项目面上项目(F2022501015)。

关键词蒙特卡罗树搜索深度神经网络威胁空间搜索自博弈 MCTS deep neural networks threat space search self-play

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介牛学芬,女,讲师,主要从事FPGA开发、机器学习研究,E-mail:niuxuefen@neuq.edu.cn;通信作者:徐长明,男,博士,讲师,主要从事基于深度学习的机器博弈、时间序列异常检测等研究,E-mail:changmingxu@neuq.edu.cn。

引文网络
相关文献

参考文献5

1王亚杰,祁冰枝,张云博,丁傲冬.结合神经网络的改进UCT在国际跳棋中的应用[J].重庆理工大学学报（自然科学）,2021,35(7):259-265. 被引量：7
2张小川,严明珠,涂飞,陈俊宇,魏乐天.一种大众麻将计算机博弈的快速出牌方法[J].重庆理工大学学报（自然科学）,2024,38(5):102-107. 被引量：3
3Xiali LI,Yanyin ZHANG,Licheng WU,Yandong CHEN,Junzhi YU.TibetanGoTinyNet:a lightweight U-Net style network for zero learning of Tibetan Go[J].Frontiers of Information Technology & Electronic Engineering,2024,25(7):924-937. 被引量：1
4Xiali Li,Bo Liu,Zhi Wei,Zhaoqi Wang,Licheng Wu.Tjong:A transformer‐based Mahjong AI via hierarchical decision‐making and fan backward[J].CAAI Transactions on Intelligence Technology,2024,9(4):982-995. 被引量：2
5王栋年,王军伟,薛世超,汪超,徐长明.基于深度强化学习的双置换表优化算法研究[J].重庆理工大学学报（自然科学）,2024,38(5):145-153. 被引量：1

二级参考文献22

1周明明,高航,赵国安.UCT算法在计算机围棋中的应用与改进[J].数据采集与处理,2012,27(S2):330-335. 被引量：3
2徐心和,邓志立,王骄,徐长明,刘纪红,马宗民.机器博弈研究面临的各种挑战[J].智能系统学报,2008,3(4):288-293. 被引量：44
3焦尚彬,刘丁.博弈树置换表启发式算法研究[J].计算机工程与应用,2010,46(6):42-45. 被引量：7
4刘子正,卢超,张瑞友.基于蒙特卡罗模拟和Z检验的“2048”游戏并行优化算法[J].小型微型计算机系统,2016,37(3):562-566. 被引量：2
5郑昌松,贾丽娟,权贺,王彪.基于西洋跳棋的博弈程序研究[J].哈尔滨理工大学学报,2016,21(3):24-28. 被引量：6
6王亚杰,邱虹坤,吴燕燕,李飞,杨周凤.计算机博弈的研究与发展[J].智能系统学报,2016,11(6):788-798. 被引量：34
7张小川,李琴,南海,彭丽蓉.改进UCT算法在爱恩斯坦棋中的应用[J].计算机科学,2018,45(12):196-200. 被引量：8
8郭晓霞,韩燮,赵融.基于知识库的象棋机器博弈搜索算法研究[J].中国科技论文,2018,13(20):2394-2400. 被引量：8
9张小川,王宛宛,彭丽蓉.一种军棋机器博弈的多棋子协同博弈方法[J].智能系统学报,2020,15(2):399-404. 被引量：5
10Saqib MAMOON,Muhammad Arslan MANZOOR,Fa-en ZHANG,Zakir ALI,Jian-feng LU.SPSSNet: a real-time network for image semantic segmentation[J].Frontiers of Information Technology & Electronic Engineering,2020,21(12):1770-1782. 被引量：1

共引文献9

1刘溜,张小川,彭丽蓉,田震,万家强,任越.一种结合策略价值网络的五子棋自博弈方法研究[J].重庆理工大学学报（自然科学）,2022,36(12):129-135. 被引量：4
2李淑琴,李奕.一种多重优先经验回放的麻将游戏数据利用方法[J].重庆理工大学学报（自然科学）,2022,36(12):162-169. 被引量：2
3张小川,杨小漫,涂飞,王鑫,严明珠,梁渝卓.融合经验知识与深度强化学习的久棋Alpha-Beta算法优化研究[J].重庆理工大学学报（自然科学）,2024,38(5):115-120. 被引量：4
4徐长明,周其磊,王一川,王栋年,金张根,王军伟.维护全局博弈图的蒙特卡洛图搜索[J].重庆理工大学学报（自然科学）,2024,38(5):130-136.
5王栋年,王军伟,薛世超,汪超,徐长明.基于深度强化学习的双置换表优化算法研究[J].重庆理工大学学报（自然科学）,2024,38(5):145-153. 被引量：1
6王璐瑶,吴蕾.基于深度神经网络的桥牌叫牌策略研究[J].应用科技,2025,52(1):198-204.
7徐志凡,李媛,王静文,李卓轩,曹一丁.一种Q学习制作海克斯棋开局库方法[J].南通大学学报(自然科学版),2025,24(2):22-28.
8何非凡,李霞丽,张皓扬,肖阳,贾苑吏.非物质文化遗产藏族久棋博弈机器人[J].重庆理工大学学报(自然科学),2025,39(8):97-104.
9王璐瑶,李学俊,吴蕾.分步协同的桥牌智能博弈策略研究[J].重庆理工大学学报(自然科学),2025,39(8):105-110.

1来小鹏,叶胜男.论数字传播时代网络平台版权过滤机制的完善——兼谈“必要措施”的司法适用标准[J].中国出版,2025(13):36-42.
2郭思宇.从“舌尖安全”到“税收账本”行业税收监管与食品质量安全的协同机制[J].食经,2025(6):0080-0082.
3何兴,柏艳红.多智能体编队中人工势场法的改进研究[J].现代电子技术,2025,48(17):181-186.
4程笑,田元.“新农具”与再嵌入——返乡青年短视频生产实践中的身份流变与认同[J].数字出版研究,2025,4(3):11-19.
5吕涵,卢春喜,范怡平,陈莹,秦康,吴昊.移动床气固分离技术研究进展[J].过程工程学报,2025,25(8):761-774.

重庆理工大学学报(自然科学)

2025年第8期

浏览历史

内容加载中请稍等...

引入威胁空间搜索的五子棋深度强化学习方法

参考文献5

二级参考文献22

共引文献9

相关作者

相关机构

相关主题

浏览历史