强化学习及其在电脑围棋中的应用被引量：33

Reinforcement Learning and Its Application to the Game of Go

在线阅读下载PDF

导出

摘要强化学习是一类特殊的机器学习,通过与所在环境的自主交互来学习决策策略,使得策略收到的长期累积奖赏最大.最近,在围棋和电子游戏等领域,强化学习被成功用于取得人类水平的操作能力,受到了广泛关注.本文将对强化学习进行简要介绍,重点介绍基于函数近似的强化学习方法,以及在围棋等领域中的应用. Reinforcement learning is a particular type of machine learning that autonomously learns from interactions with the environment, so that its long-term reward is maximized. It has recently been successfully applied to playing the game of Go and video games, and human expert level is demonstrated. Since these results are receiving increasing attentions, this paper briefly introduces reinforcement learning, focusing on the methods with function approximation,and its applications in the game of Go.

作者陈兴国俞扬

机构地区南京邮电大学计算机学院/软件学院南京大学计算机软件新技术国家重点实验室

出处《自动化学报》 EI CSCD 北大核心 2016年第5期685-695,共11页 Acta Automatica Sinica

基金国家自然科学基金(61403208 61375061) 南京邮电大学引进人才科研启动基金(NY214014)资助~~

关键词强化学习函数近似核方法神经网络加性模型深度强化学习 Reinforcement learning linear function approximation kernel methods neural networks additive model deep reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

作者简介陈兴国南京邮电大学计算机学院／软件学院讲师．2014年获得南京大学计算机系博士学位．主要研究方向为机器学习，强化学习．E-mail：chenxg@njupt．edu．cn 俞扬南京大学计算机系副教授，2011年获得南京大学计算机系博士学位．主要研究方向为机器学习，演化学习，强化学习．本文通信作者．E—mail：yuy@nju．edu．cn

引文网络
相关文献

参考文献3

1汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁.多核学习方法[J].自动化学报,2010,36(8):1037-1050. 被引量：156
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：285
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27

二级参考文献25

1Zhou Yatong Zhang Taiyi Li Xiaohe.MULTI-SCALE GAUSSIAN PROCESSES MODEL[J].Journal of Electronics(China),2006,23(4):618-622. 被引量：4
2Anderson J R. Cognitive Psychology and Its Applications(third edition) [M]. New York: Freeman, 1990.
3Sutton R S, Barto A G. Reinforcement Learning [M]. Cambridge. MIT Press, 1998.
4Bowling M, Veloso M. Reusing learned policies between similar problems[A]. Proceedings of AI* IA-98 Workshop on New Trends in Robotics [C]. Berlin, Germany: Springer Verlag. 1998.
5Femandez F, Veloso M. Probabilistic policy reuse in a reinforcement learning agent[A]. Proceedings of the Fifth International Conference on Autonomous Agents and Multi-Agent Systems[C]. New York: ACM, 2006.
6Femandez F, Veloso M. Policy reuse for transfer learning across tasks with different state and action spaces[A]. Proceedings of The ICML-06 Workshop on Structural Knowledge Transfer for Machine Learning[ C]. New York: ACM, 2006.
7Bemstein D S. Reusing old policies to accelerate learning on new MDPs[ R]. Amherst: Amherst College, University of Massachusetts, 1999.
8Pickett M, Barto A G. PolicyBlocks: an algorithm for creating useful macro-actions in reinforcement learning[ A]. Proceedings of the Nineteenth International Conference on Machine Learning [ C]. San Francisco: Morgan Kaufmann, 2002. 506 - 513.
9Mcgovem A, Barto A G. Automatic discovery of subgoals in reinforcement learning using diverse density [ A ]. Proceedings of the Eighteenth International Conference on Machine Learning[ C]. San Francisco: Morgan Kaufmann, 2001. 361 - 368.
10Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[ J]. Journal of Artificial Intelligence Research, 2000, 13 (2) : 227 - 303.

共引文献458

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：9
3戴小路,汪廷华,周慧颖.基于加权马氏距离的模糊多核支持向量机[J].计算机科学,2022,49(S02):302-306. 被引量：7
4丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：10
5王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
6马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
7赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
8王正帅,邓喀中.概率积分法参数辨识的多尺度核偏最小二乘回归方法[J].岩石力学与工程学报,2011,30(S2):3863-3870. 被引量：12
9周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献248

1LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,1(3):219-227. 被引量：5
2李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：59
3王亚杰,王晓岩,邱虹坤,李飞.建设棋牌谱标准构建计算机博弈竞赛持续发展新生态[J].实验技术与管理,2020,37(2):19-23. 被引量：4
4徐志凡,王静文,李媛.基于UCT算法改进的Hex棋博弈系统研究[J].智能计算机与应用,2022,12(3):183-185. 被引量：1
5张家铭,王静文,李媛.基于改进UCT算法的国际跳棋博弈系统研究[J].智能计算机与应用,2022,12(1):128-131. 被引量：1
6王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004,1(4):25-35. 被引量：240
7傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：22
8R.F.沃尔,杰里米.菲利普斯,王捷.版权与现代技术[J].国外法学,1984(6):17-21. 被引量：32
9赵毅.自治的黄昏?——从我国法院裁判考察司法介入体育的边界[J].体育与科学,2015,36(5):39-46. 被引量：15
10王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：361

引证文献33

1胡祥仁,陆林,王云生,商军,王保文,黄礼法.急性鱼胆中毒86例临床分析[J].中华内科杂志,2000,39(4):273-274. 被引量：87
2张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：24
3王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.
4秦蕊,曾帅,李娟娟,袁勇.基于深度强化学习的平行企业资源计划[J].自动化学报,2017,43(9):1588-1596. 被引量：15
5左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：57
6殷林飞,余涛.基于深度Q学习的强鲁棒性智能发电控制器设计[J].电力自动化设备,2018,38(5):12-19. 被引量：16
7张一珂,张鹏远,颜永红.基于对抗训练策略的语言模型数据增强技术[J].自动化学报,2018,44(5):891-900. 被引量：20
8颛孙少帅,杨俊安,刘辉,黄科举.基于强化学习的无线自组网络多节点干扰策略[J].控制与决策,2018,33(7):1199-1206. 被引量：4
9赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：66
10王月娟,张苏宁,吴水明,朱斐.基于秩的Q-路由选择算法[J].计算机与现代化,2018(10):1-5. 被引量：3

二级引证文献409

1吴漾,王鹏宇,缪新萍,柳林溪,田钺.基于改进深度强化学习算法的电网缺陷文本挖掘模型研究[J].科技通报,2021,37(2):47-55. 被引量：6
2唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：26
3刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
4夏重阳,张剑书,吴晓富,靳越.面向抗干扰跳频通信的混合改进DQN决策算法[J].电子测量技术,2023,46(20):50-57. 被引量：2
5朱云飞,张建博.基于强化学习的多干扰机干扰任务分配方法[J].电声技术,2023,47(2):141-145.
6朱琳.浅论人工智能创作物的知识产权保护[J].广西质量监督导报,2020,0(1):236-236. 被引量：1
7许杨子,强文,刘俊,孙鸿雁,胡成刚.基于改进深度强化学习算法的电力市场监测模型研究[J].国外电子测量技术,2020,39(1):82-87. 被引量：6
8陈海兰.重度鱼胆中毒并发急性肾功能衰竭1例血液透析护理[J].齐鲁护理杂志,2007,13(3).
9胡宏,刘金洪,许忠仁.血浆置换结合血液透析抢救鱼胆中毒并严重肝损伤8例临床分析[J].中国医药导报,2006,3(29):46-47. 被引量：1
10李月红,杨卫国,赵慧萍,朱军.血液净化抢救鱼胆中毒致急性肾功能衰竭一例报告[J].中国血液净化,2002,1(6):54-56. 被引量：2

1郭毅,毛新军,董孟高,徐云青.复杂自组织系统的研究综述[J].计算机工程与科学,2012,34(2):159-167. 被引量：11
2盛轶君,胡彧.纳什均衡在电脑围棋多层博弈搜索策略中的应用[J].沿海企业与科技,2006(4):71-72.
3廖海斌,陈庆虎,鄢煜尘.基于因子分析的实用人脸识别研究[J].电子与信息学报,2011,33(7):1611-1617. 被引量：13
4岳春宇,江万寿.基于最大后验和非局域约束的非下采样轮廓波变换域SAR图像去噪方法[J].测绘学报,2012,41(1):59-64. 被引量：7
5橡子.旁观者的怕与爱[J].软件,1997,18(5):22-23.
6姚兰,孔菁,周才钧.从Instagram看后现代主义对社交媒体内容设计的影响[J].西部广播电视,2016,37(3):20-21.
7王立群.围棋模式存储与匹配算法[J].东北电力大学学报,2007,27(1):83-87.
8电脑的检验[J].围棋天地,2009(15):88-88.
9魏爽.基于Mobile Agent聚类挖掘算法研究[J].电脑知识与技术,2014,0(11):7249-7252. 被引量：1
10孙红,孙茂荣.基于Agent技术的物流管理信息系统模型[J].微计算机信息,2008,24(9):140-142. 被引量：4

自动化学报

2016年第5期

浏览历史

内容加载中请稍等...

强化学习及其在电脑围棋中的应用被引量：33

参考文献3

二级参考文献25

共引文献458

同被引文献248

引证文献33

二级引证文献409

相关作者

相关机构

相关主题

浏览历史

强化学习及其在电脑围棋中的应用 被引量：33

参考文献3

二级参考文献25

共引文献458

同被引文献248

引证文献33

二级引证文献409

相关作者

相关机构

相关主题

浏览历史

强化学习及其在电脑围棋中的应用被引量：33