基于增量式RBF网络的Q学习算法被引量：7

Q-Learning Algorithm Based on Incremental RBF Network

导出

摘要为提升机器人的行为智能水平,提出一种基于增量式径向基函数网络(IRBFN)的Q学习(IRBFN-QL)算法.其核心是通过结构的自适应增长与参数的在线学习,实现对Q值函数的学习与存储,从而使机器人可以在未知环境中自主增量式地学习行为策略.首先,采用近似线性独立(ALD)准则在线增加网络节点,使机器人的记忆容量伴随状态空间的拓展自适应增长.同时,节点的增加意味着网络拓扑内部连接的改变.采用核递归最小二乘(KRLS)算法更新网络拓扑连接关系及参数,使机器人不断扩展与优化自身的行为策略.此外,为避免过拟合问题,将L2正则项融合到KRLS算法中,得到L2约束下的核递归最小二乘算法(L2KRLS).实验结果表明,IRBFN-QL算法能够实现机器人与未知环境的自主交互,并逐步提高移动机器人在走廊环境中的导航行为能力. An IRBFN(incremental radial basis function network)based Q-learning(IRBFN-QL)algorithm is proposed to upgrade the behavioural intelligence of robots.The key is to learn and store Q-value function based on adaptive growth of the structure and online learning of the parameters,to make robots learn the behavioral strategy autonomously and incrementally in unknown environment.Firstly,approximate linear independence(ALD)criterion is used to online increase the network nodes,thus the memory capacity of robots can grow adaptively along with the expansion of state space.The new added nodes change the inner connection of network topology.Kernel recursive least square(KRLS)algorithm is used to update the connection of network topology and its parameters,therefore the robot can extend and optimize its behavioral strategy constantly.Besides,L2 regularization term is integrated to KRLS algorithm to avoid the overfitting problem,which forms the L2 constrained KRLS(L2 KRLS)algorithm.The experimental results show that IRBFN-QL algorithm can realize autonomous interaction between the robot and the unknown environment and gradually improve the navigation behavior ability of mobile robot in corridor environments.

作者胡艳明李德才何玉庆韩建达 HU Yanming;LI Decai;HE Yuqing;HAN Jianda(The State Key Laboratory of Robotics,Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang 110016,China;Institutes for Robotics and Intelligent Manufacturing,Chinese Academy of Sciences,Shenyang 110016,China;University of Chinese Academy of Sciences,Beijing 100049,China;College of Artificial Intelligence,Nankai University,Tianjing 300071,China)

机构地区中国科学院沈阳自动化研究所机器人学国家重点实验室中国科学院机器人与智能制造创新研究院中国科学院大学南开大学人工智能学院

出处《机器人》 EI CSCD 北大核心 2019年第5期562-573,共12页 Robot

基金国家自然科学基金(U1608253,91748208)

关键词核方法最小二乘算法增量式学习移动机器人 Q学习 kernel method least square algorithm incremental learning mobile robot Q learning

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置] TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介胡艳明(1991–),男,博士生.研究领域:机器人学习,路径规划;李德才(1983–),男,博士,副研究员.研究领域:无人船,无人车;通信作者:何玉庆(1980–),男,博士,研究员.研究领域:无人机,海陆空协作.heyuqing@sia.cn

引文网络
相关文献

参考文献1

1胡启祥,瞿心昱.内部动机驱动的机器人未知环境在线自主学习[J].计算机工程与应用,2014,50(4):110-113. 被引量：2

二级参考文献6

1Weng Juyang, Luciw M D, Zhang Qi.Brain-like emergent temporal processing:emergent open states[J].IEEE Trans- actions on Autonomous Mental Development,2013,5(2): 89-116.
2Brooks R, Breazeal C, Irie R, et al.Alternative essences of intelligence[C]//Proceedings of the American Association of Artificial Intelligence.Madison, Wisconsin: MIT Press, 1998.
3Gordon S M, Kawamura K, Wilkes D M.Neuromorphically inspired appraisal-based decision making in a cognitive robot[J].IEEE Trans on Autonomous Mental Dev,2010, 2(1):17-39.
4Pfeifer R,Bongard J C.How the body shapes the way we think: a new view of intelligence[M].Cambridge, MA: MIT Press, 2006.
5Cederborg T, Oudeyer P Y.From language to motor gavagai: unified imitation learning of multiple linguistic and non- linguistic sensorimotor skills[J].IEEE Transactions on Au- tonomous Mental Development,2013,5(3) :222-239.
6Shen Furao, Ouyang Qiubao, Kasai W, et al.A general associative memory based on self-organizing incremental neural network[J].Neurocomputing, 2013,104 : 57-71.

共引文献1

1杨梅.高职学生学习的内部动机及其培养[J].吉林广播电视大学学报,2019(2):44-45. 被引量：6

同被引文献78

1游航航,余敏建,吕艳,杨海燕,韩其松.基于改进灰狼算法优化的UKF在空战轨迹预测中的应用[J].战术导弹技术,2020(1):91-98. 被引量：8
2刘连,王孝通.基于变分贝叶斯推断的字典学习算法[J].控制与决策,2020,35(2):469-473. 被引量：7
3杨飞,唐乾,林果园.带加性时变时滞的不确定神经网络鲁棒散耗性研究[J].计算机应用研究,2020,37(1):118-122. 被引量：1
4常宝娴,丁洁,朱俊武,章永龙.未知环境下机器人Q学习覆盖算法[J].南京理工大学学报,2013,37(6):792-798. 被引量：2
5王俊松,高志伟.基于RBF神经网络的网络流量建模及预测[J].计算机工程与应用,2008,44(13):6-7. 被引量：60
6王超,郭九霞,沈志鹏.基于基本飞行模型的4D航迹预测方法[J].西南交通大学学报,2009,44(2):295-300. 被引量：82
7谭伟,陆百川,黄美灵.神经网络结合遗传算法用于航迹预测[J].重庆交通大学学报（自然科学版）,2010,29(1):147-150. 被引量：26
8甘旭升,端木京顺,孟月波,丛伟.基于粒子群优化的WNN飞行数据气动力建模[J].航空学报,2012,33(7):1209-1217. 被引量：15
9谢丽,张军峰,隋东,辛正伟.基于交互式多模型滤波算法的航迹预测[J].航空计算技术,2012,42(5):68-70. 被引量：10
10杜明博,梅涛,陈佳佳,赵盼,梁华为,黄如林,陶翔.复杂环境下基于RRT的智能车辆运动规划算法[J].机器人,2015,37(4):443-450. 被引量：104

引证文献7

1任楷.基于增量切空间校准的心电图大数据散点图特征选择系统设计[J].电子设计工程,2020,28(22):38-42. 被引量：1
2XI Zhifei,XU An,KOU Yingxin,LI Zhanwu,YANG Aiwu.Target maneuver trajectory prediction based on RBF neural network optimized by hybrid algorithm[J].Journal of Systems Engineering and Electronics,2021,32(2):498-516. 被引量：12
3于舜.基于RBF算法的建构式英语学习平台信息化实践探索[J].微型电脑应用,2021,37(6):153-156.
4胡艳明,华炜.人在环路的机器人在线可持续示教学习[J].无人系统技术,2021,4(4):67-76. 被引量：1
5宋启松,李少波,李志昂,胡建军.移动机器人避障的机器学习算法研究[J].机械设计与制造,2022(3):272-275. 被引量：6
6段书用,章霖鑫,韩旭,刘桂荣.具有光滑-直行功能的Q-Learning路径优化算法[J].机械工程学报,2022,58(11):72-87. 被引量：1
7徐胜超,邓斌涛.基于云安全模型的层次泛函网络整体学习算法[J].计算机与数字工程,2022,50(7):1405-1409.

二级引证文献21

1于军琪,杨思远,赵安军,高之坤.基于神经网络的建筑能耗混合预测模型[J].浙江大学学报（工学版）,2022,56(6):1220-1231. 被引量：15
2赵秀丽.心电图室工作流程的优化与管理成效研究[J].中国卫生产业,2022,19(8):63-66.
3李海君,宋超,赵建忠.基于CA-RBF神经网络的导弹健康状态预测[J].航空兵器,2022,29(5):107-113. 被引量：1
4袁昊,马尽文.RPCL算法的理论发展和应用[J].信号处理,2023,39(1):176-190.
5查荣瑞,马云华,燕翔,郑霜.基于场景理解与改进型BUG算法的移动机器人避障[J].计算机测量与控制,2023,31(3):228-234. 被引量：4
6李海君,王文双,赵建忠.基于FA-RBF神经网络的导弹导引系统状态预测[J].弹箭与制导学报,2023,43(1):1-7. 被引量：2
7张迪,刘婷婷,宋家友.基于动态规划的无人机编队最优协同容错控制[J].电光与控制,2023,30(4):34-39. 被引量：5
8李晓理,刘明华,王康,刘志强,李桂海.冶炼烟气制酸技术及控制研究进展[J].北京工业大学学报,2023,49(4):475-484. 被引量：11
9李搴曦,孙晓明,江晗慧,吴爱茹,傅隆生,李瑞.基于YOLOv4-tiny的设施番茄智能喷药无人车设计与试验[J].智能化农业装备学报（中英文）,2023,4(2):44-52. 被引量：7
10周晖,赵玲峰.融合嵌入式视觉与激光测距的机器人自主避障方法[J].机械设计与研究,2023,39(2):26-29. 被引量：7

1庞智华,齐臣坤.一种鲁棒的单目视觉里程计算法[J].计算机工程,2020,46(12):80-87. 被引量：2
2邓大勇,吴越,刘月铮.增量式概念漂移适应与收敛[J].浙江师范大学学报（自然科学版）,2021,44(2):156-163. 被引量：2
3中北大学学报2009年总目次[J].中北大学学报（自然科学版）,2009,30(6).
4雷显臻.计算机技术在建筑工程设计中的应用研究[J].江西建材,2021(3):96-97. 被引量：4
5周鹏,武延军,赵琛.一种融合程序员和神经网络的自动化程序生成方法[J].计算机研究与发展,2021,58(3):638-650.
6韩敏,马俊珠,任伟杰,钟凯.基于核自适应滤波器的时间序列在线预测研究综述[J].自动化学报,2021,47(4):730-746. 被引量：12
7梁裕卿,吉久茂,杨佳蕾,张东升,王珂,王凌宇.基于人工智能的BIM疏散设计自动化方法[J].图学学报,2021,42(2):299-306. 被引量：7
8葛婷,詹天明,李勤丰,牟善祥.基于核磁共振图像的脑肿瘤分割方法研究[J].南京理工大学学报,2021,45(2):179-188. 被引量：5
9唐攀.关于未知环境下多无人机协同搜索动态目标的研究[J].科学与信息化,2021(12):11-12.
10张平(文/图).TLC、QLC皆有进展从ISSCC看2021年NAND技术走向[J].微型计算机,2021(9):93-98.

机器人

2019年第5期

浏览历史

内容加载中请稍等...

基于增量式RBF网络的Q学习算法被引量：7

参考文献1

二级参考文献6

共引文献1

同被引文献78

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于增量式RBF网络的Q学习算法 被引量：7

参考文献1

二级参考文献6

共引文献1

同被引文献78

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于增量式RBF网络的Q学习算法被引量：7