摘要
针对水下无人航行器路径规划中强化学习方法存在训练不稳定、时间长的弊端,提出了一种课程式双重深度Q学习网络(DQN)算法。该算法融合经验回放池技术,有效缩短了训练时间,并消除了Q学习网络引起的最大化偏差问题。同时,结合课程式学习改进双重DQN算法,加快了学习收敛速度。通过静态、动态障碍物环境的水下无人航行器路径规划仿真结果表明,所提出的课程式双重DQN算法可行、有效。该实验仿真研究可培养学生开展独立科学研究的能力。
For unmanned underwater vehicle(UUV), there are disadvantages such as unstable training and long training time using reinforcement learning, a curriculum double deep Q network(Double DQN) algorithm is proposed for UUV’s path planning. It incorporates experience playback pool technology to effectively shorten the training time, and eliminates the maximum deviation caused by Q learning. Meanwhile, the curriculum-based learning is designed to improve convergence rate for the double DQN algorithm. By UUV’s global path planning simulations under static and dynamic environments, the effectiveness of the curriculum Double DQN algorithm is verified. This simulation experiment has effectively cultivated students’ independent research ability.
作者
王莹莹
周佳加
高峰
管凤旭
WANG Yingying;ZHOU Jiajia;GAO Feng;GUAN Fengxu(College of Intelligent Systems Science and Engineering,Harbin Engineering University,Harbin 150001,China)
出处
《实验室研究与探索》
CAS
北大核心
2022年第3期244-248,共5页
Research and Exploration In Laboratory
基金
国家自然科学基金项目(51609048,62071138)
哈尔滨工程大学本科教学改革研究项目(JG2019B11)。
关键词
水下无人航行器
路径规划
双重深度Q网络
课程式学习
unmanned underwater vehicle(UUV)
path planning
double deep Q network
curriculum learning
作者简介
王莹莹(1982-),女,黑龙江哈尔滨人,硕士,工程师,主要从事自动化技术与工程教学方面研究。Tel.:0451-82569722,E-mail:w_winny@hrbeu.edu.cn;通信作者:周佳加(1982-),男,浙江杭州人,博士,副教授,主要从事水下机器人智能控制技术等方面研究。Tel.:0451-82569722,E-mail:zhoujiajia@hrbeu.edu.cn。