期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
1
作者
王科平
李宏涛
+1 位作者
王田
杨艺
《计算机集成制造系统》
北大核心
2025年第10期3762-3772,共11页
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可...
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可观测马尔可夫决策过程。其次,将奖励引入到保守优势学习中,在此基础上重新定义了优势学习算子,并参与到TD误差的更新,从而根据回放经验中的奖励值增强对动作差距非线性的学习能力。最后,在Gazebo平台设计了多种动态实验场景,与主流深度强化学习算法进行对比实验。仿真实验结果表明,所提算法的样本利用率优于其他算法,在运行时间、移动步数以及导航成功率等指标上也具有整体优势。最后,在真实场景下进行了测试,进一步验证了所提算法的可行性和有效性。
展开更多
关键词
动态场景
路径规划
深度强化
学习
奖励引导的保守优势学习
动作差距
在线阅读
下载PDF
职称材料
题名
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
1
作者
王科平
李宏涛
王田
杨艺
机构
河南理工大学电气工程与自动化学院
北京航空航天大学人工智能研究院
出处
《计算机集成制造系统》
北大核心
2025年第10期3762-3772,共11页
基金
国家自然科学基金资助项目(61972016)。
文摘
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可观测马尔可夫决策过程。其次,将奖励引入到保守优势学习中,在此基础上重新定义了优势学习算子,并参与到TD误差的更新,从而根据回放经验中的奖励值增强对动作差距非线性的学习能力。最后,在Gazebo平台设计了多种动态实验场景,与主流深度强化学习算法进行对比实验。仿真实验结果表明,所提算法的样本利用率优于其他算法,在运行时间、移动步数以及导航成功率等指标上也具有整体优势。最后,在真实场景下进行了测试,进一步验证了所提算法的可行性和有效性。
关键词
动态场景
路径规划
深度强化
学习
奖励引导的保守优势学习
动作差距
Keywords
dynamic scenarios
path planning
deep reinforcement learning
reward guided conservative advantage learning
action gap
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
王科平
李宏涛
王田
杨艺
《计算机集成制造系统》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部