期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于RGCAL-TD3的奖励引导保守优势学习路径规划方法
1
作者 王科平 李宏涛 +1 位作者 王田 杨艺 《计算机集成制造系统》 北大核心 2025年第10期3762-3772,共11页
针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可... 针对现有基于深度强化学习的路径规划方法在动态场景中样本利用率低下的问题,在双延迟深度确定性策略梯度算法(TD3)基础上,提出一种奖励引导的保守优势学习方法(RGCAL)。首先,鉴于动态场景的部分可观测特性,将路径规划任务建模为部分可观测马尔可夫决策过程。其次,将奖励引入到保守优势学习中,在此基础上重新定义了优势学习算子,并参与到TD误差的更新,从而根据回放经验中的奖励值增强对动作差距非线性的学习能力。最后,在Gazebo平台设计了多种动态实验场景,与主流深度强化学习算法进行对比实验。仿真实验结果表明,所提算法的样本利用率优于其他算法,在运行时间、移动步数以及导航成功率等指标上也具有整体优势。最后,在真实场景下进行了测试,进一步验证了所提算法的可行性和有效性。 展开更多
关键词 动态场景 路径规划 深度强化学习 奖励引导的保守优势学习 动作差距
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部