期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断Q学习 经验回放
在线阅读 下载PDF
基于自适应探索DDQN的移动机器人路径规划 被引量:2
2
作者 冷忠涛 张烈平 +2 位作者 彭建盛 王艺霖 张翠 《电子测量技术》 北大核心 2024年第22期84-93,共10页
针对传统双深度Q网络算法在路径规划中探索和利用分配不平衡,数据利用不充分等问题,提出了一种改进的DDQN路径规划算法。首先,在自适应探索策略中引入探索成功率的概念,将训练过程分为探索环境和利用环境两个阶段,合理分配探索和利用。... 针对传统双深度Q网络算法在路径规划中探索和利用分配不平衡,数据利用不充分等问题,提出了一种改进的DDQN路径规划算法。首先,在自适应探索策略中引入探索成功率的概念,将训练过程分为探索环境和利用环境两个阶段,合理分配探索和利用。其次,通过双经验池混合采样机制,将经验数据按照奖励大小进行分区采样,确保有利数据的利用度达到最大。最后,设计了基于人工势场的奖励函数,使机器人能获得更多的单步奖励,有效改善了奖励稀疏的问题。实验结果表明,所提出的算法相比传统DDQN算法和基于经验分区和多步引导的DDQN算法能获得更高的奖励值,成功率更高,规划时间和步数也更短,算法整体性能更加优越。 展开更多
关键词 路径规划 DDQN 自适应探索 双经验池 人工势场
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部