期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验...
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
展开更多
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断
双
Q学习
双
经验
回放
池
在线阅读
下载PDF
职称材料
基于自适应探索DDQN的移动机器人路径规划
被引量:
2
2
作者
冷忠涛
张烈平
+2 位作者
彭建盛
王艺霖
张翠
《电子测量技术》
北大核心
2024年第22期84-93,共10页
针对传统双深度Q网络算法在路径规划中探索和利用分配不平衡,数据利用不充分等问题,提出了一种改进的DDQN路径规划算法。首先,在自适应探索策略中引入探索成功率的概念,将训练过程分为探索环境和利用环境两个阶段,合理分配探索和利用。...
针对传统双深度Q网络算法在路径规划中探索和利用分配不平衡,数据利用不充分等问题,提出了一种改进的DDQN路径规划算法。首先,在自适应探索策略中引入探索成功率的概念,将训练过程分为探索环境和利用环境两个阶段,合理分配探索和利用。其次,通过双经验池混合采样机制,将经验数据按照奖励大小进行分区采样,确保有利数据的利用度达到最大。最后,设计了基于人工势场的奖励函数,使机器人能获得更多的单步奖励,有效改善了奖励稀疏的问题。实验结果表明,所提出的算法相比传统DDQN算法和基于经验分区和多步引导的DDQN算法能获得更高的奖励值,成功率更高,规划时间和步数也更短,算法整体性能更加优越。
展开更多
关键词
路径规划
DDQN
自适应探索
双经验池
人工势场
在线阅读
下载PDF
职称材料
题名
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
机构
武汉科技大学计算机科学与技术学院
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
出处
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
基金
国家自然科学基金资助项目(61572381)
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).
文摘
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断
双
Q学习
双
经验
回放
池
Keywords
deep deterministic policy gradient
TD3 algorithm
deep reinforcement learning
noise flow
multi-step clipped double Q-learning
double experience replay buffers
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于自适应探索DDQN的移动机器人路径规划
被引量:
2
2
作者
冷忠涛
张烈平
彭建盛
王艺霖
张翠
机构
桂林理工大学广西高校先进制造与自动化技术重点实验室
桂林航天工业学院广西特种工程装备与控制重点实验室
河池学院广西高校人工智能与信息处理重点实验室
桂林明富机器人科技有限公司
南宁理工学院信息工程学院
出处
《电子测量技术》
北大核心
2024年第22期84-93,共10页
基金
国家自然科学基金(62063006)
广西科技重大专项(2022AA05002)
广西高校人工智能与信息处理重点实验室项目(2022GXZDSY003)资助。
文摘
针对传统双深度Q网络算法在路径规划中探索和利用分配不平衡,数据利用不充分等问题,提出了一种改进的DDQN路径规划算法。首先,在自适应探索策略中引入探索成功率的概念,将训练过程分为探索环境和利用环境两个阶段,合理分配探索和利用。其次,通过双经验池混合采样机制,将经验数据按照奖励大小进行分区采样,确保有利数据的利用度达到最大。最后,设计了基于人工势场的奖励函数,使机器人能获得更多的单步奖励,有效改善了奖励稀疏的问题。实验结果表明,所提出的算法相比传统DDQN算法和基于经验分区和多步引导的DDQN算法能获得更高的奖励值,成功率更高,规划时间和步数也更短,算法整体性能更加优越。
关键词
路径规划
DDQN
自适应探索
双经验池
人工势场
Keywords
path planning
DDQN
self-adaptive exploration
double experience pool
artificial potential field
分类号
TP242 [自动化与计算机技术—检测技术与自动化装置]
TN711 [电子电信—电路与系统]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020
0
在线阅读
下载PDF
职称材料
2
基于自适应探索DDQN的移动机器人路径规划
冷忠涛
张烈平
彭建盛
王艺霖
张翠
《电子测量技术》
北大核心
2024
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部