期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 经验回放
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:10
2
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定策略梯度算法
在线阅读 下载PDF
深度确定性策略梯度算法优化 被引量:2
3
作者 刘洋 李建军 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2020年第6期545-549,共5页
针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于排序优先性机制求得优先级对经验采样,使用得到的样本训练学习网络.在仿真环境中进行的对比实验表明:与深度确定性策略梯度算法和基于时间差分误差的深度确定性策略梯度算法相比,该方法能够减少训练的时间、提高系统的学习能力. 展开更多
关键词 强化学习 深度确定策略梯度 复合优先经验回放 立即回报 时间差分误差
在线阅读 下载PDF
MADDPG算法并行优先经验回放机制 被引量:9
4
作者 高昂 董志明 +2 位作者 李亮 宋敬华 段莉 《系统工程与电子技术》 EI CSCD 北大核心 2021年第2期420-433,共14页
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分... 多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分析算法框架及训练方法,针对算法集中式训练、分布式执行的特点,采用并行方法完成经验回放池数据采样,并在采样过程中引入优先回放机制,实现经验数据并行流动、数据处理模型并行工作、经验数据优先回放。分别在OpenAI多智能体对抗、合作两类典型环境中,从训练轮数、训练时间两个维度对改进算法进行了对比验证,结果表明,并行优先经验回放机制的引入使得算法性能提升明显。 展开更多
关键词 多智能体系统 深度强化学习 并行方法 优先经验回放 深度确定策略梯度
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
5
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于多智能体深度强化学习的多船协同避碰策略
6
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能体Softmax深层双确定策略梯度
在线阅读 下载PDF
自注意力机制结合DDPG的机器人路径规划研究 被引量:4
7
作者 王凤英 陈莹 +1 位作者 袁帅 杜利明 《计算机工程与应用》 CSCD 北大核心 2024年第19期158-166,共9页
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能... 为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中。在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力。将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励。通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点。 展开更多
关键词 深度强化学习 深度确定策略梯度算法(DDPG) 后见经验算法(HER) 自注意力机制 机器人路径规划
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:3
8
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定策略梯度(DDPG)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
基于PD3PG的无人驾驶行为决策仿真
9
作者 曹克让 王涵 +2 位作者 刘亚茹 范慧杰 梁琳琦 《计算机工程与设计》 北大核心 2025年第4期1149-1156,共8页
为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG... 为提高无人驾驶车辆的行为决策控制能力,将深度强化学习中的DDPG算法应用到无人驾驶行为决策中。提出一种将混合优先经验回放机制以及决斗网络结合的确定性策略梯度算法PD3PG。构建无人驾驶行为决策模型,设计合理的奖励函数。提出PD3PG算法,提高重要经验的利用率以及加快神经网络的训练速度。通过仿真平台TORCS,验证了PD3PG算法相比于DDPG算法拥有更快的收敛速度,更高的回合奖励,以及更加稳定的偏移量,行为决策控制效果更加优秀。 展开更多
关键词 深度强化学习 深度确定策略梯度算法 无人驾驶 行为决策 奖励函数 经验回放 决斗网络
在线阅读 下载PDF
改进DDPG算法在外骨骼机械臂轨迹运动中的应用 被引量:11
10
作者 苏杰 刘光宇 +1 位作者 暨仲明 黄雨梦 《传感器与微系统》 CSCD 北大核心 2023年第2期149-152,160,共5页
针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策... 针对现阶段外骨骼机器人轨迹运动时出现效果不佳的问题,提出了基于优先经验回放与分区奖励(PERDA)融合的深度确定性策略梯度(DDPG)强化学习算法,即PERDA-DDPG。该方法利用时间差分误差(TD-errors)的大小对经验排序,改变了原始采样的策略。此外,相较于以往二值奖励函数,本文根据物理模型提出针对化的分区奖励。在Open AI Gym平台上实现仿真环境,实验结果表明:改进的算法收敛速度提升了约9.2%,学习过程更加稳定。 展开更多
关键词 外骨骼机械臂 深度强化学习 优先经验回放与分区奖励 深度确定策略梯度
在线阅读 下载PDF
改进TD3算法在四旋翼无人机避障中的应用 被引量:9
11
作者 唐蕾 刘广钟 《计算机工程与应用》 CSCD 北大核心 2021年第11期254-259,共6页
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradi... 为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。 展开更多
关键词 双延迟深度确定策略梯度(TD3) 优先经验回放 避障 四旋翼无人机
在线阅读 下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制 被引量:2
12
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
基于TD3-RRT的特殊环境下USV路径规划算法研究
13
作者 陈际同 周佳加 +1 位作者 吴迪 江海龙 《系统仿真学报》 2025年第11期2888-2903,共16页
面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep dete... 面对多障碍、大尺寸障碍、狭窄通道等特殊环境下的USV路径规划问题,快速扩展随机树算法(rapidly-exploring random trees,RRT)存在采样基数大、规划成功率低、规划路径曲折等缺点。基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)提出一种全局路径规划算法(TD3-RRT)。结合RRT算法与深度强化学习建立USV路径搜索模型,利用前视探测感知环境以自适应调整扩展步长,通过策略网络输出路径搜索方向,解决RRT算法扩展盲目的问题;改进后见经验回放策略,通过重选虚拟目标、双经验回放池采样等策略以增强复杂环境下路径搜索能力;通过奖励函数提高规划路径质量,加快路径搜索速度。实验结果表明:不同环境下TD3-RRT相比当前主流算法能够有效提高规划成功率,优化转向角度、路径长度和规划时间,证明了改进算法能有效加快路径搜索速度并提高路径质量,且对不同环境具有良好适应性。 展开更多
关键词 双延迟深度确定策略梯度算法 路径规划 特殊环境 快速扩展随机树算法 USV 后见经验回放
在线阅读 下载PDF
基于改进DDPG的多能园区典型日调度研究 被引量:12
14
作者 蒋明喆 成贵学 赵晋斌 《电网技术》 EI CSCD 北大核心 2022年第5期1867-1876,共10页
电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样... 电-气-热综合能源系统(power gas heat integrated energy system,IPGHES)中可再生能源出力的波动性、负荷需求的随机性、热水环流的动态特性给调度过程带来了诸多挑战,传统的随机调度方法无法适应综合能源系统负荷和可再生能源的多样性。针对以上问题,提出一种基于改进深度确定性策略梯度(improved deep deterministic policy gradient,IDDPG)算法的典型日调度方法,灵活处理供需过程中的随机性问题。首先将优先级经验回放(prioritized experience replay,PER)机制加入到DDPG的经验池中以区分不同经验的价值,并将采用方差递减高斯过程的OU随机噪声加入到策略网络参数向量中,提高探索性能,使用二阶振荡贝叶斯(second order oscillatory-Bayesian,SOO-Bayes)算法对结构参数进行调节,然后构建以能源交换、设备折旧、供需不平衡量为成本的与IDDPG数据交互的园区动态IPGHES模型后,定义状态空间、调度动作以及奖励函数,继而根据IDDPG对工作日与双休日进行决策调度分析与比对,最后采用某高校实际微电网算例证明所提调度方法在工作日和双休日都比随机调度、Cplex求解器调度和传统的DDPG调度方法具有更好的效果。 展开更多
关键词 综合能源系统 深度确定策略梯度 优先经验回放 OU随机噪声 二阶振荡贝叶斯
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部