期刊文献+
共找到212篇文章
< 1 2 11 >
每页显示 20 50 100
一种基于改进深度确定性策略梯度的移动机器人路径规划算法
1
作者 张庆玲 倪翠 +1 位作者 王朋 巩慧 《应用科学学报》 北大核心 2025年第3期415-436,共22页
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数... 深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数设置过于稀疏,容易导致模型训练时收敛慢;另外,随机均匀采样方式无法高效且充分地利用样本数据。针对上述问题,该文在DDPG的基础上,引入决斗网络来提高Q值的估计精度;优化设计奖励函数以引导移动机器人更加高效合理地运动;将单一经验池分离为双经验池,并采用动态自适应采样机制来提高经验回放的效率。最后,利用机器人操作系统和Gazebo平台搭建的仿真环境进行实验,结果表明,所提算法与DDPG算法相比,训练时间缩短了17.8%,收敛速度提高了57.46%,成功率提高了3%;与其他算法相比,该文所提算法提高了模型训练过程的稳定性,大大提升了移动机器人路径规划的效率和成功率。 展开更多
关键词 路径规划 深度确定性策略梯度 决斗网络 经验池分离 动态自适应采样
在线阅读 下载PDF
基于深度确定性策略梯度算法的股票投资组合策略研究 被引量:1
2
作者 董小刚 韩元元 秦喜文 《东北师大学报(自然科学版)》 北大核心 2025年第1期29-34,共6页
为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检... 为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检验,与其他强化学习算法对比,改进奖励函数的DDPG算法能够在控制风险的同时得到较高收益,有效地实现了风险的分散和投资组合的稳健性. 展开更多
关键词 股票投资组合 深度强化学习 索提诺比率 深度确定性策略梯度
在线阅读 下载PDF
改进型深度确定性策略梯度的无人机路径规划
3
作者 张森 代强强 《系统仿真学报》 北大核心 2025年第4期875-881,共7页
针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策... 针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策略优化,并从失败经验中学习避免错误路径;引入人工势场法为规划增加引导项,与随机采样过程中的探索噪声动作相结合,对所选动作进行动态整合;通过设计组合奖励函数,采用方向、距离、障碍躲避及时间奖励函数实现路径规划的多目标优化,并解决奖励稀疏问题。实验结果表明:该算法的奖励和成功率能够得到显著提高,且能够在更短的时间内达到收敛。 展开更多
关键词 无人机 深度强化学习 路径规划 深度确定性策略梯度 人工势场法
在线阅读 下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法 被引量:1
4
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定性策略梯度 资源分配 多接入边缘计算
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:2
5
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 双延迟深度确定性策略梯度(TD3) 受电弓主动控制
在线阅读 下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理 被引量:1
6
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定性策略梯度
在线阅读 下载PDF
基于乐观探索的双延迟深度确定性策略梯度 被引量:1
7
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定性策略梯度 探索策略 乐观探索
在线阅读 下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
8
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定性策略梯度
在线阅读 下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:5
9
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定性策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:6
10
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
基于深度确定性策略梯度的热力站一次侧优化控制 被引量:5
11
作者 李琦 韩冰城 《科学技术与工程》 北大核心 2019年第29期193-200,共8页
针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供... 针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。 展开更多
关键词 深度确定性策略梯度 热力站 优化控制 长短时记忆网络
在线阅读 下载PDF
深度确定性策略梯度算法耦合模型驱动的行人过街仿真
12
作者 宋涛 王彦林 +1 位作者 魏昕恺 韦艳芳 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期651-665,共15页
行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差... 行人仿真在公共安全研究中扮演着重要的角色,但如何增强仿真环境中智能体的真实性一直是一个难题.本工作提出了一种深度确定性策略梯度-行人二维优化速度模型耦合驱动算法,并对无信号交叉口行人过街行为进行仿真.通过构建考虑无速度差项和有速度差项2种行人二维优化速度模型的策略探索方案,揭示出带有速度差项行人二维优化速度模型的耦合驱动算法倾向于灵活地选择相对安全的动作,从而使行人选择动作的策略也更优,达到了完全避免行人碰撞、确保行人安全的功能. 展开更多
关键词 深度确定性策略梯度 二维优化速度模型 碰撞 无信号交叉口 行人仿真
在线阅读 下载PDF
基于深度确定性策略梯度的电网断面极限传输能力动态趋优控制 被引量:14
13
作者 邱高 刘友波 +4 位作者 许立雄 田蓓 吴玫蓉 刘俊勇 税月 《中国电机工程学报》 EI CSCD 北大核心 2021年第15期5128-5138,共11页
电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TT... 电力系统调度中心往往通过控制极限传输能力(total transfer capability,TTC),使之高于传输潮流,以保证运行安全性或扩大断面输电能力。然而,暂态稳定校核使TTC计算和调控均难以满足在线需求。因此文章提出一种基于深度强化学习的动态TTC控制方法。首先基于深度置信网络建立系统稳态状态与TTC的精确非线性映射,将此映射替换TTC控制模型中的复杂部分,建立快速响应的代理辅助模型;然后基于此模型搭建了电力系统与强化学习的快速交互环境;最后采用连续动作空间下的深度确定性策略梯度算法实现了TTC控制的快速决策。以IEEE39节点系统为例的测试结果表明,相较全物理模型的分钟级TTC计算和小时级TTC控制,所提方法仅1s左右即可实现准确的TTC计算和趋优的TTC安全控制决策。 展开更多
关键词 强化学习 深度学习 深度确定性策略梯度 代理辅助模型 极限传输能力
在线阅读 下载PDF
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:11
14
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 双延迟深度确定性策略梯度
在线阅读 下载PDF
风储联合电站实时自调度的高效深度确定性策略梯度算法 被引量:8
15
作者 宋煜浩 魏韡 +2 位作者 黄少伟 吴启仁 梅生伟 《电工技术学报》 EI CSCD 北大核心 2022年第23期5987-5999,共13页
发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信... 发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信息有限,难以准确预测电网电价,风储联合电站实时自调度面临多重不确定性,极具挑战。该文提出高效深度确定性策略梯度(DDPG)算法求取风储联合电站实时自调度策略,实现不依赖预测的场站级在线决策。首先通过Lyapunov优化构建基础策略,得到一个较好的但未必是局部最优的策略;然后,采用基础策略预生成样本,用于初始化经验库,提升搜索效率;接着,应用引入专家机制的DDPG算法,可以训练得到局部最优的自调度策略;最后,算例分析表明,相比于基础调度策略和经典DDPG,该文所提方法能有效提升风储联合电站的平均收益。 展开更多
关键词 风储联合电站 实时自调度 Lyapunov优化 深度确定性策略梯度(DDPG)
在线阅读 下载PDF
基于深度确定性策略梯度的随机路由防御方法 被引量:5
16
作者 徐潇雨 胡浩 +1 位作者 张红旗 刘玉岭 《通信学报》 EI CSCD 北大核心 2021年第6期41-51,共11页
针对现有随机路由防御方法对数据流拆分粒度过粗、对合法的服务质量(QoS)保障效果不佳、对抗窃听攻击的安全性有待提升等问题,提出一种基于深度确定性策略梯度(DDPG)的随机路由防御方法。通过带内网络遥测(INT)技术实时监测并获取网络状... 针对现有随机路由防御方法对数据流拆分粒度过粗、对合法的服务质量(QoS)保障效果不佳、对抗窃听攻击的安全性有待提升等问题,提出一种基于深度确定性策略梯度(DDPG)的随机路由防御方法。通过带内网络遥测(INT)技术实时监测并获取网络状态;通过DDPG方法生成兼顾安全性和QoS需求的随机路由方案;通过P4框架下的可编程交换机执行随机路由方案,实现了数据包级粒度的随机路由防御。实验表明,与其他典型的随机路由方法相比,所提方法在对抗窃听攻击中的安全性和对网络整体QoS的保障效果均有提升。 展开更多
关键词 随机路由 深度确定性策略梯度 窃听攻击 移动目标防御
在线阅读 下载PDF
基于局部策略交互探索的深度确定性策略梯度的工业过程控制方法 被引量:1
17
作者 邓绍斌 朱军 +2 位作者 周晓锋 李帅 刘舒锐 《计算机应用》 CSCD 北大核心 2022年第5期1642-1648,共7页
为了实现对非线性、滞后性和强耦合的工业过程稳定精确的控制,提出了一种基于局部策略交互探索的深度确定性策略梯度(LPIE-DDPG)的控制方法用于深度强化学习的连续控制。首先,使用深度确定性策略梯度(DDPG)算法作为控制策略,从而极大地... 为了实现对非线性、滞后性和强耦合的工业过程稳定精确的控制,提出了一种基于局部策略交互探索的深度确定性策略梯度(LPIE-DDPG)的控制方法用于深度强化学习的连续控制。首先,使用深度确定性策略梯度(DDPG)算法作为控制策略,从而极大地减小控制过程中的超调和振荡现象;同时,使用原控制器的控制策略作为局部策略进行搜索,并以交互探索规则进行学习,提高了学习效率和学习稳定性;最后,在Gym框架下搭建青霉素发酵过程仿真平台并进行实验。仿真结果表明,相较于DDPG,LPIE-DDPG在收敛效率上提升了27.3%;相较于比例-积分-微分(PID),LPIE-DDPG在温度控制效果上有更少的超调和振荡现象,在产量上青霉素浓度提高了3.8%。可见所提方法能有效提升训练效率,同时提高工业过程控制的稳定性。 展开更多
关键词 工业过程控制 深度强化学习 深度确定性策略梯度 局部策略交互探索 青霉素发酵过程
在线阅读 下载PDF
基于深度确定性策略梯度学习的无线反向散射数据卸载优化 被引量:1
18
作者 耿天立 高昂 +2 位作者 王琦 段渭军 胡延苏 《兵工学报》 EI CAS CSCD 北大核心 2021年第12期2655-2663,共9页
无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸... 无线驱动通信网络中,无线设备(WD)可以通过无线反向散射和主动射频传输两种方式进行数据卸载。如何合理分配系统中WD的主动传输和反向散射传输工作模式及其对应的工作时间,从而减小传输延迟、提高传输效率就显得尤为必要。在综合考虑卸载数据量大小、信道条件和WD之间公平性情况下,提出一种基于深度确定性策略梯度(DDPG)的数据卸载方法,在连续动作空间内搜索多个WD的最优时间分配。仿真实验结果表明:DDPG可在有限时间步长内实现算法收敛;由于引入了Jain公平指数,多个WD可同时完成数据卸载;与传统的均分算法、贪心算法对比,DDPG算法可将平均传输延迟减小77.4%和24.2%,可有效提高WD的能耗效率,尤其对于卸载数据量较小的WD效果更加显著。 展开更多
关键词 反向散射 数据卸载 深度确定性策略梯度 强化学习
在线阅读 下载PDF
采用分类经验回放的深度确定性策略梯度方法 被引量:14
19
作者 时圣苗 刘全 《自动化学报》 EI CAS CSCD 北大核心 2022年第7期1816-1823,共8页
深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差... 深度确定性策略梯度(Deep deterministic policy gradient,DDPG)方法在连续控制任务中取得了良好的性能表现.为进一步提高深度确定性策略梯度方法中经验回放机制的效率,提出分类经验回放方法,并采用两种方式对经验样本分类:基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification,TDCDDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification,RC-DDPG).在TDCDDPG和RC-DDPG方法中,分别使用两个经验缓冲池,对产生的经验样本按照重要性程度分类存储,网络模型训练时通过选取较多重要性程度高的样本加快模型学习.在连续控制任务中对分类经验回放方法进行测试,实验结果表明,与随机选取经验样本的深度确定性策略梯度方法相比,TDC-DDPG和RC-DDPG方法具有更好的性能. 展开更多
关键词 连续控制任务 深度确定性策略梯度 经验回放 分类经验回放
在线阅读 下载PDF
基于情节经验回放的深度确定性策略梯度方法 被引量:9
20
作者 张建行 刘全 《计算机科学》 CSCD 北大核心 2021年第10期37-43,共7页
强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效... 强化学习中的连续控制问题一直是近年来的研究热点。深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异。DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法。首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储。然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量。在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Optimization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较。实验结果表明,EER-DDPG方法有更好的性能表现。 展开更多
关键词 深度确定性策略梯度 连续控制任务 经验回放 累积回报 分类经验回放
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部