期刊文献+
共找到235篇文章
< 1 2 12 >
每页显示 20 50 100
MEC网络中基于深度确定策略梯度的能效优化
1
作者 陈卡 《火力与指挥控制》 CSCD 北大核心 2024年第7期44-49,共6页
移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度... 移动边缘计算(mobile edge computing,MEC)技术能为用户提供数据处理服务,但MEC服务器的计算资源有限,用户合理地向MEC服务器迁移任务及MEC服务器基于任务要求给用户合理分配资源是提高用户端能效的关键因素。提出基于深度确定策略梯度的能效优化算法(deep deterministic policy gradient-based energy efficiency opti-mization,DDPG-EEO)。在满足时延要求的前提下,建立关于任务卸载率和资源分配策略的最大化能效的优化问题。再将优化问题描述成马尔可夫决策过程(Markov decision process,MDP),并利用深度确定策略梯度求解。仿真结果表明,DDPG-EEO算法降低了UTs端的能耗,并提高了任务完成率。 展开更多
关键词 移动边缘计算 任务卸载 资源分配 强化学习 深度确定策略梯度
在线阅读 下载PDF
CR-NOMA中基于深度确定策略梯度的能效优化策略
2
作者 张云 《电信科学》 北大核心 2024年第5期112-120,共9页
利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深... 利用认知无线电非正交多址接入(cognitive radio non-orthogonal multiple access,CR-NOMA)技术可缓解频谱资源短缺问题,提升传感设备的吞吐量。传感设备的能效问题一直制约着传感设备的应用。为此,针对CR-NOMA中的传感设备,提出基于深度确定策略梯度的能效优化(deep deterministic policy gradientbased energy efficiency optimization,DPEE)算法。DPEE算法通过联合优化传感设备的传输功率和时隙分裂系数,提升传感设备的能效。将能效优化问题建模成马尔可夫决策过程,再利用深度确定策略梯度法求解。最后,通过仿真分析了电路功耗、时隙时长和主设备数对传感能效的影响。仿真结果表明,能效随传感设备电路功耗的增加而下降。此外,相比于基准算法,提出的DPEE算法提升了能效。 展开更多
关键词 传感设备 能量采集 认知无线电非正交多址接入 能效 深度确定策略梯度
在线阅读 下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:25
3
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
在线阅读 下载PDF
融合引力搜索的双延迟深度确定策略梯度方法 被引量:3
4
作者 徐平安 刘全 +1 位作者 郝少璞 张立华 《软件学报》 EI CSCD 北大核心 2023年第11期5191-5204,共14页
近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性... 近年来,深度强化学习在复杂控制任务中取得了令人瞩目的效果,然而由于超参数的高敏感性和收敛性难以保证等原因,严重影响了其对现实问题的适用性.元启发式算法作为一类模拟自然界客观规律的黑盒优化方法,虽然能够有效避免超参数的敏感性,但仍存在无法适应待优化参数量规模巨大和样本使用效率低等问题.针对以上问题,提出融合引力搜索的双延迟深度确定策略梯度方法(twin delayed deep deterministic policy gradient based on gravitational search algorithm,GSA-TD3).该方法融合两类算法的优势:一是凭借梯度优化的方式更新策略,获得更高的样本效率和更快的学习速度;二是将基于万有引力定律的种群更新方法引入到策略搜索过程中,使其具有更强的探索性和更好的稳定性.将GSA-TD3应用于一系列复杂控制任务中,实验表明,与前沿的同类深度强化学习方法相比,GSA-TD3在性能上具有显著的优势. 展开更多
关键词 深度强化学习 元启发式算法 引力搜索 确定策略梯度 策略搜索
在线阅读 下载PDF
基于深度确定策略梯度算法的主动配电网协调优化 被引量:38
5
作者 龚锦霞 刘艳敏 《电力系统自动化》 EI CSCD 北大核心 2020年第6期113-120,共8页
将新一代人工智能在智能电网和能源互联网中进行应用,实现高比例可再生能源及时有效接入电网,文中基于深度学习中的深度确定策略梯度(DDPG)算法实现主动配电网的优化运行。首先,构造了含多微电网的主动配电网优化模型的DDPG回报函数,使... 将新一代人工智能在智能电网和能源互联网中进行应用,实现高比例可再生能源及时有效接入电网,文中基于深度学习中的深度确定策略梯度(DDPG)算法实现主动配电网的优化运行。首先,构造了含多微电网的主动配电网优化模型的DDPG回报函数,使主动配电网的节点电压总偏差和线损最小,最大限度地降低微电网功率调节量的变化以减小对微电网运行的影响,同时维持联络线功率平衡以减小对配电网的影响。然后,分析了主动配电网优化控制的DDPG样本数据处理、回报函数设计、模型训练和学习过程。最后,通过改进IEEE 14节点算例仿真验证了DDPG算法的有效性。 展开更多
关键词 深度确定策略梯度 主动配电网 深度强化学习 协调优化
在线阅读 下载PDF
不完全信息下基于多代理深度确定策略梯度算法的发电商竞价策略 被引量:8
6
作者 员江洋 杨明 +3 位作者 刘宁宁 张长行 黄诗颖 朱青 《电网技术》 EI CSCD 北大核心 2022年第12期4832-4842,共11页
在电力现货市场中,发电商竞价行为受多种因素综合影响,且由于信息受限无法做出最优决策,难以实现自身收益最大化。将发电商竞价决策行为建模为马尔科夫博弈过程,提出了基于多代理模型的发电商日前市场竞价模型,应用多代理深度确定性策... 在电力现货市场中,发电商竞价行为受多种因素综合影响,且由于信息受限无法做出最优决策,难以实现自身收益最大化。将发电商竞价决策行为建模为马尔科夫博弈过程,提出了基于多代理模型的发电商日前市场竞价模型,应用多代理深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法,分别在IEEE-3节点算例和IEEE-30节点算例模拟发电侧竞价行为。算例分析表明,所提模型通信开销低、训练结果良好,可以在不完全信息条件下提高发电商收益,并实现发电侧报价的激励相容。 展开更多
关键词 电力现货市场 多代理模型 不完全信息 多代理深度确定策略梯度 最优报价策略 激励相容
在线阅读 下载PDF
一种基于改进深度确定性策略梯度的移动机器人路径规划算法
7
作者 张庆玲 倪翠 +1 位作者 王朋 巩慧 《应用科学学报》 北大核心 2025年第3期415-436,共22页
深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数... 深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法采用Actor-Critic框架结构,保证移动机器人运动的连续性。但Critic网络在计算值函数(Q值)时,没有充分考虑各种状态和动作的差异,导致Q值估计不准确;其次,DDPG奖励函数设置过于稀疏,容易导致模型训练时收敛慢;另外,随机均匀采样方式无法高效且充分地利用样本数据。针对上述问题,该文在DDPG的基础上,引入决斗网络来提高Q值的估计精度;优化设计奖励函数以引导移动机器人更加高效合理地运动;将单一经验池分离为双经验池,并采用动态自适应采样机制来提高经验回放的效率。最后,利用机器人操作系统和Gazebo平台搭建的仿真环境进行实验,结果表明,所提算法与DDPG算法相比,训练时间缩短了17.8%,收敛速度提高了57.46%,成功率提高了3%;与其他算法相比,该文所提算法提高了模型训练过程的稳定性,大大提升了移动机器人路径规划的效率和成功率。 展开更多
关键词 路径规划 深度确定策略梯度 决斗网络 经验池分离 动态自适应采样
在线阅读 下载PDF
基于渐近式k-means聚类的多行动者确定性策略梯度算法
8
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
基于深度确定性策略梯度算法的股票投资组合策略研究 被引量:1
9
作者 董小刚 韩元元 秦喜文 《东北师大学报(自然科学版)》 北大核心 2025年第1期29-34,共6页
为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检... 为构建更加全面有效的投资组合,采用了深度确定性策略梯度算法,并在奖励函数中引入了风险衡量指标索提诺比率来实现风险与收益之间的权衡.除基本的股票数据外还将股票市场中的技术指标作为状态的输入,以捕捉股票市场的主要趋势.经数据检验,与其他强化学习算法对比,改进奖励函数的DDPG算法能够在控制风险的同时得到较高收益,有效地实现了风险的分散和投资组合的稳健性. 展开更多
关键词 股票投资组合 深度强化学习 索提诺比率 深度确定策略梯度
在线阅读 下载PDF
改进型深度确定性策略梯度的无人机路径规划
10
作者 张森 代强强 《系统仿真学报》 北大核心 2025年第4期875-881,共7页
针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策... 针对无人机在复杂环境下进行路径规划时,存在收敛性差和无效探索等问题,提出一种改进型深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法。采用双经验池机制,分别存储成功经验和失败经验,算法能够利用成功经验强化策略优化,并从失败经验中学习避免错误路径;引入人工势场法为规划增加引导项,与随机采样过程中的探索噪声动作相结合,对所选动作进行动态整合;通过设计组合奖励函数,采用方向、距离、障碍躲避及时间奖励函数实现路径规划的多目标优化,并解决奖励稀疏问题。实验结果表明:该算法的奖励和成功率能够得到显著提高,且能够在更短的时间内达到收敛。 展开更多
关键词 无人机 深度强化学习 路径规划 深度确定策略梯度 人工势场法
在线阅读 下载PDF
基于深度确定性策略梯度的星地融合网络可拆分任务卸载算法 被引量:1
11
作者 宋晓勤 吴志豪 +4 位作者 赖海光 雷磊 张莉涓 吕丹阳 郑成辉 《通信学报》 EI CSCD 北大核心 2024年第10期116-128,共13页
为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服... 为解决低轨卫星网络中星地链路任务卸载时延长的问题,提出了一种基于深度确定性策略梯度(DDPG)的星地融合网络可拆分任务卸载算法。针对不同地区用户建立了星地融合网络的多接入边缘计算结构模型,通过应用多智能体DDPG算法,将系统总服务时延最小化的目标转化为智能体奖励收益最大化。在满足子任务卸载约束、服务时延约束等任务卸载约束条件下,优化用户任务拆分比例。仿真结果表明,所提算法在用户服务时延和受益用户数量等方面优于基线算法。 展开更多
关键词 星地融合网络 深度确定策略梯度 资源分配 多接入边缘计算
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:2
12
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 双延迟深度确定策略梯度(TD3) 受电弓主动控制
在线阅读 下载PDF
基于LSTM车速预测和深度确定性策略梯度的增程式电动汽车能量管理 被引量:1
13
作者 路来伟 赵红 +1 位作者 徐福良 罗勇 《汽车技术》 CSCD 北大核心 2024年第8期27-37,共11页
为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真... 为提高增程式电动汽车的能量管理性能,首先利用长短时记忆(LSTM)神经网络进行车速预测,然后计算出预测时域内的需求功率,并将其与当前时刻的需求功率共同输入深度确定性策略梯度(DDPG)智能体,由智能体输出控制量,最后通过硬件在环仿真验证了控制策略的实时性。结果表明,采用所提出的LSTM-DDPG能量管理策略相对于DDPG能量管理策略、深度Q网络(DQN)能量管理策略、功率跟随控制策略在世界重型商用车辆瞬态循环(WTVC)工况下的等效燃油消耗量分别减少0.613 kg、0.350 kg、0.607 kg,与采用动态规划控制策略时的等效燃油消耗量仅相差0.128 kg。 展开更多
关键词 增程式电动汽车 长短时记忆神经网络 深度强化学习 深度确定策略梯度
在线阅读 下载PDF
基于乐观探索的双延迟深度确定性策略梯度 被引量:1
14
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 双延迟深度确定策略梯度 探索策略 乐观探索
在线阅读 下载PDF
计及NWP风速横纵向误差的循环确定性策略梯度风速修正模型 被引量:1
15
作者 黄南天 唐立鹏 戴千斌 《电力系统保护与控制》 EI CSCD 北大核心 2024年第23期10-21,共12页
目前数值天气预报(numerical weatherpr ediction, NWP)风速修正方法大多基于纵向误差的幅值特性评估建模,忽视了NWP风速序列与历史风速序列间超前或延迟效应导致的横向误差对NWP风速修正的潜在影响。因此,提出计及NWP风速横纵向误差的... 目前数值天气预报(numerical weatherpr ediction, NWP)风速修正方法大多基于纵向误差的幅值特性评估建模,忽视了NWP风速序列与历史风速序列间超前或延迟效应导致的横向误差对NWP风速修正的潜在影响。因此,提出计及NWP风速横纵向误差的循环确定性策略梯度(recurrent deterministic policy gradient, RDPG)风速修正模型。首先,基于加权欧式距离相似度确定各个NWP风速待修正点超前/滞后时序区间(lead/lag timing interval, LLTI)边界,构成强相关时序区间。然后,采用LLTI内统计特征代替该区间NWP原始气象特征,并基于沙普利可加性解释法(shapley additive explanation, SHAP)归因理论,根据每个特征的边际贡献评估不同特征对模型输出的影响程度。最后,建立基于RDPG的NWP风速修正模型。通过算例分析,验证了所提方法在超短期、短期预测的不同时间尺度下修正NWP风速的有效性和可行性。 展开更多
关键词 数值天气预报 横向误差 纵向误差 超前/滞后时序区间 循环确定策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
16
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定策略梯度
在线阅读 下载PDF
基于双评论家的多智能体深度确定性策略梯度方法 被引量:5
17
作者 丁世飞 杜威 +2 位作者 郭丽丽 张健 徐晓 《计算机研究与发展》 EI CSCD 北大核心 2023年第10期2394-2404,共11页
在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这... 在现实世界的复杂多智能体环境中,任务的完成通常需要多个智能体之间的相互协作,这促使各种多智能体强化学习方法不断涌现.动作价值函数估计偏差是单智能体强化学习领域中备受关注的一个重要问题,而在多智能体环境中却鲜有研究.针对这一问题,分别从理论和实验上证明了多智能体深度确定性策略梯度方法存在价值函数被高估.提出基于双评论家的多智能体深度确定性策略梯度(multiagent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法,通过在双评论家网络上的最小值操作来避免价值被高估,进一步促进智能体学得最优的策略.此外,延迟行动者网络更新,保证行动者网络策略更新的效率和稳定性,提高策略学习和更新的质量.在多智能体粒子环境和交通信号控制环境上的实验结果证明了所提方法的可行性和优越性. 展开更多
关键词 强化学习 价值估计 双评论家 交通信号控制 多智能体深度确定策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:6
18
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
基于深度确定性策略梯度的热力站一次侧优化控制 被引量:5
19
作者 李琦 韩冰城 《科学技术与工程》 北大核心 2019年第29期193-200,共8页
针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供... 针对热力站供热量与需求量不匹配的现象,提出一种基于深度确定性策略梯度(DDPG)的热力站一次侧优化控制方法。采用LSTM(long short term memory)算法对热力站进行建模,然后结合集中供热系统运行机理,使用DDPG控制算法对热力站一次侧供水流量序列求解。运用包头某热力站的大量历史工况数据,进行仿真实验,结果表明该方法的有效性,一定程度上实现了热力站的按需供热,提高热量的利用率。 展开更多
关键词 深度确定策略梯度 热力站 优化控制 长短时记忆网络
在线阅读 下载PDF
基于深度确定性梯度算法的端到端自动驾驶策略 被引量:1
20
作者 赖晨光 杨小青 +2 位作者 胡博 庞玉涵 邹宏 《重庆理工大学学报(自然科学)》 CAS 北大核心 2023年第1期56-65,共10页
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错... 根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作。同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率。根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率。 展开更多
关键词 自动驾驶 强化学习 深度确定策略梯度 监督式深度强化学习
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部