期刊文献+
共找到124篇文章
< 1 2 7 >
每页显示 20 50 100
基于渐近式k-means聚类的多行动者确定性策略梯度算法
1
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:6
2
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
在线阅读 下载PDF
风储联合电站实时自调度的高效深度确定性策略梯度算法 被引量:8
3
作者 宋煜浩 魏韡 +2 位作者 黄少伟 吴启仁 梅生伟 《电工技术学报》 EI CSCD 北大核心 2022年第23期5987-5999,共13页
发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信... 发展风电等可再生能源对于实现双碳目标具有重要意义,风储联合电站是未来风电接入电网的主要形式。该文研究发电侧商业化运行的风储联合电站的实时自调度问题,目标是使自身的期望收益最大化。由于场站级风电预测误差较大,独立发电商信息有限,难以准确预测电网电价,风储联合电站实时自调度面临多重不确定性,极具挑战。该文提出高效深度确定性策略梯度(DDPG)算法求取风储联合电站实时自调度策略,实现不依赖预测的场站级在线决策。首先通过Lyapunov优化构建基础策略,得到一个较好的但未必是局部最优的策略;然后,采用基础策略预生成样本,用于初始化经验库,提升搜索效率;接着,应用引入专家机制的DDPG算法,可以训练得到局部最优的自调度策略;最后,算例分析表明,相比于基础调度策略和经典DDPG,该文所提方法能有效提升风储联合电站的平均收益。 展开更多
关键词 风储联合电站 实时自调度 Lyapunov优化 深度确定性策略梯度(ddpg)
在线阅读 下载PDF
基于深度确定性策略梯度算法的风光储系统联合调度策略 被引量:10
4
作者 张淑兴 马驰 +3 位作者 杨志学 王尧 吴昊 任洲洋 《中国电力》 CSCD 北大核心 2023年第2期68-76,共9页
针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架... 针对风光储联合系统的调度问题,提出了一种基于深度强化学习的风光储系统联合调度模型。首先,以计划跟踪、弃风弃光以及储能运行成本最小为目标,建立了充分考虑风光储各个场站约束下的联合调度模型。然后,定义该调度模型在强化学习框架下的系统状态变量、动作变量以及奖励函数等,引入了深度确定性策略梯度算法,利用其环境交互、策略探索的机制,学习风光储系统的联合调度策略,以实现对联合系统功率跟踪,减少弃风弃光以及储能充放电。最后,借用西北某地区风电、光伏、跟踪计划的历史数据对模型进行了训练和算例分析,结果表明所提方法可以较好地适应不同时期的风光变化,得到在给定风光下联合系统的调度策略。 展开更多
关键词 风光储联合系统 联合调度策略 确定性 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度确定性策略梯度算法的微电网能量优化调度 被引量:10
5
作者 李瑜 张占强 +1 位作者 孟克其劳 魏皓天 《电子测量技术》 北大核心 2023年第2期73-80,共8页
针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低... 针对微电网中分布式发电设备存在输出不确定性和间歇性问题,以及传统的深度确定性策略梯度算法存在收敛速度慢、鲁棒性差、容易陷入局部最优的缺点。本文提出了一种基于优先经验回放的深度确定性策略梯度算法,以微电网系统运行成本最低为目标,实现微电网的能量优化调度。首先,采用马尔可夫决策过程对微电网优化问题进行建模;其次,采用Sumtree结构的优先经验回放池提升样本利用效率,并且应用重要性采样来改善状态分布对收敛结果的影响。最后,本文利用真实的电力数据进行仿真验证,结果表明,提出的优化调度算法可以有效地学习到使微电网系统经济成本最低的运行策略,所提出的算法总运行时间比传统算法缩短了7.25%,运行成本降低了31.5%。 展开更多
关键词 优先经验回放 微电网能量优化调度 深度确定性策略梯度算法
在线阅读 下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
6
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
7
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
8
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于多智能体深度确定策略梯度算法的有功-无功协调调度模型 被引量:28
9
作者 赵冬梅 陶然 +2 位作者 马泰屹 夏轩 王浩翔 《电工技术学报》 EI CSCD 北大核心 2021年第9期1914-1925,共12页
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解... 实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用多智能体技术,智能组织多种有功调控资源和无功调控资源,建立电网有功-无功协调调度模型;为解决电力系统环境在多智能体探索过程中出现的不稳定问题,采用多智能体深度确定策略梯度算法,设计适用于有功-无功协调调度模型的电力系统多智能体环境,构造智能体状态、动作和奖励函数。通过算例仿真和对比分析,验证所提模型及算法的有效性。 展开更多
关键词 多智能体 多智能体深度确定策略梯度算法 策略迭代 灵活调控资源 有功-无功协调
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
10
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
基于深度强化学习算法的投资组合策略与自动化交易研究 被引量:1
11
作者 杨旭 刘家鹏 +1 位作者 越瀚 张芹 《现代电子技术》 北大核心 2024年第6期154-160,共7页
投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法... 投资组合策略问题是金融领域经久不衰的一个课题,将人工智能技术用于金融市场是信息技术时代一个重要的研究方向。目前的研究较多集中在股票的价格预测上,对于投资组合及自动化交易这类决策性问题的研究较少。文中基于深度强化学习算法,利用深度学习的BiLSTM来预测股价的涨跌,以强化学习的智能体进行观测,更好地判断当期情况,从而确定自己的交易动作;同时,利用传统的投资组合策略来建立交易的预权重,使智能体可以在自动化交易的过程中进行对比,从而不断优化自己的策略选择,生成当期时间点内最优的投资组合策略。文章选取美股的10支股票进行实验,在真实的市场模拟下表明,基于深度强化学习算法的模型累计收益率达到了86.5%,与其他基准策略相比,收益最高,风险最小,具有一定的实用价值。 展开更多
关键词 投资组合策略 自动化交易 深度强化学习 BiLSTM 深度确定性策略梯度(ddpg) 权重对比
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:3
12
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
考虑源荷不确定性下微电网能量调度的深度强化学习策略 被引量:2
13
作者 马冲冲 王一铮 +1 位作者 王坤 冯昌森 《高技术通讯》 CAS 2023年第1期79-87,共9页
针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态... 针对微电网中源荷不确定性问题,本文提出一种基于连续型深度确定性策略梯度(DDPG)算法的微电网能量调度方法。首先,以日运行成本最低为目标构建优化调度模型,并将该调度模型转化成马尔可夫决策过程(MDP),定义了马尔可夫决策模型的状态空间、动作空间和奖励函数。其次,利用长短期记忆(LSTM)神经网络提取环境中时序数据的未来趋势作为状态,从而在连续调度动作空间下改善深度强化学习算法收敛效果。最后,通过训练深度强化学习模型,对比多种算法下最优能量调度策略,验证了本文所提方法的有效性。 展开更多
关键词 微电网 能量管理 强化学习 深度确定性策略梯度(ddpg)
在线阅读 下载PDF
基于变分图自编码器增强的配电通信一体化网络跨域路由算法
14
作者 韩雨阳 于洁潇 +1 位作者 卢和平 杨挺 《电网技术》 北大核心 2025年第10期4267-4276,I0071-I0072,共12页
配网侧分布式源储荷资源的高比例接入要求更高效的通信通道,以实现其可观可控。但目前配电通信骨干网和接入网在网络结构等方面存在显著差异,且未形成统一的资源管理策略,引起跨网传输时延高、资源利用不充分的难题。为此,文章构建了一... 配网侧分布式源储荷资源的高比例接入要求更高效的通信通道,以实现其可观可控。但目前配电通信骨干网和接入网在网络结构等方面存在显著差异,且未形成统一的资源管理策略,引起跨网传输时延高、资源利用不充分的难题。为此,文章构建了一种基于多控制器软件定义网络(software-defined network,SDN)的跨域通信架构,实现对骨干网和接入网资源的统一管理,形成配电通信一体化网络(distribution communication integration network,DCIN)。在此基础上,提出一种面向DCIN的跨域路由算法(DCIN cross-domain routing algorithm,DCRA),采用异构多智能体深度确定性策略梯度(heterogeneous-agent deep deterministic policy gradient,HADDPG)算法和变分图自编码器(variational graph autoencoders,VGAE)优化跨域路由决策,以多约束无环K最短路算法保障域内路由服务质量,从而构建出完整的DCIN路由方案。仿真结果表明,与现有方法相比,所提算法将平均端到端时延降低了至少10.92%,在丢包率、吞吐量和服务中断率等指标上均有较好表现,验证了其在提升跨域资源利用效率方面的卓越成效。 展开更多
关键词 配电通信一体化网络 跨域路由优化 变分图自编码器 异构多智能体深度确定性策略梯度算法
在线阅读 下载PDF
基于DDPG算法的列车节能控制策略研究 被引量:13
15
作者 武晓春 金则灵 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第2期483-493,共11页
随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合... 随着城市范围的扩大和人口数量的增加,建设城市轨道交通成为解决交通拥堵的重要方式,其安全性、准点性和实时性也越来越受到重视。城市轨道交通运行能耗是列车运营成本的重要组成,而牵引能耗是城市轨道交通运行能耗的主要组成部分。合理的列车自动控制(Automatic Train Operation,ATO)策略能够在保证列车安全、准点运行的情况下,根据列车不同的运行状况,输出最优的牵引/制动级位,在一定程度上节省牵引能耗。为有效降低列车牵引能耗,采用深度强化学习中的深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)研究城市轨道交通列车节能控制策略。首先根据动力学方程建立列车运行模型,然后以列车的位置、速度和剩余运行时间作为状态空间,以牵引/制动级位作为动作空间,根据ATO系统功能,以安全性、准点性、停车精度和节能性加权组合为奖励函数,实现列车在与仿真环境交互中学习到最优控制策略。最后以长沙地铁2号线为例进行仿真验证,结果表明该算法相比于DQN算法和动态规划算法,在满足安全、准点运行的情况下牵引能耗减少8.25%和21.7%,证明该算法的优越性,同时在临时调整列车进站时间和列车牵引系统故障后,算法也能够根据列车反馈的运行状态实时调整控制策略,证明该算法的有效性。 展开更多
关键词 城市轨道交通 牵引能耗 深度强化学习 ddpg算法 节能控制策略
在线阅读 下载PDF
动态窗口法引导的TD3无地图导航算法
16
作者 柳佳乐 薛雅丽 +1 位作者 崔闪 洪君 《浙江大学学报(工学版)》 北大核心 2025年第8期1671-1679,共9页
针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)... 针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)引导双延迟确定策略梯度(TD3),提高训练数据的质量.在策略网络中引入长短期记忆神经网络(LSTM),提升智能体对连续导航信息的处理能力.搭建仿真环境训练测试,与其他方法进行对比.实验结果表明,DWA-LSTM TD3在相同的训练步数下能够获得更高的奖励值,提高了导航任务的成功率;导航姿态角的波动范围变化更小,轨迹更平滑,改善机器人的运动安全性能.利用该算法,能够在不同场景下高效完成导航任务.该算法具有很强的泛化能力. 展开更多
关键词 无地图导航 动态窗口法 深度强化学习 双延迟确定策略梯度算法 长短期记忆
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制 被引量:1
17
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(MAddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于深度强化学习的自适应不确定性经济调度 被引量:77
18
作者 彭刘阳 孙元章 +2 位作者 徐箭 廖思阳 杨丽 《电力系统自动化》 EI CSCD 北大核心 2020年第9期33-42,共10页
当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体... 当风电、光伏等间歇性电源大规模接入电力系统时,为应对其出力的不确定性,电力系统经济调度模型需建立在对不确定性建模的基础上,建模精确度将直接影响调度结果的精确度。但当系统同时包含风电、光伏和负荷复杂的不确定性时,对系统整体不确定性进行精确建模显得尤为困难。针对这一问题,引入深度强化学习中深度确定性策略梯度算法,避免对复杂的不确定性进行建模,利用其与环境交互、根据反馈学习改进策略的机制,自适应不确定性的变化。为确保算法适用性,进行了模型泛化方法的设计,针对算法稳定性问题进行了感知-学习比例调整和改进经验回放的机制设计。算例结果表明,所提方法能在自适应系统不确定性的基础上,实现任意场景下的电力系统动态经济调度。 展开更多
关键词 间歇性电源 确定性 动态经济调度 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于遗传算法优化的深度强化学习-PI空气舵伺服系统控制策略 被引量:5
19
作者 洪子祺 许文波 +2 位作者 吕晨 欧阳权 王志胜 《机电工程》 CAS 北大核心 2023年第7期1071-1078,共8页
针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度... 针对传统比例积分控制难以选定控制性能更好参数的问题,以空气舵伺服系统为研究对象,提出了一种基于遗传算法优化的强化学习-PI的控制方法。首先,建立了空气舵伺服系统的数学模型;然后,采用遗传算法优化了PI控制器的初始参数;采用深度确定性策略梯度算法对当前PI控制器进行了实时整定,从而实现了对空气舵伺服系统进行位置指令控制的功能;最后,在Simulink中通过仿真分析,对所采用的方法应用于空气舵伺服系统的效果进行了验证。研究结果表明:改进的算法在参数摄动时,具备一定的在线稳定性;在空载情况下,所需要的调节时间要小于遗传算法-PI、DDPG-PI与传统PI算法,至少缩短了20%;同时,在负载情况下,相比其他3种方法,改进算法的波动幅值与负载结束后回到稳态时间至少缩短了15%,证明了所使用方法在空气舵伺服系统里的有效性。 展开更多
关键词 伺服系统 比例积分(PI)控制器 遗传算法 深度确定性策略梯度算法 参数优化 SIMULINK
在线阅读 下载PDF
基于策略梯度算法的工作量证明中挖矿困境研究 被引量:3
20
作者 王甜甜 于双元 徐保民 《计算机应用》 CSCD 北大核心 2019年第5期1336-1342,共7页
针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的... 针对区块链中工作量证明(PoW)共识机制下区块截留攻击导致的挖矿困境问题,将矿池间的博弈行为视作迭代的囚徒困境(IPD)模型,采用深度强化学习的策略梯度算法研究IPD的策略选择。利用该算法将每个矿池视为独立的智能体(Agent),将矿工的潜入率量化为强化学习中的行为分布,通过策略梯度算法中的策略网络对Agent的行为进行预测和优化,最大化矿工的人均收益,并通过模拟实验验证了策略梯度算法的有效性。实验发现,前期矿池处于相互攻击状态,平均收益小于1,出现了纳什均衡的问题;经过policy gradient算法的自我调整后,矿池由相互攻击转变为相互合作,每个矿池的潜入率趋于0,人均收益趋于1。实验结果表明,policy gradient算法可以解决挖矿困境的纳什均衡问题,最大化矿池人均收益。 展开更多
关键词 区块链 工作量证明机制 博弈论 深度强化学习 策略梯度算法
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部