期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
1
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
基于改进竞争深度Q网络算法的微电网能量管理与优化策略 被引量:24
2
作者 黎海涛 申保晨 +3 位作者 杨艳红 裴玮 吕鑫 韩雨庭 《电力系统自动化》 EI CSCD 北大核心 2022年第7期42-49,共8页
可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和... 可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和优化设计的神经网络结构,对分布式可再生能源的功率输出、能源交易市场的电价和电力负荷的状态等环境信息进行学习,并运用学习到的策略进行微电网能量管理与优化。仿真结果表明,基于改进竞争深度Q网络算法的微电网能量管理与优化策略的性能优于基于场景的随机规划算法、深度Q网络算法和竞争深度Q网络算法。 展开更多
关键词 微电网 能量管理 深度强化学习 竞争深度q网络算法 神经网络结构 多参数动作探索机制
在线阅读 下载PDF
重复利用状态值的竞争深度Q网络算法 被引量:9
3
作者 张俊杰 张聪 赵涵捷 《计算机工程与应用》 CSCD 北大核心 2021年第4期134-140,共7页
在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超... 在使用反距离加权法(Inverse Distance Weighted method,IDW)对土壤重金属含量进行预测时,算法中的超参数一般由先验知识确定,一定程度上存在不确定性。针对这一问题,提出了一种状态值再利用的竞争深度Q学习网络算法以精确估计IDW的超参数。该算法在训练时,将每轮训练样本中的奖励值进行标准化后,与Dueling-DQN中Q网络的状态值结合形成新的总奖励值,然后将总奖励值输入到Q网络中进行学习,从而增强了状态与动作的内在联系,使算法更加稳定。最后使用该算法在IDW上进行超参数学习,并与几种常见强化学习算法进行对比实验。实验表明,提出的RSV-DuDQN算法可以使模型更快收敛,同时提升了模型的稳定性,还可以更准确地得到IDW的参数估计。 展开更多
关键词 状态值重利用 竞争深度q学习网络 反距离加权法 超参数搜索
在线阅读 下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
4
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:2
5
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于Dueling-DQN的协同进化算法求解绿色分布式异构柔性作业车间调度问题
6
作者 夏良才 陈仕军 《现代制造工程》 北大核心 2025年第7期8-19,共12页
针对绿色分布式异构柔性作业车间调度问题(Green Distributed Heterogeneous Flexible Job shop Scheduling Problem,GDHFJSP),提出了基于竞争构架深度Q网络算法(Dueling Deep Q-Network,Dueling-DQN)的协同进化算法(Dueling-DQNCE),以... 针对绿色分布式异构柔性作业车间调度问题(Green Distributed Heterogeneous Flexible Job shop Scheduling Problem,GDHFJSP),提出了基于竞争构架深度Q网络算法(Dueling Deep Q-Network,Dueling-DQN)的协同进化算法(Dueling-DQNCE),以最小化最大完工时间和最小化总能耗为目标,选择Pareto前沿解,获得优质的解决方案。首先,在该算法的初始化阶段提出了两种初始化种群方法,有效改善初始解种群的质量。其次,在解码阶段使用活动调度方案能更全面地探索解空间,获取高质量的解。针对多目标问题,提出了快速比较法,能快速高效地得到Pareto前沿解。接着,提出了10种基于知识驱动的邻域搜索策略,并使用Dueling-DQN智能学习来为每个解选择合适的局部搜索策略,加快种群的收敛速度。为了验证Dueling-DQNCE的有效性,将Dueling-DQNCE与文献中最先进的基于深度Q网络的协同进化算法(Co-Evolution with Deep-Q-network,DQCE)在20个算例上进行比较。计算结果表明,Dueling-DQNCE在计算资源和解质量上都优于DQCE,验证了所提出算法的有效性和优越性。 展开更多
关键词 绿色分布式异构作业车间调度 协同进化 Pareto前沿解 竞争架构深度q网络算法
在线阅读 下载PDF
基于深度强化学习的图书分拣车的路径规划 被引量:1
7
作者 陈玥 《现代电子技术》 北大核心 2024年第19期161-168,共8页
针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避... 针对图书智能分拣系统中的分拣车路径规划问题,提出一种基于深度强化学习框架和竞争双深度Q网络路径规划算法。将分拣车的路径规划问题构建成马尔可夫决策过程,然后通过结合竞争Q网络和双深度Q网络构建竞争双深度Q网络(D3QN),进而在避免过估计的同时,优化网络结构。最后,通过设计智能代理的状态、动作和奖励函数,并采用动态ε-贪婪算法和衰减式学习率策略,使智能代理能够快速地选择最优动作,缩短完成预定卸载的移动路径,降低碰撞障碍物的概率。仿真结果表明,相比于基于竞争Q网络、双深度Q网络和深度Q网络的路径规划算法,提出的基于D3QN方法所规划的路径更短、碰撞率更低。 展开更多
关键词 自动分拣 机器人 路径规划 深度强化学习 竞争深度q网络 马尔可夫决策
在线阅读 下载PDF
面向B5G多业务场景基于D3QN的双时间尺度网络切片算法 被引量:8
8
作者 陈赓 齐书虎 +1 位作者 沈斐 曾庆田 《通信学报》 EI CSCD 北大核心 2022年第11期213-224,共12页
为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目... 为了有效满足不同切片的差异化服务质量需求,面向B5G多业务场景提出了一种基于竞争双深度Q网络(D3QN)的双时间尺度网络切片算法。研究了联合资源切片和调度问题,以归一化处理后的频谱效率和不同切片用户服务质量指数的加权和作为优化目标。在大时间尺度内,SDN控制器根据每种业务的资源需求利用D3QN算法预先分配给不同的切片,然后根据基站负载状态执行基站级资源更新。在小时间尺度内,基站通过轮询调度算法将资源调度到终端用户。仿真结果表明,所提算法在保证切片用户服务质量需求、频谱效率和系统效用方面具有优异的性能。与其他4种基准算法相比,所提算法的系统效用分别提升了3.22%、3.81%、7.48%和21.14%。 展开更多
关键词 双时间尺度 资源分配 网络切片 竞争深度q网络 系统效用
在线阅读 下载PDF
基于深度强化学习的主动配电网高恢复力决策方法 被引量:13
9
作者 罗欣儿 杜进桥 +4 位作者 田杰 刘安迪 王标 李妍 王少荣 《南方电网技术》 CSCD 北大核心 2022年第1期67-74,共8页
随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求... 随着全球极端天气事件频发,电力系统在极端自然灾害下恢复力的研究日益受到关注。本文提出基于深度强化学习的高恢复力决策方法,将极端灾害下配电网运行状态和线路故障状态作为观测状态集合,自学习智能体Agent在当前环境观测状态下寻求可行的决策策略进行动作,定义自学习Agent的回报函数以进行动作评价;采用观测状态数据,开展基于竞争深度Q网络(dueling deep Q network,DDQN)的深度强化学习(deep reinforcement learning,DRL)训练,智能体Agent通过试错学习方式选择动作,试错经验在估值函数Q矩阵中存储,实现状态到主动配电网实时故障恢复策略的非线性映射;最后结合改进的IEEE 33节点算例,基于蒙特卡罗法仿真随机故障场景,对所提出方法生成的故障恢复随机优化决策进行分析。结果表明:通过主动配电网的分布式电源、联络开关和可中断负荷的协调优化控制,可以有效提升极端灾害下供电能力。 展开更多
关键词 马尔科夫决策过程 竞争深度q网络(DDqN) 深度强化学习(DRL) 高恢复力 配电网
在线阅读 下载PDF
基于态势利导的需求响应自学习优化调度方法 被引量:3
10
作者 明威宇 李妍 +3 位作者 程时杰 龙禹 徐菁 王少荣 《电力系统自动化》 EI CSCD 北大核心 2022年第23期109-116,共8页
针对多随机场景下用户可选择需求响应(CCR)的场景组合激增问题,利用深度强化学习算法实现CCR群组的优选及其所包含节点的优化调度。首先,根据CCR优化调度的约束条件与目标函数,分析其数学模型及日调度周期的求解复杂度;然后,基于马尔可... 针对多随机场景下用户可选择需求响应(CCR)的场景组合激增问题,利用深度强化学习算法实现CCR群组的优选及其所包含节点的优化调度。首先,根据CCR优化调度的约束条件与目标函数,分析其数学模型及日调度周期的求解复杂度;然后,基于马尔可夫决策过程将CCR优化调度过程映射至态势感知元组,并基于竞争深度Q网络架构建立态势利导函数,通过多次态势推演,利用小批量梯度下降法对态势利导函数求导,不断反馈更新算法参数,实现决策优化;最后,基于IEEE 33节点算例,通过不同规模的随机样本数量,在随机运行方式下实现了待选CCR群组的优选,并制定相应的优化调度策略。 展开更多
关键词 可选择需求响应 深度强化学习 竞争深度q网络 马尔可夫决策过程 态势感知 态势利导
在线阅读 下载PDF
基于恢复力约束的分布式储能优化规划 被引量:7
11
作者 严松 李穆 +1 位作者 朱俊宏 李妍 《电网与清洁能源》 北大核心 2022年第6期17-23,共7页
提出基于恢复力约束的分布式储能优化规划方法,以保证重要用户的恢复力为前提条件,采用双层耦合规划模型。内层模型在满足电网运行的潮流约束下,灵活地控制重要用户侧分布式储能参与需求侧响应,实现用电成本与动作频次最小的目标,采用... 提出基于恢复力约束的分布式储能优化规划方法,以保证重要用户的恢复力为前提条件,采用双层耦合规划模型。内层模型在满足电网运行的潮流约束下,灵活地控制重要用户侧分布式储能参与需求侧响应,实现用电成本与动作频次最小的目标,采用竞争深度Q网络(dueling deep Q network,DDQN)结构的深度增强学习方法进行求解,内层模型将分布式储能响应策略传递给外层模型;外层模型进一步基于重要用户的恢复力约束和投资收益校核分布式储能的配置方案,通过双层优化耦合反馈,最终实现基于恢复力约束的分布式储能优化规划。通过分时电价引导分布式储能等重要互动资源参与配电网的优化运行,保证重要用户电力供应连续性的同时给用户明显的投资收益。最后以某10 kV变电站的重要用户储能优化配置为例,分析了所提方法的有效性。 展开更多
关键词 恢复力 分布式储能 竞争深度q网络 配电网规划
在线阅读 下载PDF
适应随机序贯决策的分布式储能优化规划方法 被引量:7
12
作者 高松 黄河 +1 位作者 李妍 姜家兴 《高电压技术》 EI CAS CSCD 北大核心 2022年第11期4385-4392,共8页
在双碳战略和相关能源政策背景下,为平抑规模化接入分布式能源的潮流随机波动,分布式储能将在配电网逐步推广应用。建立适应随机序贯决策的分布式储能规划模型,将电压幅值、储能动作频次和用电成本作为即时回报优化分布式储能响应,基于... 在双碳战略和相关能源政策背景下,为平抑规模化接入分布式能源的潮流随机波动,分布式储能将在配电网逐步推广应用。建立适应随机序贯决策的分布式储能规划模型,将电压幅值、储能动作频次和用电成本作为即时回报优化分布式储能响应,基于优化的分布式储能组合序贯动作进行储能参数配置;基于竞争深度Q网络(dueling deep Q network,DDQN)的深度增强学习方法开展自学习优化,并以全寿命周期投资收益最大化确定分布式储能布点与配置方案。最后在IEEE33节点算例系统接入分布式光伏和储能的条件下,论证了方法的合理有效性。 展开更多
关键词 分布式储能 优化规划 随机序贯决策 深度强化学习 竞争深度q网络 光伏
在线阅读 下载PDF
基于强化学习的改进NSGA-Ⅱ算法的城市快速路入口匝道控制
13
作者 陈娟 郭琦 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期666-680,共15页
为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争... 为了缓解城市快速路拥堵和尾气排放问题,提出了基于竞争结构和深度循环Q网络的改进非支配排序遗传算法(non-dominated sorting genetic algorithm Ⅱ based on dueling deep recurrent Q network, DRQN-NSGA-Ⅱ).该算法结合了基于竞争结构的深度Q网络(dueling deep Q network, Dueling DQN)、深度循环Q网络(deep recurrent Q network, DRQN)和NSGA-Ⅱ算法,将Dueling DRQN-NSGA-Ⅱ算法用于匝道控制问题.除了考虑匝道车辆汇入以提高快速路通行效率外,还考虑了环境和能源指标,将尾气排放和燃油消耗作为评价指标.除了与无控制情况及其他算法进行比较之外, Dueling DRQN-NSGA-Ⅱ还与NSGA-Ⅱ算法进行了比较.实验结果表明:与无控制情况相比,本算法能有效改善路网通行效率、缓解环境污染、减少能源损耗;相对于无控制情况,总花费时间(total time spent, TTS)减少了16.14%,总尾气排放(total emissions, TE)减少了9.56%,总燃油消耗(total fuel consumption, TF)得到了43.49%的改善. 展开更多
关键词 匝道控制 基于竞争结构的深度q网络 深度循环q网络 非支配排序遗传算法
在线阅读 下载PDF
混合交通流环境下基于改进强化学习的可变限速控制策略 被引量:16
14
作者 韩磊 张轮 郭为安 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控... 现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。 展开更多
关键词 智能交通 可变限速控制 改进竞争深度q网络 混合交通流 智能网联车辆 深度强化学习
在线阅读 下载PDF
基于对手动作预测的智能博弈对抗算法 被引量:2
15
作者 韩润海 陈浩 +1 位作者 刘权 黄健 《计算机工程与应用》 CSCD 北大核心 2023年第7期190-197,共8页
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。... 智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。 展开更多
关键词 对手动作预测 竞争深度q网络(D3qN) 智能博弈对抗 深度强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部