期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
二人零和博弈情形下基于Dueling DQN的火力分配方法
1
作者 邱少明 黄昕晨 +1 位作者 刘良玉 俄必聪 《兵器装备工程学报》 北大核心 2025年第5期67-76,共10页
针对火力分配决策维度高,并且参战各方都有不同的战略目标,各方存在着相互耦合、复杂的作用关系,战场态势瞬息万变,传统DQN算法收敛速度慢的问题,提出一种基于Dueling DQN与博弈论相结合的火力分配优化方法。首先,构建二人零和博弈状态... 针对火力分配决策维度高,并且参战各方都有不同的战略目标,各方存在着相互耦合、复杂的作用关系,战场态势瞬息万变,传统DQN算法收敛速度慢的问题,提出一种基于Dueling DQN与博弈论相结合的火力分配优化方法。首先,构建二人零和博弈状态下的火力分配模型。其次,建立了同时为对抗双方进行火力分配决策的Dueling DQN算法框架,提出ε-Nash-Boltzmann策略选取动作,以敌我双方的期望收益差作为奖励函数。实验结果表明,该算法能根据战场状态以最快速度求解得到保卫我方目标的最佳策略,具备在博弈情形下求解高维度的火力分配问题的优势。 展开更多
关键词 火力分配 二人零和博弈 dueling DqN 纳什均衡
在线阅读 下载PDF
融合电网拓扑信息的分支竞争Q网络智能体紧急切负荷决策 被引量:1
2
作者 潘晓杰 胡泽 +5 位作者 姚伟 兰宇田 徐友平 王玉坤 张慕婕 文劲宇 《电力系统保护与控制》 北大核心 2025年第8期71-80,共10页
暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络... 暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络智能体的电力系统紧急切负荷决策方法,以提高离线紧急切负荷决策的效率。首先,建立了一种基于事件驱动的马尔科夫决策过程,可以有效指导深度强化学习智能体的训练。其次,设计了一种分支竞争Q网络智能体,相比传统无分支网络,基于分支竞争Q网络智能体具有更强的训练效率和决策能力。然后,为进一步增强智能体的训练效率和决策性能,通过图卷积增强将电力系统拓扑信息融入到智能体的训练过程。最后,在中国电力科学研究院8机36节点系统进行了验证。相比于无分支网络和无拓扑信息融入的深度强化学习智能体,所提方法具有更高的训练效率和决策性能。 展开更多
关键词 仿真分析 暂态电压失稳 紧急切负荷决策 深度强化学习 分支竞争q网络 电网拓扑信息 图卷积增强
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
3
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度q网络算法 资源优化
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
4
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
5
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 双深度q网络
在线阅读 下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
6
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度q网络(ddqn) 混合关键性消息 消息调度
在线阅读 下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
7
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:6
8
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度q网络 多阶段训练
在线阅读 下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:4
9
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双q网络 未知环境探索 航迹规划
在线阅读 下载PDF
基于动作注意策略的树形DDQN目标候选区域提取方法
10
作者 左国玉 杜婷婷 +2 位作者 马蕾 卢佳豪 龚道雄 《电子与信息学报》 EI CSCD 北大核心 2019年第3期666-673,共8页
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。... 针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条"最佳"路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在PascalVOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。 展开更多
关键词 目标检测 候选区域 树结构 双深度q网络 动作注意
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
11
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 双深度q网络(ddqn) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
12
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度q网络(ddqn)算法
在线阅读 下载PDF
基于对决深度Q网络的机器人自适应PID恒力跟踪研究 被引量:1
13
作者 杜亮 梅雪川 《机床与液压》 北大核心 2024年第15期50-54,共5页
为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该... 为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该算法利用对决深度Q网络自主学习、寻找最优的控制参数;最后,通过Coopeliasim与MATLAB软件平台展开机器人恒力跟踪实验。仿真结果表明:提出的基于对决深度Q网络的自适应PID算法能够获得较好的力跟踪效果,验证了算法的可行性;相比于深度Q网络算法,力误差绝对值的平均值减少了51.6%,且收敛速度得到提升,使机器人能够更好地跟踪外界环境。 展开更多
关键词 机器人 恒力控制 自适应PID控制 对决深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
14
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争双深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:2
15
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争双深度q网络
在线阅读 下载PDF
基于D3QN的无人机编队控制技术 被引量:5
16
作者 赵启 甄子洋 +3 位作者 龚华军 曹红波 李荣 刘继承 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期2137-2146,共10页
针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一... 针对无人机编队中控制器设计需要基于模型信息,以及无人机智能化程度低等问题,采用深度强化学习解决编队控制问题。针对编队控制问题设计对应强化学习要素,并设计基于深度强化学习对偶双重深度Q网络(D3QN)算法的编队控制器,同时提出一种优先选择策略与多层动作库结合的方法,加快算法收敛速度并使僚机最终能够保持到期望距离。通过仿真将设计的控制器与PID控制器、Backstepping控制器对比,验证D3QN控制器的有效性。仿真结果表明:该控制器可应用于无人机编队,提高僚机智能化程度,自主学习保持到期望距离,且控制器设计无需模型精确信息,为无人机编队智能化控制提供了依据与参考。 展开更多
关键词 无人机编队 编队控制 深度强化学习 深度q网络 对偶双重深度q网络
在线阅读 下载PDF
基于权重值的竞争深度双Q网络算法 被引量:5
17
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度双q网络 竞争网络结构 权重值
在线阅读 下载PDF
基于改进竞争深度Q网络算法的微电网能量管理与优化策略 被引量:24
18
作者 黎海涛 申保晨 +3 位作者 杨艳红 裴玮 吕鑫 韩雨庭 《电力系统自动化》 EI CSCD 北大核心 2022年第7期42-49,共8页
可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和... 可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和优化设计的神经网络结构,对分布式可再生能源的功率输出、能源交易市场的电价和电力负荷的状态等环境信息进行学习,并运用学习到的策略进行微电网能量管理与优化。仿真结果表明,基于改进竞争深度Q网络算法的微电网能量管理与优化策略的性能优于基于场景的随机规划算法、深度Q网络算法和竞争深度Q网络算法。 展开更多
关键词 微电网 能量管理 深度强化学习 竞争深度q网络算法 神经网络结构 多参数动作探索机制
在线阅读 下载PDF
基于排序优先经验回放的竞争深度Q网络学习 被引量:10
19
作者 周瑶瑶 李烨 《计算机应用研究》 CSCD 北大核心 2020年第2期486-488,共3页
为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真... 为减少深度Q网络(DQN)算法的训练时间,采用结合优先经验回放机制与竞争网络结构的DQN方法,针对Open AI Gym平台cart pole和mountain car两个经典控制问题进行研究,其中经验回放采用基于排序的机制,而竞争结构中采用深度神经网络。仿真结果表明,相比于常规DQN算法、基于竞争网络结构的DQN方法和基于优先经验回放的DQN方法,该方法具有更好的学习性能,训练时间最少。同时,详细分析了算法参数对于学习性能的影响,为实际运用提供了有价值的参考。 展开更多
关键词 强化学习 深度q网络 竞争网络 排序优先经验回放
在线阅读 下载PDF
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:2
20
作者 饶宁 许华 宋佰霖 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度双q网络 竞争网络 干扰动作剔除
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部