期刊文献+
共找到54篇文章
< 1 2 3 >
每页显示 20 50 100
基于双深度Q网络的车联网安全位置路由 被引量:1
1
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 深度q网络 动态的探索因子
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
2
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 深度q网络算法 资源优化
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
3
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 深度q网络
在线阅读 下载PDF
基于改进双深度Q网络的微电网群能量管理策略
4
作者 何锦涛 王灿 +5 位作者 王明超 程本涛 刘于正 常文涵 王锐 余涵 《中国电力》 北大核心 2025年第10期14-26,共13页
针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并... 针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并裁剪高TD目标值,抑制价值函数的高估偏差,提高决策精度。然后,采用动态贪婪策略,基于当前状态计算所有可能动作的值函数,避免频繁选择最大Q值动作,使智能体充分探索动作以防止过早收敛。最后,以包含3个子微网的微电网群进行算例验证。仿真结果表明,相较于基于模型预测控制和传统双深度Q网络的能量管理策略,本文所提方法具有更好的寻优效果和收敛性,同时将系统运行成本分别降低了44.62%和26.39%。 展开更多
关键词 微电网群 能量管理 改进深度q网络 裁剪q 贪婪策略
在线阅读 下载PDF
基于DDQN的边缘算力融合网络资源管理
5
作者 董玉池 闫亚旗 +3 位作者 冉沛 王东 张阔 张文龙 《电信科学》 北大核心 2025年第8期197-206,共10页
边缘算力融合网络将算力下沉至近用户侧,通过分布式边缘算力节点相互协同以在本地完成计算任务,显著降低云端负担和传输时延。然而,随着用户接入密度提高和场景复杂化,如何动态优化网络资源以协同应对多样化服务需求和大规模数据处理任... 边缘算力融合网络将算力下沉至近用户侧,通过分布式边缘算力节点相互协同以在本地完成计算任务,显著降低云端负担和传输时延。然而,随着用户接入密度提高和场景复杂化,如何动态优化网络资源以协同应对多样化服务需求和大规模数据处理任务成为重大挑战。因此,提出了一种基于双深度Q网络(double deep Q network,DDQN)边缘算力融合网络资源管理方法,结合虚拟网络嵌入(virtual network embedding,VNE)技术,建立了以长期资源收益成本比最大化为目标的多约束优化模型。通过DDQN架构的在线学习能力,利用环境交互反馈实现动态优化决策。仿真实验表明,该方法在虚拟网络请求(virtual network request,VNR)接受成功率、长期嵌入收益和长期嵌入收益成本比3个指标上,较现有方法分别提升了13.3%、25.7%和8.5%。 展开更多
关键词 算力融合网络 算力下沉 深度q网络 资源管理
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
6
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 深度q网络(ddqn) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
7
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(ddqn)算法
在线阅读 下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:2
8
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 深度q网络
在线阅读 下载PDF
基于深度强化学习的电力线与无线双模通信MAC层接入算法
9
作者 陈智雄 詹学滋 左嘉烁 《智能系统学报》 北大核心 2025年第2期344-354,共11页
针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双... 针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。 展开更多
关键词 电力线通信 无线通信 模节点 深度强化学习 深度q网络 MAC层接入 公平效用函数 P坚持接入
在线阅读 下载PDF
移动边缘网络中基于双深度Q学习的高能效资源分配方法 被引量:11
10
作者 喻鹏 张俊也 +4 位作者 李文璟 周凡钦 丰雷 付澍 邱雪松 《通信学报》 EI CSCD 北大核心 2020年第12期148-161,共14页
为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设... 为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设置任务时延和通信、计算、存储资源限制等约束条件,构建了对应的资源分配模型。依据模型特征,基于DDQL框架,提出了适用于通信和计算资源智能决策、存储资源按需分配的资源分配模型和算法。仿真结果表明,所提出的基于DDQL资源分配方法可以有效地解决多任务资源分配问题,具有较好的收敛性和较低的时间复杂度,在保障业务服务质量的同时,相对于基于随机算法、贪心算法、粒子群优化算法、深度Q学习等方法,降低了至少5%的任务平均能耗。 展开更多
关键词 移动边缘网络 融合资源分配 高能效 深度q学习
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
11
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 深度q网络
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
12
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
13
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:2
14
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争深度q网络
在线阅读 下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
15
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
在线阅读 下载PDF
基于DDQN-D^(3)PG的无人机空战分层决策
16
作者 王昱 李远鹏 +2 位作者 郭中宇 李硕 任田君 《兵工学报》 北大核心 2025年第8期66-76,共11页
强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Dee... 强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Deep Q-Network,DDQN)与深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的自主决策框架。根据敌我双方在不同态势下的优势差异,设计一系列基于不同奖励函数权重组合的DDPG算法模型,并以此构建底层分布式深度确定性策略梯度(Distributed DDPG,D^(3)PG)决策网络。引入擅长处理离散动作空间的DDQN算法构建上层决策网络,根据实时态势变化自主地选择并切换至最合适的底层策略模型,实现决策的即时调整与优化。为进一步提升红蓝双方无人机近距离空战环境的真实性与挑战性,在DDPG算法的训练中引入自我博弈机制,构建具备高度智能化的敌方决策模型。实验结果表明,新算法在无人机与智能化对手的博弈对抗中胜率最高达96%,相较D^(3)PG等算法提升20%以上,且在多种初始态势下均能稳定战胜对手,充分验证了该方法的有效性和先进性。 展开更多
关键词 无人机空战 强化学习 分层决策 深度q网络 分布式深度确定性策略梯度
在线阅读 下载PDF
基于权重值的竞争深度双Q网络算法 被引量:5
17
作者 汪晨曦 赵学艳 郭新 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2021年第5期564-570,共7页
在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算... 在深度强化学习中,深度Q网络算法存在严重高估动作值问题,使得智能体的表现不尽人意.尽管深度双Q网络和竞争网络结构可以部分缓解高估带来的影响,但引入双Q网络的同时,有时也会低估动作值.本文提出了一种基于权重值的竞争深度双Q网络算法(Weighted Dueling Double Deep Q-Network,WD3QN),把改进的双估计器及竞争网络结构结合至深度Q网络中,将学习到的可能动作值进行加权产生最终动作值,有效减少估计误差.最后,将算法应用于Open AI Gym平台上的CartPole经典控制问题,仿真结果显示:与已有算法对比,本算法有更好的学习效果,收敛性和训练速度均有提升. 展开更多
关键词 深度强化学习 深度q网络 竞争网络结构 权重值
在线阅读 下载PDF
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:2
18
作者 饶宁 许华 宋佰霖 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度q网络 竞争网络 干扰动作剔除
在线阅读 下载PDF
优先状态估计的双深度Q网络 被引量:1
19
作者 张鑫 张席 《计算机工程与应用》 CSCD 北大核心 2021年第8期78-83,共6页
深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问... 深度强化学习探索问题中,需要根据环境给予的外部奖赏以作出决策,而在稀疏奖赏环境下,训练初期将获取不到任何信息,且在训练后期难以动态地结合已获得的信息对探索策略进行调整。为缓解这个问题,提出优先状态估计方法,在对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向。结合DDQN(Double Deep Q Network)与优先经验回放,在OpenAI Gym中的MountainCar经典控制问题与Atari 2600中的FreeWay游戏中进行对比实验,结果表明该方法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平均分数。 展开更多
关键词 强化学习 状态估计 深度q网络 深度q网络
在线阅读 下载PDF
基于深度双Q网络的多用户蜂窝网络功率分配算法研究 被引量:1
20
作者 王伟 殷爽爽 《计算机应用研究》 CSCD 北大核心 2021年第5期1498-1502,共5页
针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行... 针对现有蜂窝网络功率分配算法存在泛化能力弱、效率低等问题进行了研究,提出基于深度双Q网络(deep double Q network,DDQN)的功率分配算法。采用双神经网络结构,解决强化学习过程中易出现的维度灾难及值函数过估计问题;对状态信息进行设计并输入神经网络,输出智能体的动作行为,并设计奖赏函数反馈给神经网络,使智能体可以有效地自主学习,多次迭代得到最优的功率分配策略。仿真结果表明,所提的模型可获得的平均速率为1.89,平均运行时间为0.0013 s,在不同用户密度及小区数量下均可达到最高的平均速率,验证了算法的有效性,为蜂窝网络资源分配问题提供了新的思路。 展开更多
关键词 蜂窝网络 干扰多址信道 功率分配 深度强化学习 深度q网络
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部