期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
基于改进DDQN船舶自动靠泊路径规划方法
1
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于双深度Q网络的车联网安全位置路由
2
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 双深度q网络 动态的探索因子
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
3
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度q网络算法 资源优化
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
4
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
5
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 双深度q网络
在线阅读 下载PDF
基于DDQN的片上网络混合关键性消息调度方法 被引量:1
6
作者 李国梁 李峭 +1 位作者 徐亚军 熊华钢 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第7期1233-1241,共9页
对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将... 对片上网络(NoC)承载的混合关键性消息进行实时调度是其应用于航空电子系统片上多核通信的关键。为解决可满足性模理论(SMT)法求解效率低、低优先级消息等待延迟大的问题,提出了一种基于双深度Q网络(DDQN)的混合关键性消息调度方法。将虫孔交换机制下的消息调度问题建模为马尔可夫决策过程,建立包含环境、动作、状态、奖励的多层感知调度模型;随机生成多组分布不同的混合关键性消息作为训练样本,采用DDQN算法求解该调度模型;在此基础上,提出并实现了带孔隙DDQN算法,在保证时间触发(TT)消息可调度前提下为速率约束(RC)消息预留用于虫孔交换的时隙。算例研究表明:所提方法的求解时长及TT消息确定性端到端延迟的平均值均低于SMT法;带孔隙DDQN算法的RC消息延迟较不带孔隙DDQN算法和SMT法显著降低。 展开更多
关键词 片上网络(NoC) 时间触发(TT)机制 双深度q网络(ddqn) 混合关键性消息 消息调度
在线阅读 下载PDF
基于引导Minimax-DDQN的无人机空战机动决策 被引量:6
7
作者 王昱 任田君 范子琳 《计算机应用》 CSCD 北大核心 2023年第8期2636-2643,共8页
针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然... 针对无人机(UAV)空战环境信息复杂、对抗性强所导致的敌机机动策略难以预测,以及作战胜率不高的问题,设计了一种引导Minimax-DDQN(Minimax-Double Deep Q-Network)算法。首先,在Minimax决策方法的基础上提出了一种引导式策略探索机制;然后,结合引导Minimax策略,以提升Q网络更新效率为出发点设计了一种DDQN(Double Deep Q-Network)算法;最后,提出进阶式三阶段的网络训练方法,通过不同决策模型间的对抗训练,获取更为优化的决策模型。实验结果表明,相较于Minimax-DQN(Minimax-DQN)、Minimax-DDQN等算法,所提算法追击直线目标的成功率提升了14%~60%,并且与DDQN算法的对抗胜率不低于60%。可见,与DDQN、Minimax-DDQN等算法相比,所提算法在高对抗的作战环境中具有更强的决策能力,适应性更好。 展开更多
关键词 无人机空战 自主决策 深度强化学习 双重深度q网络 多阶段训练
在线阅读 下载PDF
未知环境下改进DDQN的无人机探索航迹规划研究 被引量:4
8
作者 唐嘉宁 杨昕 +2 位作者 周思达 李罗宇 安城安 《电光与控制》 CSCD 北大核心 2023年第4期23-27,33,共6页
对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以... 对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双Q网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的DDQN算法。 展开更多
关键词 无人机 长短期记忆网络 深度双q网络 未知环境探索 航迹规划
在线阅读 下载PDF
基于DDQN的电力传感网资源分配算法 被引量:2
9
作者 朱雪琼 胡成博 +1 位作者 杨景刚 路永玲 《中国电力》 CSCD 北大核心 2023年第11期60-66,共7页
电力传感网可以用于对电力网络的设备工作状态和工作环境等信息实时采集和获取,对于电力网络设施的实时监控与快速响应具有重要作用。针对系统在数据排队时延和丢包率上的特殊要求,提出了一种基于强化学习的电力传感网资源分配方案。在... 电力传感网可以用于对电力网络的设备工作状态和工作环境等信息实时采集和获取,对于电力网络设施的实时监控与快速响应具有重要作用。针对系统在数据排队时延和丢包率上的特殊要求,提出了一种基于强化学习的电力传感网资源分配方案。在资源受限的情况下,通过资源分配算法来优化传感器节点的排队时延和丢包率,并将该优化问题建模为马尔可夫决策过程(Markov decision process,MDP),通过双深度Q网络(double deep Q-learning,DDQN)来对优化目标函数求解。仿真结果与数值分析表明,所提方案在收敛性、排队时延和丢包率等方面的性能均优于基准方案。 展开更多
关键词 电力传感网 资源分配 马尔可夫决策过程 双深度q网络
在线阅读 下载PDF
基于动作注意策略的树形DDQN目标候选区域提取方法
10
作者 左国玉 杜婷婷 +2 位作者 马蕾 卢佳豪 龚道雄 《电子与信息学报》 EI CSCD 北大核心 2019年第3期666-673,共8页
针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。... 针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条"最佳"路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在PascalVOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。 展开更多
关键词 目标检测 候选区域 树结构 双深度q网络 动作注意
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
11
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 双深度q网络(ddqn) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
12
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 双深度q网络(ddqn)算法
在线阅读 下载PDF
基于双DQN算法的机器人手臂带电作业精准导航研究 被引量:1
13
作者 李宁 何义良 +2 位作者 赵建辉 刘兆威 田志 《电网与清洁能源》 CSCD 北大核心 2024年第11期9-15,共7页
为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最... 为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最佳值为0.005,全局加权奖励机制相比当前状态即时奖励,更能够提高Q值更新效率;基于全局加权奖励机制和双深度Q网络算法建立跨线作业模型,得到收敛后的偏差降为±6.45。基于全局加权奖励机制和双深度Q网络算法建立机器人手臂精准导航模型,其收敛速度和准确性都有所提升,实现了机器人带电作业的精准导航。 展开更多
关键词 带电作业 机械臂 深度强化学习 双深度q网络 精准导航
在线阅读 下载PDF
基于深度强化学习的无人机紫外光信息收集方法
14
作者 赵太飞 郭佳豪 +1 位作者 辛雨 王璐 《光子学报》 北大核心 2025年第1期43-58,共16页
针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使... 针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使用深度强化学习算法解决多目标优化问题。为了让无人机获得更优的飞行方向、飞行速度以及紫外光收发仰角的决策,设计了一套适合信息收集任务的奖励函数,并对经典的深度双Q网络算法加入双目标网络、熵正则化和优先经验回放等改进。仿真结果表明,改进的算法相比经典的深度双Q网络算法,在时间效率上至少提高了13%,能量消耗至少减少了14%。 展开更多
关键词 无人机 信息收集 紫外光非直视通信 深度强化学习 深度双q网络
在线阅读 下载PDF
基于深度强化学习的电力线与无线双模通信MAC层接入算法
15
作者 陈智雄 詹学滋 左嘉烁 《智能系统学报》 北大核心 2025年第2期344-354,共11页
针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双... 针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。 展开更多
关键词 电力线通信 无线通信 双模节点 深度强化学习 双深度q网络 MAC层接入 公平效用函数 P坚持接入
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
16
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能体 强化学习 奖励塑形 双深度q网络
在线阅读 下载PDF
基于课程式双重DQN的水下无人航行器路径规划 被引量:2
17
作者 王莹莹 周佳加 +1 位作者 高峰 管凤旭 《实验室研究与探索》 CAS 北大核心 2022年第3期244-248,共5页
针对水下无人航行器路径规划中强化学习方法存在训练不稳定、时间长的弊端,提出了一种课程式双重深度Q学习网络(DQN)算法。该算法融合经验回放池技术,有效缩短了训练时间,并消除了Q学习网络引起的最大化偏差问题。同时,结合课程式学习... 针对水下无人航行器路径规划中强化学习方法存在训练不稳定、时间长的弊端,提出了一种课程式双重深度Q学习网络(DQN)算法。该算法融合经验回放池技术,有效缩短了训练时间,并消除了Q学习网络引起的最大化偏差问题。同时,结合课程式学习改进双重DQN算法,加快了学习收敛速度。通过静态、动态障碍物环境的水下无人航行器路径规划仿真结果表明,所提出的课程式双重DQN算法可行、有效。该实验仿真研究可培养学生开展独立科学研究的能力。 展开更多
关键词 水下无人航行器 路径规划 双重深度q网络 课程式学习
在线阅读 下载PDF
基于改进双重深度Q网络的入侵检测模型 被引量:3
18
作者 吴亚丽 王君虎 郑帅龙 《计算机工程与应用》 CSCD 北大核心 2022年第16期102-110,共9页
入侵检测技术作为网络安全有效的防御手段,是网络安全体系中的重要组成部分。随着互联网的快速发展,网络数据量快速增加,网络攻击更加趋于复杂化和多元化,目前主流的入侵检测技术无法有效识别各种攻击。针对实际网络环境中正常流量和攻... 入侵检测技术作为网络安全有效的防御手段,是网络安全体系中的重要组成部分。随着互联网的快速发展,网络数据量快速增加,网络攻击更加趋于复杂化和多元化,目前主流的入侵检测技术无法有效识别各种攻击。针对实际网络环境中正常流量和攻击流量数据不平衡,且对攻击类流量检测率低的问题,基于深度强化学习提出一种基于改进双重深度Q网络的CBL_DDQN网络入侵检测模型。该模型将一维卷积神经网络和双向长短期记忆网络的混合网络模型引入深度强化学习的DDQN框架,并使用深度强化学习中的反馈学习和策略生成机制训练智能体来对不同类别的攻击样本进行分类,在一定程度上减弱了训练模型过程中对数据标签的依赖性。采用Borderline-SMOTE算法降低数据的不平衡度,从而提高稀有攻击的检测率。通过NSL_KDD和UNSW_NB15数据集对模型的性能进行评估,结果表明:该模型在准确率、精确率、召回率这三项指标上均取得了良好的结果,检测效果远优于Adam-BNDNN、KNN、SVM等检测方法,是一种高效的网络入侵检测模型。 展开更多
关键词 入侵检测 深度强化学习 双重深度q网络 卷积神经网络(CNN) 长短期记忆网络(LSTM)
在线阅读 下载PDF
基于竞争双深度Q网络的动态频谱接入 被引量:3
19
作者 梁燕 惠莹 《电讯技术》 北大核心 2022年第12期1715-1721,共7页
针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q... 针对多信道动态频谱接入问题,建立了存在感知错误与接入碰撞的复杂信道场景,提出了一种结合双深度Q网络和竞争Q网络的竞争双深度Q网络学习框架。双深度Q网络将动作的选择和评估分别用不同值函数实现,解决了值函数的过估计问题,而竞争Q网络解决了神经网络结构优化问题。该方案保证每个次要用户根据感知和回报结果做出频谱接入决策。仿真结果表明,在同时存在感知错误和次要用户冲突的多信道情况下,竞争双深度Q网络相比于同类方法具有较好的损失预测模型,其回报更稳定且提高了4%。 展开更多
关键词 认知无线电 频谱感知 动态频谱接入 深度强化学习 竞争双深度q网络
在线阅读 下载PDF
基于竞争双深度Q网络的频谱感知和接入 被引量:2
20
作者 梁燕 胡垚林 惠莹 《电讯技术》 北大核心 2023年第11期1661-1669,共9页
认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q... 认知用户通过频谱感知和接入过程识别频谱状态并占用空闲频谱,可有效利用频谱资源。针对频谱感知中存在感知错误和频谱接入中存在用户碰撞的问题,首先建立多用户多信道模型,设计频谱感知和频谱接入过程;然后通过结合双深度Q网络和竞争Q网络,设计竞争双深度Q网络,解决过估计问题的同时优化网络结构;最后通过智能体与所设计模型中状态、观测、回报和策略的交互,完成使用竞争双深度Q网络解决频谱感知和接入问题的一体化研究。仿真结果表明,相比于已有深度强化学习方法,使用竞争双深度Q网络得到的数值结果更稳定且感知正确率和信道利用率都提高了4%。 展开更多
关键词 频谱感知 频谱接入 深度强化学习 竞争双深度q网络
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部