期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
1
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 深度q网络算法 资源优化
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
2
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(DDqN)算法
在线阅读 下载PDF
基于改进竞争深度Q网络算法的微电网能量管理与优化策略 被引量:27
3
作者 黎海涛 申保晨 +3 位作者 杨艳红 裴玮 吕鑫 韩雨庭 《电力系统自动化》 EI CSCD 北大核心 2022年第7期42-49,共8页
可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和... 可再生能源发电的随机波动性和储能运行控制的时间序列耦合特性给微电网的能量管理与最优运行带来了诸多挑战,成为学术界研究的热点问题。文中提出一种基于改进竞争深度Q网络算法的微电网能量管理与优化方法,采用多参数动作探索机制和优化设计的神经网络结构,对分布式可再生能源的功率输出、能源交易市场的电价和电力负荷的状态等环境信息进行学习,并运用学习到的策略进行微电网能量管理与优化。仿真结果表明,基于改进竞争深度Q网络算法的微电网能量管理与优化策略的性能优于基于场景的随机规划算法、深度Q网络算法和竞争深度Q网络算法。 展开更多
关键词 微电网 能量管理 深度强化学习 竞争深度q网络算法 神经网络结构 多参数动作探索机制
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
4
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度q网络算法(MPN-DqN) 路径规划
在线阅读 下载PDF
基于Dueling-DQN的协同进化算法求解绿色分布式异构柔性作业车间调度问题
5
作者 夏良才 陈仕军 《现代制造工程》 北大核心 2025年第7期8-19,共12页
针对绿色分布式异构柔性作业车间调度问题(Green Distributed Heterogeneous Flexible Job shop Scheduling Problem,GDHFJSP),提出了基于竞争构架深度Q网络算法(Dueling Deep Q-Network,Dueling-DQN)的协同进化算法(Dueling-DQNCE),以... 针对绿色分布式异构柔性作业车间调度问题(Green Distributed Heterogeneous Flexible Job shop Scheduling Problem,GDHFJSP),提出了基于竞争构架深度Q网络算法(Dueling Deep Q-Network,Dueling-DQN)的协同进化算法(Dueling-DQNCE),以最小化最大完工时间和最小化总能耗为目标,选择Pareto前沿解,获得优质的解决方案。首先,在该算法的初始化阶段提出了两种初始化种群方法,有效改善初始解种群的质量。其次,在解码阶段使用活动调度方案能更全面地探索解空间,获取高质量的解。针对多目标问题,提出了快速比较法,能快速高效地得到Pareto前沿解。接着,提出了10种基于知识驱动的邻域搜索策略,并使用Dueling-DQN智能学习来为每个解选择合适的局部搜索策略,加快种群的收敛速度。为了验证Dueling-DQNCE的有效性,将Dueling-DQNCE与文献中最先进的基于深度Q网络的协同进化算法(Co-Evolution with Deep-Q-network,DQCE)在20个算例上进行比较。计算结果表明,Dueling-DQNCE在计算资源和解质量上都优于DQCE,验证了所提出算法的有效性和优越性。 展开更多
关键词 绿色分布式异构作业车间调度 协同进化 Pareto前沿解 竞争架构深度q网络算法
在线阅读 下载PDF
基于DQN的改进NSGA-Ⅱ求解多目标柔性作业车间调度问题
6
作者 郑国梁 张朝阳 +1 位作者 吉卫喜 于俊杰 《现代制造工程》 北大核心 2025年第9期1-11,共11页
提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexi... 提出了一种基于深度Q网络(Deep Q-Network,DQN)改进的非支配排序遗传算法(Non-dominated Sorting Genetic AlgorithmⅡ,NSGA-Ⅱ),以解决以最小化最大完工时间和最小化能源消耗为目标的多目标柔性作业车间调度问题(Multi-Objective Flexible Job shop Scheduling Problem,MO-FJSP)。通过在DQN算法中定义马尔可夫决策过程和奖励函数,考虑选定设备对完工时间和能源消耗的局部及全局影响,提高了NSGA-Ⅱ初始种群的质量。改进的NSGA-Ⅱ通过精英保留策略确保运行过程中的种群多样性,并保留了进化过程中优质的个体。将DQN算法生成的初始解与贪婪算法生成的初始解进行对比,验证了DQN算法在生成初始解方面的有效性。此外,将基于DQN算法的改进NSGA-Ⅱ与其他启发式算法在标准案例和仿真案例上进行对比,证明了其在解决MO-FJSP方面的有效性。 展开更多
关键词 深度q网络算法 多目标柔性作业车间调度问题 奖励函数 非支配排序遗传算法
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
7
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:3
8
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度q网络算法 旋翼无人机 着陆控制
在线阅读 下载PDF
基于改进DQN算法的机器人路径规划 被引量:16
9
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
在线阅读 下载PDF
双足机器人步态控制的深度强化学习方法 被引量:11
10
作者 冯春 张祎伟 +2 位作者 黄成 姜文彪 武之炜 《计算机集成制造系统》 EI CSCD 北大核心 2021年第8期2341-2349,共9页
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足... 针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。 展开更多
关键词 双足机器人 步态控制 深度强化学习 智能体 操作—评论 改进深度q网络算法
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述 被引量:1
11
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于深度强化学习的无人机集群协同信息筛选方法研究 被引量:9
12
作者 李欣童 熊智 +2 位作者 陈明星 熊骏 李文龙 《电光与控制》 CSCD 北大核心 2021年第10期6-10,共5页
针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使... 针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使用最少协同信息满足所有无人机的定位精度要求。仿真结果表明,同无筛选情形相比,基于深度强化学习的筛选策略可以在不牺牲定位精度的同时,有效提高协同定位算法的实时性,解决协同信息冗余问题,显著提高了协同定位算法的执行效率。 展开更多
关键词 协同定位 无人机集群 深度q网络算法 策略梯度算法
在线阅读 下载PDF
基于协作式深度强化学习的火灾应急疏散仿真研究 被引量:7
13
作者 倪凌佳 黄晓霞 +1 位作者 李红旮 张子博 《系统仿真学报》 CAS CSCD 北大核心 2022年第6期1353-1366,共14页
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供... 火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 展开更多
关键词 协作式双深度q网络算法 深度强化学习 多智能体系统 应急疏散仿真 火灾场景仿真
在线阅读 下载PDF
基于深度强化学习的暂态稳定紧急控制决策方法 被引量:12
14
作者 李宏浩 张沛 刘曌 《电力系统自动化》 EI CSCD 北大核心 2023年第5期144-152,共9页
随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,... 随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,提出一种深度Q网络(DQN)强化学习与暂态能量函数相结合的紧急控制决策方法,多步序贯决策过程中可应对紧急控制的时滞不确定性影响。奖励函数以考虑控制目标和约束条件的短期奖励函数和考虑稳定性的长期奖励函数构成,并在奖励函数中引入暂态能量函数的势能指数来提高学习效率。以最大化累计奖励为目标,通过DQN算法在离散化动作空间中学习得到最优紧急控制策略,解决暂态稳定紧急控制问题。所提方法通过IEEE 39节点系统验证了模型在紧急控制决策中的有效性。 展开更多
关键词 深度强化学习 暂态稳定 紧急控制决策 暂态能量函数 深度q网络(DqN)算法 时滞
在线阅读 下载PDF
基于深度强化学习的多阶段信息物理协同拓扑攻击方法 被引量:5
15
作者 伊娜 徐建军 +1 位作者 陈月 孙迪康 《电力工程技术》 北大核心 2023年第4期149-158,共10页
随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障... 随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障。首先,基于攻击者的视角,提出一种多阶段信息物理协同拓扑攻击模型,单阶段的物理攻击使线路中断,双阶段的网络攻击分别用来掩盖物理攻击的断开线路和制造一条新的虚假断开线路。其次,结合深度强化学习(deep reinforcement learning,DRL)理论,提出一种基于深度Q网络(deep Q-network,DQN)的最小攻击资源确定方法。然后,给出攻击者考虑上层最大化物理攻击效果和下层最小化攻击代价的具体模型及求解方法。最后,以IEEE 30节点系统为例,验证了所提多阶段攻击模型的有效性。仿真结果表明,多阶段信息物理协同拓扑攻击较单一攻击更加隐蔽且有效,对电网的破坏程度更大,为防御此类攻击提供了参考。 展开更多
关键词 信息物理系统(CPS) 信息物理协同攻击(CCPA) 拓扑攻击 负荷重分配攻击 深度强化学习(DRL) 深度q网络(DqN)算法
在线阅读 下载PDF
基于强化学习的无人机智能组网技术及应用综述 被引量:5
16
作者 邱修林 宋博 +4 位作者 殷俊 徐雷 柯亚琪 廖振强 杨余旺 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第8期1576-1589,1598,共15页
针对无人机在民用和军事等领域中的研究热度及应用需求日益增长,传统Mode1-Based的网络部署、设计、操作方法无法应对动态变化的无人机场景的问题,本文综述了灵活性高、适应性强的AI-Based的智能组网技术,并引入强化学习这一人工智能领... 针对无人机在民用和军事等领域中的研究热度及应用需求日益增长,传统Mode1-Based的网络部署、设计、操作方法无法应对动态变化的无人机场景的问题,本文综述了灵活性高、适应性强的AI-Based的智能组网技术,并引入强化学习这一人工智能领域的重要分支。对现有利用强化学习技术解决无人机组网难题的研究进行了概述,结合无人机组网的特性梳理了此领域应用强化学习技术的主要思路。从几个应用场景,以及组网关键技术的角度进行了归纳,给出了基于强化学习的无人机智能组网技术所面临的机遇与挑战,并进行了总结。探究了无人机通信的感知能力与决策能力,适应了其动态变化且需要高度自治的环境需求。为未来无人机智能组网技术的发展提供了有价值的理论基础和实践指导。 展开更多
关键词 飞行自组网 强化学习 深度q网络算法 多智能体 无人机集群 智能路由 资源分配 跨层优化
在线阅读 下载PDF
融合注意力机制和LSTM的跳频抗干扰智能决策 被引量:3
17
作者 靳越 吴晓富 张剑书 《无线电通信技术》 2023年第6期1059-1066,共8页
无线通信易受到干扰攻击,为此,基于深度强化学习的抗干扰跳频(Frequency Hopping, FH)通信一直是近几年来通信中的一个活跃研究课题。针对跳频智能抗干扰通信场景,设计了一种基于注意力机制与长短时记忆(Long Short-Term Memory, LSTM)... 无线通信易受到干扰攻击,为此,基于深度强化学习的抗干扰跳频(Frequency Hopping, FH)通信一直是近几年来通信中的一个活跃研究课题。针对跳频智能抗干扰通信场景,设计了一种基于注意力机制与长短时记忆(Long Short-Term Memory, LSTM)网络相结合的抗干扰深度Q网络(Deep Q Network, DQN)算法决策神经网络,该神经网络基于感知的短时频谱瀑布信号输入做出下一跳的跳频频点决策。所提出的决策神经网络通过引入注意力机制模块和LSTM处理模块可以快速提取短时频谱瀑布图中的时频结构信息,从而实现决策神经网络的在线训练加速。仿真结果表明,在梳状干扰与扫频干扰下,该决策神经网络具有快速收敛特性,只需训练一轮即可收敛,与单纯的DQN算法和其他深度决策神经网络相比具有更加优异的收敛性能,适于抗干扰动态决策。 展开更多
关键词 通信抗干扰 注意力机制 长短时记忆网络 深度q网络算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部