期刊文献+
共找到86篇文章
< 1 2 5 >
每页显示 20 50 100
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
1
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
2
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度q学习网络(dqn)
在线阅读 下载PDF
基于联合DQN的定向能系统火力智能决策建模仿真方法
3
作者 屈长虹 王俊杰 +3 位作者 王坤 崔清勇 陈蒋洋 王鑫鹏 《系统仿真学报》 北大核心 2025年第5期1256-1265,共10页
针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建... 针对利用定向能系统反无人机集群作战中如何兼容多种部署方案动态解决火力智能决策的问题,建立了一个深度强化学习模型,并针对该模型多智能体状态和动作空间维度高的特点,提出了一种基于联合深度Q网络(DQN)的定向能系统火力智能决策建模仿真方法。以定向能系统的状态、无人机集群的状态和定向能系统部署区域的状态构造状态空间,利用联合机制共享各个装备的状态信息以及同类型装备的网络参数,设计威胁评估机制提高泛化性,并建立动作屏蔽机制屏蔽无效动作,有效解决了多智能体因状态和动作维度灾难引起的训练发散、收敛缓慢等问题,提高基于联合DQN网络学习效率和泛化性。根据仿真实验结果,该方法优于传统基于规则的方法,验证了该方法的可行性与实用性,为兼容多种部署方案的定向能系统反无人机集群火力智能决策提供一个新思路。 展开更多
关键词 定向能系统 反无人机集群 深度q网络 联合机制 威胁评估机制 动作屏蔽机制
在线阅读 下载PDF
一种基于DQN的去中心化优先级卸载策略
4
作者 张俊娜 李天泽 +1 位作者 赵晓焱 袁培燕 《计算机工程》 CAS CSCD 北大核心 2024年第9期235-245,共11页
边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故... 边缘计算(EC)可在网络边缘为用户提供低延迟、高响应的服务。因此,资源利用率高、时延低的任务卸载策略成为研究的热门方向。但大部分现有的任务卸载研究是基于中心化的架构,通过中心化设施制定卸载策略并进行资源调度,容易受到单点故障的影响,且会产生较多的能耗和较高的时延。针对以上问题,提出一种基于深度Q网络(DQN)的去中心化优先级(DP-DQN)卸载策略。首先,设置通信矩阵模拟现实中边缘服务器有限的通信状态;其次,通过对任务设定优先级,使任务可以在不同边缘服务器之间跳转,保证各边缘服务器均可以自主制定卸载策略,完成任务卸载的去中心化;最后,根据任务的跳转次数为任务分配更多的计算资源,提高资源利用效率和优化效果。为了验证所提策略的有效性,针对不同DQN下参数的收敛性能进行了研究对比,实验结果表明,在不同测试情景下,DP-DQN的性能均优于本地算法、完全贪婪算法和多目标任务卸载算法,性能可提升约11%~19%。 展开更多
关键词 边缘计算 任务卸载 资源分配 去中心化 优先级 深度q网络
在线阅读 下载PDF
基于集成DQN的自适应边缘缓存算法
5
作者 张雷 李亚文 王晓军 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期97-107,共11页
工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)... 工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)的自适应缓存策略。算法在离线阶段利用不同历史任务数据,训练并保存多个历史任务模型。在线阶段每当检测到实时数据流的任务特征发生变化,则重新训练网络模型。如果实时数据流的特征隶属于历史任务,则向深度Q网络(Deep Q-Network,DQN)导入相应的历史任务模型进行网络训练。否则直接利用实时数据流训练并标记为新的任务模型。仿真实验结果表明,IDQN与参考算法相比,在内容请求流行度动态变化时能够有效减少模型收敛时间,提高缓存效率。 展开更多
关键词 工业边缘网络 缓存替换策略 集成强化学习 深度q网络
在线阅读 下载PDF
无人驾驶中运用DQN进行障碍物分类的避障方法
6
作者 刘航博 马礼 +2 位作者 李阳 马东超 傅颖勋 《计算机工程》 CAS CSCD 北大核心 2024年第11期380-389,共10页
安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障... 安全是无人驾驶汽车需要考虑的首要因素,而避障问题是解决驾驶安全最有效的手段。基于学习的避障方法因其能够从环境中学习并直接从感知中做出决策的能力而受到研究者的关注。深度Q网络(DQN)作为一种流行的强化学习方法,在无人驾驶避障领域取得了很大的进展,但这些方法未考虑障碍物类型对避障策略的影响。基于对障碍物的准确分类提出一种Classification Security DQN(CSDQN)的车辆行驶决策框架。根据障碍物的不同类型以及环境信息给出具有更高安全性的无人驾驶决策,达到提高无人驾驶安全性的目的。首先对检测到的障碍物根据障碍物的安全性等级进行分类,然后根据不同类型障碍物提出安全评估函数,利用位置的不确定性和基于距离的安全度量来评估安全性,接着CSDQN决策框架利用障碍物类型、相对位置信息以及安全评估函数进行不断迭代优化获得最终模型。仿真结果表明,与先进的深度强化学习进行比较,在多种障碍物的情况下,采用CSDQN方法相较于DQN和SDQN方法分别提升了43.9%和4.2%的安全性,以及17.8%和3.7%的稳定性。 展开更多
关键词 无人驾驶 深度q网络 分类避障 评估函数 安全性
在线阅读 下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
7
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度q网络 功率分配
在线阅读 下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
8
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
在线阅读 下载PDF
基于二阶时序差分误差的双网络DQN算法 被引量:5
9
作者 陈建平 周鑫 +3 位作者 傅启明 高振 付保川 吴宏杰 《计算机工程》 CAS CSCD 北大核心 2020年第5期78-85,93,共9页
针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值... 针对深度Q网络(DQN)算法因过估计导致收敛稳定性差的问题,在传统时序差分(TD)的基础上提出N阶TD误差的概念,设计基于二阶TD误差的双网络DQN算法。构造基于二阶TD误差的值函数更新公式,同时结合DQN算法建立双网络模型,得到两个同构的值函数网络分别用于表示先后两轮的值函数,协同更新网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym平台的实验结果表明,在解决Mountain Car和Cart Pole问题方面,该算法较经典DQN算法具有更好的收敛稳定性。 展开更多
关键词 深度强化学习 马尔科夫决策过程 深度q网络 二阶时序差分误差 梯度下降
在线阅读 下载PDF
面向无人艇的T-DQN智能避障算法研究 被引量:13
10
作者 周治国 余思雨 +3 位作者 于家宝 段俊伟 陈龙 陈俊龙 《自动化学报》 EI CAS CSCD 北大核心 2023年第8期1645-1655,共11页
无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛... 无人艇(Unmanned surface vehicle, USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network, T-DQN),在深度Q网络(Deep Q network, DQN)基础上增加长短期记忆网络(Long short-term memory, LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明, T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少69.1%和24.8%,引入的阈值筛选机制使整体收敛步数降低41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶. 展开更多
关键词 无人艇 强化学习 智能避障 深度q网络
在线阅读 下载PDF
超密集网络中基于改进DQN的接入选择算法 被引量:2
11
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
信息年龄受限下最小化无人机辅助无线供能网络的能耗:一种基于DQN的方法 被引量:5
12
作者 刘玲珊 熊轲 +2 位作者 张煜 张锐晨 樊平毅 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第5期847-856,共10页
随着5G/B5G的不断发展,无人机在实时数据采集系统中将有广泛应用.利用无人机先给传感器节点进行无线充电,然后传感器节点利用收集到的能量将感知的信息上传无人机,可有效解决户外物联网节点的供电与数据采集问题.然而,由于无人机本身的... 随着5G/B5G的不断发展,无人机在实时数据采集系统中将有广泛应用.利用无人机先给传感器节点进行无线充电,然后传感器节点利用收集到的能量将感知的信息上传无人机,可有效解决户外物联网节点的供电与数据采集问题.然而,由于无人机本身的电量受限,如何在保证无人机充电辅助物联网系统顺利完成新鲜数据采集任务的前提下最小化无人机的能耗至关重要.为此,在满足信息采集新鲜度的要求下,通过联合优化无人机的飞行时间、加速度、转角和传感器节点信息上传和能量收集调度模式,建立无人机能耗最小化优化问题.由于该问题含有整数变量,大规模情况下求解较为困难.因此,首先将其建模为马尔科夫决策过程,然后提出了一种基于DQN(Deep Q Network)的无人机能耗优化算法框架求解,并设计相对应的状态空间、动作空间和奖励函数.仿真结果验证了所提DQN算法的收敛性,同时表明提出的DQN算法比传统的贪婪算法可降低8%~30%的无人机能耗.当传感器个数超过八个时,传统的贪婪算法很难求解,而所提DQN算法仍然能找到最优解.另外,随着AoI(Age of Information)限制值的缩小或传感器数量的增加,无人机的能量消耗会不断地增加,并且由于考虑了转角约束,所提算法优化得到的无人机飞行轨迹会更平滑. 展开更多
关键词 无人机辅助无线网络 信息年龄 能量收集 深度强化学习
在线阅读 下载PDF
基于改进DQN算法的机器人路径规划 被引量:13
13
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
在线阅读 下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:2
14
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度q网络算法 旋翼无人机 着陆控制
在线阅读 下载PDF
基于平均神经网络参数的DQN算法 被引量:4
15
作者 黄志勇 吴昊霖 +1 位作者 王壮 李辉 《计算机科学》 CSCD 北大核心 2021年第4期223-228,共6页
在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的... 在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率。实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%。 展开更多
关键词 深度强化学习 深度q网络 神经网络参数 深度探索
在线阅读 下载PDF
对多功能雷达的DQN认知干扰决策方法 被引量:19
16
作者 张柏开 朱卫纲 《系统工程与电子技术》 EI CSCD 北大核心 2020年第4期819-825,共7页
基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以... 基于Q-Learning的认知干扰决策方法随着多功能雷达(multifunctional radar,MFR)可执行的任务越来越多,决策效率明显下降。对此,提出了一种对MFR的深度Q神经网络(deep Q network,DQN)干扰决策方法。首先,分析MFR信号特点并构建干扰库,以此为基础研究干扰决策方法。其次,通过对DQN原理的简要阐述,提出了干扰决策方法及其决策流程。最后,对该决策方法进行了仿真试验并通过对比DQN和Q-Learning的决策性能,验证了所提方法的必要性。为提高决策的实时性和准确率,对DQN算法进行了改进,在此基础上,结合先验知识进一步提高了决策效率。仿真试验表明:该决策方法能够较好地自主学习实际战场中的干扰效果,对可执行多种雷达任务的MFR完成干扰决策。 展开更多
关键词 多功能雷达 干扰决策 深度q神经网络 认知电子战 先验知识
在线阅读 下载PDF
基于深度Q网络的机器人路径规划研究综述 被引量:7
17
作者 卢锦澎 梁宏斌 《传感器与微系统》 CSCD 北大核心 2024年第6期1-5,共5页
随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,... 随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,系统梳理并总结了从奖励函数、探索能力、样本利用率等方面进行优化的研究成果和思路。最后,讨论了DQN在现代物流中进行机器人路径规划的优势,对每个场景提出了算法的优化方向,涵盖状态空间、动作空间以及奖励函数等多个关键方面。 展开更多
关键词 机器人 路径规划 深度q网络 现代物流
在线阅读 下载PDF
Real-time UAV path planning based on LSTM network 被引量:2
18
作者 ZHANG Jiandong GUO Yukun +3 位作者 ZHENG Lihui YANG Qiming SHI Guoqing WU Yong 《Journal of Systems Engineering and Electronics》 SCIE CSCD 2024年第2期374-385,共12页
To address the shortcomings of single-step decision making in the existing deep reinforcement learning based unmanned aerial vehicle(UAV)real-time path planning problem,a real-time UAV path planning algorithm based on... To address the shortcomings of single-step decision making in the existing deep reinforcement learning based unmanned aerial vehicle(UAV)real-time path planning problem,a real-time UAV path planning algorithm based on long shortterm memory(RPP-LSTM)network is proposed,which combines the memory characteristics of recurrent neural network(RNN)and the deep reinforcement learning algorithm.LSTM networks are used in this algorithm as Q-value networks for the deep Q network(DQN)algorithm,which makes the decision of the Q-value network has some memory.Thanks to LSTM network,the Q-value network can use the previous environmental information and action information which effectively avoids the problem of single-step decision considering only the current environment.Besides,the algorithm proposes a hierarchical reward and punishment function for the specific problem of UAV real-time path planning,so that the UAV can more reasonably perform path planning.Simulation verification shows that compared with the traditional feed-forward neural network(FNN)based UAV autonomous path planning algorithm,the RPP-LSTM proposed in this paper can adapt to more complex environments and has significantly improved robustness and accuracy when performing UAV real-time path planning. 展开更多
关键词 deep q network path planning neural network unmanned aerial vehicle(UAV) long short-term memory(LSTM)
在线阅读 下载PDF
计及电力-通信-交通耦合网络不确定性的虚拟电厂鲁棒优化调度
19
作者 潘超 李梓铭 +3 位作者 龚榆淋 叶宇鸿 孙中伟 周振宇 《电工技术学报》 北大核心 2025年第15期4755-4769,共15页
电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VP... 电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VPP需求响应优化调度的影响,导致调度成本高、鲁棒性差。针对上述问题,首先,该文构建电力-通信-交通耦合网络模型,并以最小化网损、节点电压偏差、VPP经济成本的加权和为目标建立优化问题;其次,分析来自电力-通信-交通三个网络的不确定性因素,并构建计及电力-通信-交通耦合网络不确定性的VPP鲁棒优化调度问题;然后,提出一种基于联邦对抗深度Q网络(DQN)的VPP鲁棒优化调度求解算法,通过双智能体之间的不断迭代,实现鲁棒最优策略的对抗求解;最后,对所提算法进行仿真验证,仿真结果表明,所提算法能够有效降低不确定性因素对VPP优化调度的影响,提高电网运行的可靠性与稳定性。 展开更多
关键词 电力-通信-交通 虚拟电厂 不确定性 鲁棒优化调度 联邦对抗深度q网络(dqn)
在线阅读 下载PDF
一种基于视觉注意力机制的深度循环Q网络模型 被引量:21
20
作者 刘全 翟建伟 +3 位作者 钟珊 章宗长 周倩 章鹏 《计算机学报》 EI CSCD 北大核心 2017年第6期1353-1366,共14页
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏... 由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性. 展开更多
关键词 深度学习 强化学习 深度强化学习 深度q学习 循环神经网络 视觉注意力机制 人工智能
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部