期刊文献+
共找到171篇文章
< 1 2 9 >
每页显示 20 50 100
基于改进深度Q网络的无预测风电场日前拓扑优化
1
作者 黄晟 潘丽君 +3 位作者 屈尹鹏 周歧林 徐箭 柯德平 《电力系统自动化》 北大核心 2025年第2期122-132,共11页
风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差... 风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差的引入造成日前优化调控方案有效性的降低,增加了日内风机调控的难度。因此,文中充分发挥强化学习模型的决策能力,提出了一种基于改进深度Q网络(DQN)的无预测风电场拓扑重构决策方案,并以DQN为框架展开。首先,构建基于历史数据的状态空间;然后,提出基于生成树的动作价值对解耦的动作空间优化方法,以最小化电压偏差和网损为目标建立优化评价体系,完成由历史实际出力数据到决策的映射关系构建,在避免引入预测误差的情况下实现风电场日前优化调控;最后,设计一种基于多层次经验指导的经验回放策略,提升算法的训练性能,保证算法的适用性。根据实际的风电运行数据进行仿真,通过对比分析改进技术对DQN算法的影响和优化调控前后风电场的运行状态,验证了所提方法的创新性和有效性。 展开更多
关键词 风电场 预测 深度q网络 拓扑重构 电压控制 优化 强化学习
在线阅读 下载PDF
基于深度Q网络的平衡杆优化控制实验教学案例设计
2
作者 钟珊 杜鑫 +2 位作者 司亚利 刘井莲 严卫 《实验室研究与探索》 北大核心 2025年第1期146-152,190,共8页
为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了... 为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了实验方案的设计。实验评估综合考虑了算法有效性、Q值估计的准确性、样本效率和Q网络的损失估计。在此基础上,将其与基准算法Q学习算法在累计奖赏和学习效率上进行了对比。该实验不仅可以帮助学生学会综合应用强化学习知识,也能帮助其掌握采用深度Q网络算法来求解离散动作空间任务的最优策略。 展开更多
关键词 强化学习 深度q网络 q学习 平衡杆 实验设计
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
3
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 深度q网络
在线阅读 下载PDF
基于BP网络和DQN的预测-校正再入制导方法
4
作者 王宽 闫循良 +2 位作者 洪蓓 南汶江 王培臣 《西北工业大学学报》 北大核心 2025年第2期201-211,共11页
针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏... 针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏差校正倾侧角幅值剖面参数;在侧向制导方面,针对再入制导问题构建强化学习所需的状态、动作空间;确定决策点并设计考虑综合性能的奖励函数;构建强化学习训练网络,进而通过学习网络实现倾侧反转决策。以CAV-H再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提基于BP网络的纵向制导方法具有相当的终端精度和较高的计算效率;与传统基于航向角走廊的侧向制导方法相比,所提基于DQN的侧向制导方法具有相当的计算精度以及更少的反转次数。 展开更多
关键词 再入滑翔制导 预测-校正 BP网络 强化学习 深度q学习网络
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:7
5
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度q网络
在线阅读 下载PDF
基于深度强化学习的孤岛微电网二次频率控制
6
作者 王力 蒋宇翔 +2 位作者 曾祥君 赵斌 李均昊 《中国电力》 北大核心 2025年第5期176-188,共13页
随着分布式电源大量接入微电网,可再生能源发电波动性和系统随机扰动给孤岛微电网频率稳定和运行控制带来了严重威胁。为此,提出了基于深度强化学习的二次频率控制方法,分析孤岛微电网下垂控制特性,提出了基于深度Q网络的二次频率控制... 随着分布式电源大量接入微电网,可再生能源发电波动性和系统随机扰动给孤岛微电网频率稳定和运行控制带来了严重威胁。为此,提出了基于深度强化学习的二次频率控制方法,分析孤岛微电网下垂控制特性,提出了基于深度Q网络的二次频率控制器结构。将频率偏差作为状态输入变量,依次完成深度Q网络算法中状态空间、动作空间、奖励函数、神经网络和超参数的设计,其中奖励函数兼顾了频率恢复和各分布式电源功率分配的目标,实现各智能体动作选择一致性;通过离线学习训练生成深度强化学习二次频率控制器。在Matlab/Simulink中搭建孤岛微电网仿真模型,设置多场景源荷扰动验证控制器性能。结果表明,与传统PID控制和基于Q学习算法控制器相比,该控制方法能够快速实现更稳定的二次频率控制,并能自适应协调各分布式电源按自身容量进行功率分配,确保系统稳定运行。 展开更多
关键词 深度强化学习 孤岛微电网 下垂控制 深度q网络 二次频率控制 功率分配
在线阅读 下载PDF
基于深度强化学习的无人机紫外光信息收集方法
7
作者 赵太飞 郭佳豪 +1 位作者 辛雨 王璐 《光子学报》 北大核心 2025年第1期43-58,共16页
针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使... 针对电磁干扰环境下的无人机信息收集问题,使用深度强化学习算法实现了紫外光非直视通信收发仰角自适应调整的信息收集方法。建立了无人机的移动、通信、信息收集和能耗模型,以时间、能量和通信质量为目标函数,建立了多目标优化模型,使用深度强化学习算法解决多目标优化问题。为了让无人机获得更优的飞行方向、飞行速度以及紫外光收发仰角的决策,设计了一套适合信息收集任务的奖励函数,并对经典的深度双Q网络算法加入双目标网络、熵正则化和优先经验回放等改进。仿真结果表明,改进的算法相比经典的深度双Q网络算法,在时间效率上至少提高了13%,能量消耗至少减少了14%。 展开更多
关键词 无人机 信息收集 紫外光非直视通信 深度强化学习 深度q网络
在线阅读 下载PDF
基于深度强化学习的电力线与无线双模通信MAC层接入算法
8
作者 陈智雄 詹学滋 左嘉烁 《智能系统学报》 北大核心 2025年第2期344-354,共11页
针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双... 针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。 展开更多
关键词 电力线通信 无线通信 双模节点 深度强化学习 深度q网络 MAC层接入 公平效用函数 P坚持接入
在线阅读 下载PDF
基于Dueling-DQN的异构无线网络垂直切换算法研究
9
作者 李敏之 李转怀 《电子测量技术》 北大核心 2024年第15期101-108,共8页
针对当前异构无线网络中切换算法考虑的服务质量指标较少,用户频繁切换愈加严重的问题,提出了基于主客观加权与改进的深度强化学习相结合的异构无线网络垂直切换方法。首先,提出了一种支持异构无线网络的软件定义网络架构;其次,提出了... 针对当前异构无线网络中切换算法考虑的服务质量指标较少,用户频繁切换愈加严重的问题,提出了基于主客观加权与改进的深度强化学习相结合的异构无线网络垂直切换方法。首先,提出了一种支持异构无线网络的软件定义网络架构;其次,提出了主客观加权相结合的属性加权算法;最后,将网络选择问题利用改进的Dueling-DQN方法解决。仿真结果表明,本文所提算法在不同用户类型网络下切换次数分别减少了11.25%,13.34%,18.76%,13.75%,吞吐量提升了16.64%。因此本文所提算法有效避免了乒乓切换,减少切换次数并且提升了吞吐量。 展开更多
关键词 异构无线网络 软件定义网络 层次分析法 熵值法 深度q学习
在线阅读 下载PDF
融合电网拓扑信息的分支竞争Q网络智能体紧急切负荷决策 被引量:1
10
作者 潘晓杰 胡泽 +5 位作者 姚伟 兰宇田 徐友平 王玉坤 张慕婕 文劲宇 《电力系统保护与控制》 北大核心 2025年第8期71-80,共10页
暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络... 暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络智能体的电力系统紧急切负荷决策方法,以提高离线紧急切负荷决策的效率。首先,建立了一种基于事件驱动的马尔科夫决策过程,可以有效指导深度强化学习智能体的训练。其次,设计了一种分支竞争Q网络智能体,相比传统无分支网络,基于分支竞争Q网络智能体具有更强的训练效率和决策能力。然后,为进一步增强智能体的训练效率和决策性能,通过图卷积增强将电力系统拓扑信息融入到智能体的训练过程。最后,在中国电力科学研究院8机36节点系统进行了验证。相比于无分支网络和无拓扑信息融入的深度强化学习智能体,所提方法具有更高的训练效率和决策性能。 展开更多
关键词 仿真分析 暂态电压失稳 紧急切负荷决策 深度强化学习 分支竞争q网络 电网拓扑信息 图卷积增强
在线阅读 下载PDF
基于深度Q网络学习的机器人端到端控制方法 被引量:28
11
作者 张浩杰 苏治宝 苏波 《仪器仪表学报》 EI CAS CSCD 北大核心 2018年第10期36-43,共8页
为了提高机器人在没有障碍物地图或者激光雷达数据稀疏情况下进行无碰撞运动的准确性,将强化学习与深度学习方法融合,提出了一种基于深度Q网络学习的机器人端到端控制方法。首先,利用传统Q学习方法进行强化学习,生成大量的有标签数据样... 为了提高机器人在没有障碍物地图或者激光雷达数据稀疏情况下进行无碰撞运动的准确性,将强化学习与深度学习方法融合,提出了一种基于深度Q网络学习的机器人端到端控制方法。首先,利用传统Q学习方法进行强化学习,生成大量的有标签数据样本;然后,利用深度神经网络构建从激光雷达数据输入到机器人运动速度输出的端到端控制模型,该模型由输入层、输出层和两个全连接层组成;最后,在仿真环境中完成了模型的训练和评估,并将其部署在机器人平台上测试。实验结果表明,该方法训练生成的模型有效地建立了激光雷达数据与机器人运动速度之间的映射关系,按照这种映射关系,机器人在每一个控制周期选择Q值最大的动作执行,能运动平顺地规避障碍物。 展开更多
关键词 深度强化学习 深度q网络 端到端 无碰撞运动
在线阅读 下载PDF
移动边缘网络中基于双深度Q学习的高能效资源分配方法 被引量:11
12
作者 喻鹏 张俊也 +4 位作者 李文璟 周凡钦 丰雷 付澍 邱雪松 《通信学报》 EI CSCD 北大核心 2020年第12期148-161,共14页
为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设... 为了提升移动边缘网络中系统的能量使用效率,面向多任务、多终端设备、多边缘网关、多边缘服务器共存网络架构的下行通信过程,提出了一种基于双深度Q学习(DDQL)的通信、计算、存储融合资源分配方法。以任务平均能耗最小化为优化目标,设置任务时延和通信、计算、存储资源限制等约束条件,构建了对应的资源分配模型。依据模型特征,基于DDQL框架,提出了适用于通信和计算资源智能决策、存储资源按需分配的资源分配模型和算法。仿真结果表明,所提出的基于DDQL资源分配方法可以有效地解决多任务资源分配问题,具有较好的收敛性和较低的时间复杂度,在保障业务服务质量的同时,相对于基于随机算法、贪心算法、粒子群优化算法、深度Q学习等方法,降低了至少5%的任务平均能耗。 展开更多
关键词 移动边缘网络 融合资源分配 高能效 深度q学习
在线阅读 下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
13
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
一种车载服务的快速深度Q学习网络边云迁移策略 被引量:8
14
作者 彭军 王成龙 +3 位作者 蒋富 顾欣 牟玥玥 刘伟荣 《电子与信息学报》 EI CSCD 北大核心 2020年第1期58-64,共7页
智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云... 智能网联交通系统中车载用户的高速移动,不可避免地造成了数据在边缘服务器之间频繁迁移,产生了额外的通信回传时延,对边缘服务器的实时计算服务带来了巨大的挑战。为此,该文提出一种基于车辆运动轨迹的快速深度Q学习网络(DQN-TP)边云迁移策略,实现数据迁移的离线评估和在线决策。车载决策神经网络实时获取接入的边缘服务器网络状态和通信回传时延,根据车辆的运动轨迹进行虚拟机或任务迁移的决策,同时将实时的决策信息和获取的边缘服务器网络状态信息发送到云端的经验回放池中;评估神经网络在云端读取经验回放池中的相关信息进行网络参数的优化训练,定时更新车载决策神经网络的权值,实现在线决策的优化。最后仿真验证了所提算法与虚拟机迁移算法和任务迁移算法相比能有效地降低时延。 展开更多
关键词 智能网联交通系统 虚拟机迁移 强化学习 深度q学习网络
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
15
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度q学习网络(dqn)
在线阅读 下载PDF
基于RCED-DQN的滚动轴承故障诊断方法研究
16
作者 李家声 王亭强 +3 位作者 周杰 马萍 张宏立 苑茹 《组合机床与自动化加工技术》 北大核心 2025年第2期188-193,199,共7页
为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架... 为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架将一维卷积网络和残差编解码器结合,进行无监督预训练拓宽网络结构,挖掘了网络深层特征,解决了深度强化学习网络难以训练、模型难以收敛的问题;然后,采用预训练后的编码器作为特征提取器,与所设计的特征分类器相连接构建DQN算法的Q网络。通过智能体与环境的交互学习出最佳诊断策略,实现了滚动轴承端到端的故障诊断。实验结果证明,融合残差编解码器的深度Q网络在实验数据集下有效地提取故障特征,提高了诊断决策能力;在不同方法、不同工况下的对比实验结果也验证了所提方法的准确性、有效性和泛化性。 展开更多
关键词 深度强化学习 故障诊断 残差编解码器 dqn网络
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
17
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度q网络算法(MPN-dqn) 路径规划
在线阅读 下载PDF
基于深度Q网络的无人车侦察路径规划 被引量:3
18
作者 夏雨奇 黄炎焱 陈恰 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3070-3081,共12页
在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结... 在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度Q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度Q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。 展开更多
关键词 深度强化学习 无人侦察车 路径规划 深度q网络
在线阅读 下载PDF
基于改进深度Q学习的网络选择算法 被引量:5
19
作者 马彬 陈海波 张超 《电子与信息学报》 EI CSCD 北大核心 2022年第1期346-353,共8页
在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练... 在引入休眠机制的超密集异构无线网络中,针对网络动态性增强,导致切换性能下降的问题,该文提出一种基于改进深度Q学习的网络选择算法。首先,根据网络的动态性分析,构建深度Q学习选网模型;其次,将深度Q学习选网模型中线下训练模块的训练样本与权值,通过迁移学习,将其迁移到线上决策模块中;最后,利用迁移的训练样本及权值加速训练神经网络,得到最佳选网策略。实验结果表明,该文算法显著改善了因休眠机制导致的高动态性网络切换性能下降问题,同时降低了传统深度Q学习算法在线上选网过程中的时间复杂度。 展开更多
关键词 超密集异构无线网络 改进深度q学习 网络选择
在线阅读 下载PDF
计及稳压率和经济性的城轨直流牵引供电光储系统深度Q网络优化控制方法 被引量:1
20
作者 吕宗璞 戴朝华 +3 位作者 姚志刚 周斌彬 郭爱 吴磊 《电力自动化设备》 EI CSCD 北大核心 2024年第10期46-52,共7页
光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷... 光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷能量管理系统作为智能代理,通过光伏出力、储能荷电状态、牵引网压等外部状态训练代理,得到可实现系统经济可靠运行的优化策略。介绍源-储-荷综合系统的框架结构及传统控制策略,并对各设备进行外特性建模;对源-储-荷综合系统的能量管理问题开展马尔可夫决策过程建模,确立强化学习框架;根据某市域线路数据在MATLAB平台上进行仿真以验证所提方法的有效性。研究结果表明,所提方法通过动态调整储能电压阈值,可实现控制策略优化;通过与几种传统控制策略对比可知,所提方法在兼顾系统稳压水平与运行经济性方面占据优势;不同环境下的收敛效果对比体现了所提方法的可继承性,并在多组测试样本下验证了该方法的普适性。 展开更多
关键词 光伏发电 直流牵引供电系统 改进控制策略 深度强化学习 深度q网络
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部