期刊文献+
共找到192篇文章
< 1 2 10 >
每页显示 20 50 100
改进Deep Q Networks的交通信号均衡调度算法
1
作者 贺道坤 《机械设计与制造》 北大核心 2025年第4期135-140,共6页
为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向... 为进一步缓解城市道路高峰时段十字路口的交通拥堵现象,实现路口各道路车流均衡通过,基于改进Deep Q Networks提出了一种的交通信号均衡调度算法。提取十字路口与交通信号调度最相关的特征,分别建立单向十字路口交通信号模型和线性双向十字路口交通信号模型,并基于此构建交通信号调度优化模型;针对Deep Q Networks算法在交通信号调度问题应用中所存在的收敛性、过估计等不足,对Deep Q Networks进行竞争网络改进、双网络改进以及梯度更新策略改进,提出相适应的均衡调度算法。通过与经典Deep Q Networks仿真比对,验证论文算法对交通信号调度问题的适用性和优越性。基于城市道路数据,分别针对两种场景进行仿真计算,仿真结果表明该算法能够有效缩减十字路口车辆排队长度,均衡各路口车流通行量,缓解高峰出行方向的道路拥堵现象,有利于十字路口交通信号调度效益的提升。 展开更多
关键词 交通信号调度 十字路口 deep q networks 深度强化学习 智能交通
在线阅读 下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
2
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep q network(DDqN)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
3
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DqN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进深度Q网络的无预测风电场日前拓扑优化
4
作者 黄晟 潘丽君 +3 位作者 屈尹鹏 周歧林 徐箭 柯德平 《电力系统自动化》 北大核心 2025年第2期122-132,共11页
风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差... 风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差的引入造成日前优化调控方案有效性的降低,增加了日内风机调控的难度。因此,文中充分发挥强化学习模型的决策能力,提出了一种基于改进深度Q网络(DQN)的无预测风电场拓扑重构决策方案,并以DQN为框架展开。首先,构建基于历史数据的状态空间;然后,提出基于生成树的动作价值对解耦的动作空间优化方法,以最小化电压偏差和网损为目标建立优化评价体系,完成由历史实际出力数据到决策的映射关系构建,在避免引入预测误差的情况下实现风电场日前优化调控;最后,设计一种基于多层次经验指导的经验回放策略,提升算法的训练性能,保证算法的适用性。根据实际的风电运行数据进行仿真,通过对比分析改进技术对DQN算法的影响和优化调控前后风电场的运行状态,验证了所提方法的创新性和有效性。 展开更多
关键词 风电场 预测 深度q网络 拓扑重构 电压控制 优化 强化学习
在线阅读 下载PDF
基于深度Q网络的平衡杆优化控制实验教学案例设计
5
作者 钟珊 杜鑫 +2 位作者 司亚利 刘井莲 严卫 《实验室研究与探索》 北大核心 2025年第1期146-152,190,共8页
为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了... 为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了实验方案的设计。实验评估综合考虑了算法有效性、Q值估计的准确性、样本效率和Q网络的损失估计。在此基础上,将其与基准算法Q学习算法在累计奖赏和学习效率上进行了对比。该实验不仅可以帮助学生学会综合应用强化学习知识,也能帮助其掌握采用深度Q网络算法来求解离散动作空间任务的最优策略。 展开更多
关键词 强化学习 深度q网络 q学习 平衡杆 实验设计
在线阅读 下载PDF
融合电网拓扑信息的分支竞争Q网络智能体紧急切负荷决策 被引量:1
6
作者 潘晓杰 胡泽 +5 位作者 姚伟 兰宇田 徐友平 王玉坤 张慕婕 文劲宇 《电力系统保护与控制》 北大核心 2025年第8期71-80,共10页
暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络... 暂态电压失稳事件紧急控制措施制定是电力系统仿真分析中的一个重要内容,离线预先制定紧急切负荷决策,在线匹配执行决策方案。但该工作目前主要依赖专家分析海量仿真数据得到,耗时耗力。因此提出了一种融合电网拓扑信息的分支竞争Q网络智能体的电力系统紧急切负荷决策方法,以提高离线紧急切负荷决策的效率。首先,建立了一种基于事件驱动的马尔科夫决策过程,可以有效指导深度强化学习智能体的训练。其次,设计了一种分支竞争Q网络智能体,相比传统无分支网络,基于分支竞争Q网络智能体具有更强的训练效率和决策能力。然后,为进一步增强智能体的训练效率和决策性能,通过图卷积增强将电力系统拓扑信息融入到智能体的训练过程。最后,在中国电力科学研究院8机36节点系统进行了验证。相比于无分支网络和无拓扑信息融入的深度强化学习智能体,所提方法具有更高的训练效率和决策性能。 展开更多
关键词 仿真分析 暂态电压失稳 紧急切负荷决策 深度强化学习 分支竞争q网络 电网拓扑信息 图卷积增强
在线阅读 下载PDF
基于深度Q学习的组网雷达闪烁探测调度方法
7
作者 林志康 施龙飞 +1 位作者 刘甲磊 马佳智 《系统工程与电子技术》 北大核心 2025年第5期1443-1452,共10页
组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单... 组网雷达闪烁探测体制可以提高雷达的协同探测性能和生存率,选择合适的雷达协同探测开机并限制单部雷达的开机暴露时间适应不断变化的环境威胁是亟待解决的问题。对此,提出一种基于深度Q学习(deep Q-learning,DQL)强化学习算法的限制单部雷达开机时间的组网雷达闪烁探测调度方法。首先建立空中干扰机对组网雷达的威胁度模型和雷达对空中干扰机的组网雷达闪烁探测模型;然后提出威胁度、组网瞬时探测概率强化学习奖励函数;最后利用提出的DQL算法求取组网雷达最佳闪烁开机决策调度方案。仿真结果表明,所提DQL调度方法平均效益率均优于随机调度、人工蜂群调度、双深度Q网络调度方法,且调度响应耗时较少。 展开更多
关键词 组网雷达 闪烁探测 强化学习 深度q学习 双深度q网络
在线阅读 下载PDF
基于RCED-DQN的滚动轴承故障诊断方法研究
8
作者 李家声 王亭强 +3 位作者 周杰 马萍 张宏立 苑茹 《组合机床与自动化加工技术》 北大核心 2025年第2期188-193,199,共7页
为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架... 为提升滚动轴承设备故障诊断中传统卷积神经网络模型的特征提取能力和决策能力,增强诊断模型的准确率和泛化性,提出了基于深度强化学习DQN网络模型的RCED-DQN(residual convolutional encoder decoder-DQN,RCED-DQN)故障诊断框架。框架将一维卷积网络和残差编解码器结合,进行无监督预训练拓宽网络结构,挖掘了网络深层特征,解决了深度强化学习网络难以训练、模型难以收敛的问题;然后,采用预训练后的编码器作为特征提取器,与所设计的特征分类器相连接构建DQN算法的Q网络。通过智能体与环境的交互学习出最佳诊断策略,实现了滚动轴承端到端的故障诊断。实验结果证明,融合残差编解码器的深度Q网络在实验数据集下有效地提取故障特征,提高了诊断决策能力;在不同方法、不同工况下的对比实验结果也验证了所提方法的准确性、有效性和泛化性。 展开更多
关键词 深度强化学习 故障诊断 残差编解码器 DqN网络
在线阅读 下载PDF
基于BP网络和DQN的预测-校正再入制导方法
9
作者 王宽 闫循良 +2 位作者 洪蓓 南汶江 王培臣 《西北工业大学学报》 北大核心 2025年第2期201-211,共11页
针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏... 针对传统数值预测-校正制导算法计算效率低、难以在线应用等问题,提出了一种基于BP网络和深度Q学习网络(DQN)的预测-校正制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,构建并训练了剩余航程预测BP网络,利用预测航程偏差校正倾侧角幅值剖面参数;在侧向制导方面,针对再入制导问题构建强化学习所需的状态、动作空间;确定决策点并设计考虑综合性能的奖励函数;构建强化学习训练网络,进而通过学习网络实现倾侧反转决策。以CAV-H再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提基于BP网络的纵向制导方法具有相当的终端精度和较高的计算效率;与传统基于航向角走廊的侧向制导方法相比,所提基于DQN的侧向制导方法具有相当的计算精度以及更少的反转次数。 展开更多
关键词 再入滑翔制导 预测-校正 BP网络 强化学习 深度q学习网络
在线阅读 下载PDF
基于改进DDQN船舶自动靠泊路径规划方法 被引量:1
10
作者 李康斌 朱齐丹 +1 位作者 牟进友 菅紫婷 《智能系统学报》 北大核心 2025年第1期73-80,共8页
船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船... 船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。 展开更多
关键词 自动靠泊 路径规划 深度强化学习 双深度q网络 奖励函数 水流速度 状态探索 推力 时间 独立重复实验
在线阅读 下载PDF
基于DDQN-D^(3)PG的无人机空战分层决策
11
作者 王昱 李远鹏 +2 位作者 郭中宇 李硕 任田君 《兵工学报》 北大核心 2025年第8期66-76,共11页
强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Dee... 强化学习在无人机空战应用中面临僵化的奖励函数与单一模型难以处理高维连续状态空间中复杂任务的挑战,严重限制了算法在动态多变态势下的决策泛化能力。针对上述问题,融合分层式与分布式架构的精髓,提出一种集成深度双Q网络(Double Deep Q-Network,DDQN)与深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的自主决策框架。根据敌我双方在不同态势下的优势差异,设计一系列基于不同奖励函数权重组合的DDPG算法模型,并以此构建底层分布式深度确定性策略梯度(Distributed DDPG,D^(3)PG)决策网络。引入擅长处理离散动作空间的DDQN算法构建上层决策网络,根据实时态势变化自主地选择并切换至最合适的底层策略模型,实现决策的即时调整与优化。为进一步提升红蓝双方无人机近距离空战环境的真实性与挑战性,在DDPG算法的训练中引入自我博弈机制,构建具备高度智能化的敌方决策模型。实验结果表明,新算法在无人机与智能化对手的博弈对抗中胜率最高达96%,相较D^(3)PG等算法提升20%以上,且在多种初始态势下均能稳定战胜对手,充分验证了该方法的有效性和先进性。 展开更多
关键词 无人机空战 强化学习 分层决策 深度双q网络 分布式深度确定性策略梯度
在线阅读 下载PDF
基于D3QN的火力方案优选方法
12
作者 佘维 岳瀚 +1 位作者 田钊 孔德锋 《火力与指挥控制》 CSCD 北大核心 2024年第8期166-174,共9页
针对在多类弹药协同攻击地面工事类目标任务中火力方案优选效率低的问题,提出一种基于双层决斗DQN(dueling double deep Q network,D3QN)的火力方案优选方法。该方法将打击过程建模为马尔科夫决策过程(Markov decision processes,MDP),... 针对在多类弹药协同攻击地面工事类目标任务中火力方案优选效率低的问题,提出一种基于双层决斗DQN(dueling double deep Q network,D3QN)的火力方案优选方法。该方法将打击过程建模为马尔科夫决策过程(Markov decision processes,MDP),设计其状态空间和动作空间,设计综合奖励函数激励火力方案生成策略优化,使智能体通过强化学习框架对策略进行自主训练。仿真实验结果表明,该方法对地面工事类目标的火力方案进行决策,相较于传统启发式智能算法能够获得较优的火力方案,其计算效率和结果的稳定性相较于传统深度强化学习算法具有更明显的优势。 展开更多
关键词 深度强化学习 深度q网络 D3qN 组合优化 火力方案优选
在线阅读 下载PDF
基于集成DQN的自适应边缘缓存算法
13
作者 张雷 李亚文 王晓军 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期97-107,共11页
工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)... 工业应用中,动态多变的流式数据特性使强化学习算法在训练过程中很难在模型收敛性与知识遗忘之间实现很好的平衡。考虑工业现场内容请求与当前生产任务具有高度相关性,提出一种基于集成深度Q网络算法(Integrated Deep Q-Network,IDQN)的自适应缓存策略。算法在离线阶段利用不同历史任务数据,训练并保存多个历史任务模型。在线阶段每当检测到实时数据流的任务特征发生变化,则重新训练网络模型。如果实时数据流的特征隶属于历史任务,则向深度Q网络(Deep Q-Network,DQN)导入相应的历史任务模型进行网络训练。否则直接利用实时数据流训练并标记为新的任务模型。仿真实验结果表明,IDQN与参考算法相比,在内容请求流行度动态变化时能够有效减少模型收敛时间,提高缓存效率。 展开更多
关键词 工业边缘网络 缓存替换策略 集成强化学习 深度q网络
在线阅读 下载PDF
一种利用优先经验回放深度Q-Learning的频谱接入算法 被引量:7
14
作者 盘小娜 陈哲 +1 位作者 李金泽 覃团发 《电讯技术》 北大核心 2020年第5期489-495,共7页
针对认知无线传感器网络中频谱接入算法的频谱利用率不高、重要经验利用率不足、收敛速度慢等问题,提出了一种采用优先经验回放双深度Q-Learning的动态频谱接入算法。该算法的次用户对经验库进行抽样时,采用基于优先级抽样的方式,以打... 针对认知无线传感器网络中频谱接入算法的频谱利用率不高、重要经验利用率不足、收敛速度慢等问题,提出了一种采用优先经验回放双深度Q-Learning的动态频谱接入算法。该算法的次用户对经验库进行抽样时,采用基于优先级抽样的方式,以打破样本相关性并充分利用重要的经验样本,并采用一种非排序批量删除方式删除经验库的无用经验样本,以降低能量开销。仿真结果表明,该算法与采用双深度Q-Learning的频谱接入算法相比提高了收敛速度;与传统随机频谱接入算法相比,其阻塞概率降低了6%~10%,吞吐量提高了18%~20%,提高了系统的性能。 展开更多
关键词 认知无线传感器网络 动态频谱接入 强化学习 深度q-learning
在线阅读 下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
15
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
基于深度Q网络的无人车侦察路径规划 被引量:3
16
作者 夏雨奇 黄炎焱 陈恰 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3070-3081,共12页
在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结... 在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度Q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度Q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。 展开更多
关键词 深度强化学习 无人侦察车 路径规划 深度q网络
在线阅读 下载PDF
基于改进DDQN的无人车路径规划算法 被引量:2
17
作者 曹京威 何秋生 《组合机床与自动化加工技术》 北大核心 2024年第8期48-53,共6页
针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场... 针对DDQN算法在路径规划方面存在收敛速度慢和路径质量低等问题,基于DDQN算法研究了一种无人车路径规划算法。首先,通过获得多个时刻的奖励值,将这些奖励累加并均值处理从而充分利用奖励值信息;然后,通过优化斥力生成的方向改进人工势场法,并用改进的人工势场法代替随机探索提升收敛速度;最后,通过判断路径与障碍物的关系移除冗余节点,并使用贝塞尔曲线对路径进行平滑处理提升路径质量。仿真结果表明,在20×20的两种环境中,改进的DDQN算法相比原始DDQN算法收敛速度分别提升69.01%和55.88%,路径长度分别缩短21.39%和14.33%,并且路径平滑度更高。将改进的DDQN算法部署在无人车上进行检验,结果表明无人车能够较好完成路径规划任务。 展开更多
关键词 强化学习 深度q网络 人工势场 路径规划
在线阅读 下载PDF
基于DQN和功率分配的FDA-MIMO雷达抗扫频干扰
18
作者 周长霖 王春阳 +3 位作者 宫健 谭铭 包磊 刘明杰 《雷达科学与技术》 北大核心 2024年第2期155-160,169,共7页
频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频... 频率分集阵列(Frequency Diversity Array,FDA)雷达由于其阵列元件的频率增量产生了许多新的特性,包括其可以通过发射功率分配进行灵活的发射波形频谱控制。在以扫频干扰为电磁干扰环境的假设下,首先,通过引入强化学习的框架,建立了频率分集阵列-多输入多输出(Frequency Diversity Array-Multiple Input Multiple Output,FDA-MIMO)雷达与电磁干扰环境交互模型,使得FDA-MIMO雷达能够在与电磁环境交互过程中,感知干扰抑制干扰。其次,本文提出了一种基于深度Q网络(Deep Q-Network,DQN)和FDA-MIMO雷达发射功率分配的扫频干扰抑制方法,使得雷达系统能够在充分利用频谱资源的情况下最大化SINR。最后,仿真结果证实,在强化学习框架下,FDA-MIMO雷达能够通过对发射功率分配进行优化,完成干扰抑制,提升雷达性能。 展开更多
关键词 频率分集阵列 扫频干扰 强化学习 深度q网络 功率分配
在线阅读 下载PDF
基于双DQN算法的机器人手臂带电作业精准导航研究 被引量:1
19
作者 李宁 何义良 +2 位作者 赵建辉 刘兆威 田志 《电网与清洁能源》 CSCD 北大核心 2024年第11期9-15,共7页
为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最... 为实现电网带电作业机器人手臂的精准导航,提出全局加权奖励机制,建立基于全局加权奖励机制和双深度Q网络算法的机器人手臂精准导航模型,解决了Q值过估计和更新效率低的问题。研究仿真机器人手臂跨线作业避障和导航,结果表明:学习率最佳值为0.005,全局加权奖励机制相比当前状态即时奖励,更能够提高Q值更新效率;基于全局加权奖励机制和双深度Q网络算法建立跨线作业模型,得到收敛后的偏差降为±6.45。基于全局加权奖励机制和双深度Q网络算法建立机器人手臂精准导航模型,其收敛速度和准确性都有所提升,实现了机器人带电作业的精准导航。 展开更多
关键词 带电作业 机械臂 深度强化学习 双深度q网络 精准导航
在线阅读 下载PDF
基于DQN的机场加油车动态调度方法研究 被引量:1
20
作者 陈维兴 李业波 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第4期764-773,共10页
针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当... 针对实际航班时刻不确定导致机场加油车利用率低、调度实时性差的问题,提出一种结合了多目标深度强化学习框架的深度Q网络加油车动态调度方法。建立了以最大化加油任务准时率以及平均空闲车辆占比为目标的优化模型;设计了5个衡量车辆当前状态的状态特征作为网络的输入,再根据2种目标提出了2种调度策略作为动作空间,使得算法能够根据航班动态数据实时生成动态调度方案;完成了对机场加油车动态调度模型的求解,并利用不同规模的算例验证了算法的有效性以及实时性。将所提方法应用于实际调度中,结果表明,与人工调度相比,平均每天加油任务准时完成数增加9.43个,车辆平均工作时间减少57.6 min,DQN的结果更具优势,提升了加油车运行效率。 展开更多
关键词 机场加油车 动态调度 深度强化学习 深度q网络 多目标优化
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部