期刊文献+
共找到239篇文章
< 1 2 12 >
每页显示 20 50 100
基于角度搜索和深度Q网络的移动机器人路径规划算法 被引量:2
1
作者 李宗刚 韩森 +1 位作者 陈引娟 宁小刚 《兵工学报》 北大核心 2025年第2期30-44,共15页
针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的... 针对深度Q网络(Deep Q Network,DQN)算法在求解路径规划问题时存在学习时间长、收敛速度慢的局限性,提出一种角度搜索(Angle Searching,AS)和DQN相结合的算法(Angle Searching-Deep Q Network,AS-DQN),通过规划搜索域,控制移动机器人的搜索方向,减少栅格节点的遍历,提高路径规划的效率。为加强移动机器人之间的协作能力,提出一种物联网信息融合技术(Internet Information Fusion Technology,IIFT)模型,能够将多个分散的局部环境信息整合为全局信息,指导移动机器人规划路径。仿真实验结果表明:与标准DQN算法相比,AS-DQN算法可以缩短移动机器人寻得到达目标点最优路径的时间,将IIFT模型与AS-DQN算法相结合路径规划效率更加显著。实体实验结果表明:AS-DQN算法能够应用于Turtlebot3无人车,并成功找到起点至目标点的最优路径。 展开更多
关键词 移动机器人 路径规划 深度q网络 角度搜索策略 物联网信息融合技术
在线阅读 下载PDF
基于双深度Q网络的车联网安全位置路由 被引量:1
2
作者 米洪 郑莹 《无线电通信技术》 北大核心 2025年第1期96-105,共10页
作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secur... 作为智能交通系统中的支撑技术,车联网(Internet of Vehicle,IoV)已受到广泛关注。由于IoV网络拓扑结构的动态变化以及灰洞攻击,构建稳定的安全位置路由是一项挑战工作。为此,提出基于双深度Q网络的安全位置路由(Double DQN-based Secure Location Routing,DSLR)。DSLR通过防御灰洞攻击提升消息传递率(Message Delivery Ratio,MDR),并降低消息的传输时延。构建以丢包率和链路连通时间为约束条件的优化问题,利用双深度Q网络算法求解。为了提升DSLR的收敛性,基于连通时间、丢包率和传输时延构建奖励函数,引导智能体选择满足要求的转发节点。采用动态的探索因子机制,平衡探索与利用间的关系,进而加速算法的收敛。仿真结果表明,相比于同类算法,提出的DSLR提升了MDR,减少了传输时延。 展开更多
关键词 车联网 位置路由 灰洞攻击 深度q网络 动态的探索因子
在线阅读 下载PDF
基于改进深度Q网络的无预测风电场日前拓扑优化
3
作者 黄晟 潘丽君 +3 位作者 屈尹鹏 周歧林 徐箭 柯德平 《电力系统自动化》 北大核心 2025年第2期122-132,共11页
风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差... 风电场受风速变化等因素影响,出力易产生大幅波动,从而造成电压波动和网损增加等问题,影响风电场的安全高效运行。目前的风电场日前调控方案多基于传统的数学优化模型展开,且需要风机的日前出力预测数据,故无法完全避免的日前预测误差的引入造成日前优化调控方案有效性的降低,增加了日内风机调控的难度。因此,文中充分发挥强化学习模型的决策能力,提出了一种基于改进深度Q网络(DQN)的无预测风电场拓扑重构决策方案,并以DQN为框架展开。首先,构建基于历史数据的状态空间;然后,提出基于生成树的动作价值对解耦的动作空间优化方法,以最小化电压偏差和网损为目标建立优化评价体系,完成由历史实际出力数据到决策的映射关系构建,在避免引入预测误差的情况下实现风电场日前优化调控;最后,设计一种基于多层次经验指导的经验回放策略,提升算法的训练性能,保证算法的适用性。根据实际的风电运行数据进行仿真,通过对比分析改进技术对DQN算法的影响和优化调控前后风电场的运行状态,验证了所提方法的创新性和有效性。 展开更多
关键词 风电场 预测 深度q网络 拓扑重构 电压控制 优化 强化学习
在线阅读 下载PDF
基于深度Q网络的平衡杆优化控制实验教学案例设计
4
作者 钟珊 杜鑫 +2 位作者 司亚利 刘井莲 严卫 《实验室研究与探索》 北大核心 2025年第1期146-152,190,共8页
为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了... 为了使学生更深入地掌握采用强化学习求解任务最优策略的方法,基于深度Q网络设计了平衡杆的控制优化实验。将平衡杆实验环境建模为马尔可夫决策模型,从深度Q网络结构、探索策略、奖励函数、经验回放池更新和目标Q网络更新等角度进行了实验方案的设计。实验评估综合考虑了算法有效性、Q值估计的准确性、样本效率和Q网络的损失估计。在此基础上,将其与基准算法Q学习算法在累计奖赏和学习效率上进行了对比。该实验不仅可以帮助学生学会综合应用强化学习知识,也能帮助其掌握采用深度Q网络算法来求解离散动作空间任务的最优策略。 展开更多
关键词 强化学习 深度q网络 q学习 平衡杆 实验设计
在线阅读 下载PDF
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
5
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 深度q网络算法 资源优化
在线阅读 下载PDF
基于双深度Q网络的多目标遥感产品生产任务调度算法
6
作者 周黎鸣 余汐 +2 位作者 范明虎 左宪禹 乔保军 《电子与信息学报》 北大核心 2025年第8期2819-2829,共11页
遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产... 遥感产品的生产是一个涉及动态因素的多任务调度问题,任务之间存在资源竞争与冲突,且受生产环境实时变化的影响。如何实现自适应、多目标的高效调度成为问题关键。为此,该文创新性地提出一种基于双深度Q网络(DDQN)的多目标遥感产品生产任务调度算法(MORS),该方法可以有效降低遥感产品的生产时间,并实现节点资源的负载均衡。首先将多个产品输入处理单元生成相应的遥感算法,然后基于价值驱动的并行可执行筛选策略得到算法子集。在此基础上,设计一个能够感知遥感算法特征和节点特征的深度神经网络模型。通过综合遥感算法生产时间和节点资源状态设计奖励函数,采用DDQN算法训练模型,以确定待处理子集中每个遥感算法的最佳执行节点。在不同数量产品的仿真实验中,将MORS与先来先服务(FCFS)、轮询调度(RR)、遗传算法(GA)以及基于深度Q网络(DQN)的任务调度算法和基于双流深度Q网络(Dueling DQN)的任务调度算法进行全面对比。实验结果表明,MORS在遥感任务调度上相较于其它算法具有有效性和优越性。 展开更多
关键词 遥感任务调度 多目标优化 深度q网络
在线阅读 下载PDF
基于改进双深度Q网络的微电网群能量管理策略
7
作者 何锦涛 王灿 +5 位作者 王明超 程本涛 刘于正 常文涵 王锐 余涵 《中国电力》 北大核心 2025年第10期14-26,共13页
针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并... 针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并裁剪高TD目标值,抑制价值函数的高估偏差,提高决策精度。然后,采用动态贪婪策略,基于当前状态计算所有可能动作的值函数,避免频繁选择最大Q值动作,使智能体充分探索动作以防止过早收敛。最后,以包含3个子微网的微电网群进行算例验证。仿真结果表明,相较于基于模型预测控制和传统双深度Q网络的能量管理策略,本文所提方法具有更好的寻优效果和收敛性,同时将系统运行成本分别降低了44.62%和26.39%。 展开更多
关键词 微电网群 能量管理 改进双深度q网络 裁剪双q 贪婪策略
在线阅读 下载PDF
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
8
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
基于深度Q网络的机器人路径规划研究综述 被引量:9
9
作者 卢锦澎 梁宏斌 《传感器与微系统》 CSCD 北大核心 2024年第6期1-5,共5页
随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,... 随着深度强化学习的不断发展,深度Q网络(DQN)在机器人路径规划中得到广泛关注和研究。首先,简要介绍DQN以及Nature DQN、Double DQN、Dueling DQN和D3QN等算法的基本原理和改进思想。针对算法存在的样本获取成本高和交互效率低的问题,系统梳理并总结了从奖励函数、探索能力、样本利用率等方面进行优化的研究成果和思路。最后,讨论了DQN在现代物流中进行机器人路径规划的优势,对每个场景提出了算法的优化方向,涵盖状态空间、动作空间以及奖励函数等多个关键方面。 展开更多
关键词 机器人 路径规划 深度q网络 现代物流
在线阅读 下载PDF
计及稳压率和经济性的城轨直流牵引供电光储系统深度Q网络优化控制方法 被引量:1
10
作者 吕宗璞 戴朝华 +3 位作者 姚志刚 周斌彬 郭爱 吴磊 《电力自动化设备》 EI CSCD 北大核心 2024年第10期46-52,共7页
光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷... 光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷能量管理系统作为智能代理,通过光伏出力、储能荷电状态、牵引网压等外部状态训练代理,得到可实现系统经济可靠运行的优化策略。介绍源-储-荷综合系统的框架结构及传统控制策略,并对各设备进行外特性建模;对源-储-荷综合系统的能量管理问题开展马尔可夫决策过程建模,确立强化学习框架;根据某市域线路数据在MATLAB平台上进行仿真以验证所提方法的有效性。研究结果表明,所提方法通过动态调整储能电压阈值,可实现控制策略优化;通过与几种传统控制策略对比可知,所提方法在兼顾系统稳压水平与运行经济性方面占据优势;不同环境下的收敛效果对比体现了所提方法的可继承性,并在多组测试样本下验证了该方法的普适性。 展开更多
关键词 光伏发电 直流牵引供电系统 改进控制策略 深度强化学习 深度q网络
在线阅读 下载PDF
基于深度Q网络的无人车侦察路径规划 被引量:3
11
作者 夏雨奇 黄炎焱 陈恰 《系统工程与电子技术》 EI CSCD 北大核心 2024年第9期3070-3081,共12页
在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结... 在城市战场环境下,无人侦察车有助于指挥部更好地了解目标地区情况,提升决策准确性,降低军事行动的威胁。目前,无人侦察车多采用阿克曼转向结构,传统算法规划的路径不符合无人侦察车的运动学模型。对此,将自行车运动模型和深度Q网络相结合,通过端到端的方式生成无人侦察车的运动轨迹。针对深度Q网络学习速度慢、泛化能力差的问题,根据神经网络的训练特点提出基于经验分类的深度Q网络,并提出具有一定泛化能力的状态空间。仿真实验结果表明,相较于传统路径规划算法,所提算法规划出的路径更符合无人侦察车的运动轨迹并提升无人侦察车的学习效率和泛化能力。 展开更多
关键词 深度强化学习 无人侦察车 路径规划 深度q网络
在线阅读 下载PDF
一种新的基于Sigmoid函数的分布式深度Q网络概率分布更新策略 被引量:2
12
作者 高卓凡 郭文利 《计算机科学》 CSCD 北大核心 2024年第12期277-285,共9页
分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现... 分布式深度Q网络(Distributed-Deep Q Network,Dist-DQN)是在传统期望值深度Q网络的基础上将离散的动作奖励在一个区间上连续化,通过不断更新支集区间的概率分布来解决复杂环境的随机奖励问题。奖励概率的分布更新策略作为Dist-DQN实现的重要函数,会显著影响智能体在环境中的学习效率。针对上述问题,提出了一种新的Sig-Dist-DQN概率分布更新策略。该策略综合考虑奖励概率支集之间的相关性强弱关系,提高与观察奖励强相关支集的概率质量更新速率,同时降低弱相关支集概率质量的更新速率。在OpenAI gym提供的环境下进行实验,结果表明,指数更新和调和序列更新策略在每次训练的差异性较大,而Sig-Dist-DQN策略的训练图像非常稳定。相较于指数更新和调和序列更新策略,应用Sig-Dist-DQN的智能体在学习过程中损失函数的收敛速度和收敛过程的稳定性都有显著提高。 展开更多
关键词 分布式深度q网络 奖励区间连续化 概率分布更新 学习效率 训练稳定性
在线阅读 下载PDF
基于深度Q网络优化运行方式的风电场次同步振荡抑制策略
13
作者 陆文安 吴许晗 +3 位作者 余一平 李兆伟 郄朝辉 李甘 《现代电力》 北大核心 2024年第3期448-457,共10页
随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振... 随着我国新型电力系统的不断发展,电力系统次同步振荡问题凸显,严重影响电网的安全稳定运行,而振荡阻尼水平对风电场次同步振荡具有重要影响。由于系统阻尼随电力系统运行方式变化,提出一种基于深度Q网络优化运行方式的风电场次同步振荡抑制策略。首先,通过时域仿真分析桨距角和串补电容对风电场次同步振荡阻尼的影响,在此基础上建立桨距角调整风机出力、并联电容调整线路串补的次同步振荡联合优化数学模型。其次,将深度Q网络算法应用于系统振荡阻尼优化求解问题,获得风电机组次同步振荡抑制优化策略,并与基于遗传算法求解的次同步振荡抑制结果对比。结果表明,该方法有效降低了振荡幅值,提升了系统的阻尼,验证了该方法的合理性和优越性。 展开更多
关键词 双馈风机 次同步振荡 深度q网络 阻尼优化 振荡抑制
在线阅读 下载PDF
基于深度Q网络的海上环境智能路径规划 被引量:3
14
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度q网络 海上模拟仿真环境 航海优先级 奖赏函数
在线阅读 下载PDF
一种改进的双深度Q网络服务功能链部署算法 被引量:2
15
作者 刘道华 魏丁二 +2 位作者 宣贺君 余长鸣 寇丽博 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期52-59,共8页
网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网... 网络功能虚拟化已成为未来通信网络的关键技术,动态服务功能链的高效部署是提高网络性能迫切需要解决的问题之一。为降低通信网络服务器能量消耗以及改善通信网络服务质量,提出一种改进的双深度Q网络的动态服务功能链部署算法。由于网络状态及服务功能链的动态性,首先将服务功能链部署问题建模为马尔可夫决策过程。根据通信网络中资源的状态以及所选择的动作计算奖励函数值,对双深度Q网络进行在线训练,得到最优深度神经网络模型,从而确定最优的在线服务功能链部署策略。为解决传统深度强化学习从经验回放池中采用均匀抽取经验样本而导致神经网络学习效率低的问题,设计一种基于重要性采样的优先级经验回放方法以抽取经验样本,从而有效地避免训练样本之间的高度相关性,进一步提高离线学习神经网络的效率。仿真结果表明,所提出基于改进双深度Q网络的服务功能链部署算法能够提高奖励值,与传统的双深度Q网络算法相比,在能量消耗与阻塞率方面分别降低约19.89%~36.99%与9.52%~16.37%。 展开更多
关键词 服务功能链 马尔科夫决策过程 网络能耗 深度q网络
在线阅读 下载PDF
深度Q网络在月球着陆任务中的性能评估与改进
16
作者 岳颀 石伊凡 +1 位作者 褚晶 黄勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第3期396-405,共10页
基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为2... 基于深度Q网络(DQN)技术的强化学习方法得到越来越广泛的应用,但该类算法的性能深受多因素影响。文中以月球登陆器为例,探讨不同超参数对DQN性能的影响,在此基础上训练得到性能较优的模型。目前已知DQN模型在100个测试回合下平均奖励为280+,文中模型奖励值可达到290+,并且通过在原始问题中引入额外的不确定性测试验证了文中模型的鲁棒性。另外,引入模仿学习的思想,基于启发式函数的模型指导方法获取演示数据,加快训练速度并提升性能,仿真结果证明了该方法的有效性。 展开更多
关键词 深度强化学习 深度q网络 模仿学习
在线阅读 下载PDF
一种融合噪声网络的裁剪双深度Q网络的船舶自主避碰决策算法
17
作者 韩虎生 关巍 崔哲闻 《上海海事大学学报》 北大核心 2024年第4期1-7,共7页
针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入... 针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。 展开更多
关键词 噪声网络 深度q网络(DDqN) 船舶自主避碰 国际海上避碰规则
在线阅读 下载PDF
基于认知行为模型的启发加速深度Q网络
18
作者 李嘉祥 陈浩 +1 位作者 黄健 张中杰 《计算机应用与软件》 北大核心 2024年第9期148-155,共8页
由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能... 由于状态-动作空间的扩大或奖励回报稀疏,强化学习智能体在复杂环境下从零开始学习最优策略将更为困难。由此提出基于智能体认知行为模型的启发加速深度Q网络,将符号化的规则表示融入学习网络,动态引导智能体策略学习,解决有效加速智能体学习的问题。该算法将启发知识建模为基于BDI(Belief-Desire-Intention)的认知行为模型,用于产生认知行为知识引导智能体策略学习,设计启发策略网络在线引导智能体的动作选择。GYM典型环境与星际争霸2环境下实验表明,该算法可以根据环境变化动态提取有效的认知行为知识,并借助启发策略网络加速智能体策略收敛。 展开更多
关键词 强化学习 认知行为模型 启发加速深度q网络
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
19
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(DDqN)算法
在线阅读 下载PDF
基于对决深度Q网络的机器人自适应PID恒力跟踪研究 被引量:1
20
作者 杜亮 梅雪川 《机床与液压》 北大核心 2024年第15期50-54,共5页
为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该... 为确保机器人与环境接触时能保持稳定的接触力,基于对决深度Q网络设计一种自适应PID控制恒力跟踪算法。分析机器人与外界的接触过程,并构建基于PID算法的机器人力控制器;提出基于对决深度Q网络的自适应PID算法,以适应外界环境的变化,该算法利用对决深度Q网络自主学习、寻找最优的控制参数;最后,通过Coopeliasim与MATLAB软件平台展开机器人恒力跟踪实验。仿真结果表明:提出的基于对决深度Q网络的自适应PID算法能够获得较好的力跟踪效果,验证了算法的可行性;相比于深度Q网络算法,力误差绝对值的平均值减少了51.6%,且收敛速度得到提升,使机器人能够更好地跟踪外界环境。 展开更多
关键词 机器人 恒力控制 自适应PID控制 对决深度q网络
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部