期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于改进双深度Q网络的微电网群能量管理策略
1
作者 何锦涛 王灿 +5 位作者 王明超 程本涛 刘于正 常文涵 王锐 余涵 《中国电力》 北大核心 2025年第10期14-26,共13页
针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并... 针对传统微电网群能量管理方法存在的高估偏差与决策精度不足问题,提出一种基于改进双深度Q网络的能量管理策略。首先,构建基于裁剪双Q值思想的双目标价值网络框架,通过并行计算双价值网络的时序差分(temporal difference,TD)目标值并裁剪高TD目标值,抑制价值函数的高估偏差,提高决策精度。然后,采用动态贪婪策略,基于当前状态计算所有可能动作的值函数,避免频繁选择最大Q值动作,使智能体充分探索动作以防止过早收敛。最后,以包含3个子微网的微电网群进行算例验证。仿真结果表明,相较于基于模型预测控制和传统双深度Q网络的能量管理策略,本文所提方法具有更好的寻优效果和收敛性,同时将系统运行成本分别降低了44.62%和26.39%。 展开更多
关键词 微电网群 能量管理 改进深度q网络 裁剪双q 贪婪策略
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
2
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度q网络算法(MPN-DqN) 路径规划
在线阅读 下载PDF
基于深度Q网络的海上环境智能路径规划 被引量:3
3
作者 李鹏程 周远国 杨国卿 《电子测量技术》 北大核心 2024年第5期77-84,共8页
深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研... 深入研究了融合航海优先级(NP)和优先级经验回放(PER)策略的深度Q网络(DQN)算法在海上环境智能路径规划问题上的应用。不同于传统路径规划算法,本优化算法能够自主探索并学习海上环境的规律,无需依赖人工构建的海洋环境全局信息。本研究开发了基于Gym框架的海上仿真环境,用以模拟和验证改进的DQN模型。该模型融合了航海优先级和优先级经验回放机制,通过调整学习过程中经验样本的利用频率,提升了算法对重要决策的学习效率。此外,引入新的奖赏函数,进一步增强了模型对路径规划问题的适应能力和稳定性。仿真实验结果证明,该模型在避免障碍物及寻找最佳路径方面相较于基准方法有显著提升,展现了一定的泛化性和优秀的稳定性。 展开更多
关键词 改进深度q网络 海上模拟仿真环境 航海优先级 奖赏函数
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
4
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
双足机器人步态控制的深度强化学习方法 被引量:11
5
作者 冯春 张祎伟 +2 位作者 黄成 姜文彪 武之炜 《计算机集成制造系统》 EI CSCD 北大核心 2021年第8期2341-2349,共9页
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足... 针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。 展开更多
关键词 双足机器人 步态控制 深度强化学习 智能体 操作—评论 改进深度q网络算法
在线阅读 下载PDF
考虑FDIA的电力线通信赋能智慧园区时间同步方法
6
作者 张孙烜 薛佳朋 +4 位作者 刘昊东 周振宇 陈晓梅 吕磊 黄林 《中国电机工程学报》 北大核心 2025年第14期5443-5455,I0010,共14页
智慧园区新兴业务的信息采集及实时控制需要严格的时间同步作为前提,虚假数据注入攻击(false data injection attack,FDIA)对时间同步精度的影响不可忽视。如何通过电力线通信(power line communication,PLC)实现安全准确时间同步成为... 智慧园区新兴业务的信息采集及实时控制需要严格的时间同步作为前提,虚假数据注入攻击(false data injection attack,FDIA)对时间同步精度的影响不可忽视。如何通过电力线通信(power line communication,PLC)实现安全准确时间同步成为当前研究的重要问题。该文首先构建考虑FDIA的PLC赋能智慧园区时间同步网络,通过改进卡尔曼滤波修正时间同步误差;其次,以误差最小化为目标,建立站点时间同步问题;最后,提出基于改进深度Q网络的时间同步路由选择算法。所提算法能够根据FDIA概率动态学习时间同步路由选择策略,从而提高对未知状态的泛化能力。仿真验证表明,所提方法不仅能够显著提升FDIA检测的安全性能,同时可有效改善时间同步精度。 展开更多
关键词 智慧园区 时间同步 虚假数据注入攻击 电力线通信 改进深度q网络 探索增强
在线阅读 下载PDF
混合交通流环境下基于改进强化学习的可变限速控制策略 被引量:19
7
作者 韩磊 张轮 郭为安 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控... 现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。 展开更多
关键词 智能交通 可变限速控制 改进竞争双深度q网络 混合交通流 智能网联车辆 深度强化学习
在线阅读 下载PDF
碳视角下基于网-车-线耦合的高速列车节能运行优化
8
作者 李欣 朱成琨 《电工技术学报》 2025年第22期7431-7448,共18页
高速列车运行能耗是高速铁路运营能耗的最主要来源,减少高速列车运行能耗将极大地促进高速铁路绿色低碳发展。针对与高速列车运行过程中能量传递、转化和消耗最密切的牵引供电网络(网)-牵引传动系统(车)-线路运行条件(线)三个环节,该文... 高速列车运行能耗是高速铁路运营能耗的最主要来源,减少高速列车运行能耗将极大地促进高速铁路绿色低碳发展。针对与高速列车运行过程中能量传递、转化和消耗最密切的牵引供电网络(网)-牵引传动系统(车)-线路运行条件(线)三个环节,该文首先从高速铁路牵引系统架构出发,明确高速铁路网-车-线耦合关系;然后结合双向系统碳排放计量思想,定性分析再生制动能量“返送正计”和“返送不计”两种情况下的高速铁路网-车-线耦合碳排放特性;借助碳排放因子,给出结合电网、燃料、客运量计算高速列车运行碳排放的定量分析方法;进而明确高速列车节能运行优化中减少牵引能耗和利用再生制动能量两个目标;以减少牵引能耗为目标,从高速列车节能运行工况的构成出发,给出单列车节能运行策略;以利用再生制动能量为目标,分析多列车再生制动能量利用策略,设计弹性冗余时间利用方法;在此基础上,基于正余弦算法改进的深度Q网络(SCA-DQN)建立高速列车节能运行分层优化模型,并进行算例分析。结果表明:所给SCA-DQN算法高效稳定,单列车节能运行优化的列车节能降碳率达6.36%;经分层优化后,受再生制动能量补充牵引能耗的两列列车节能降碳率分别达到8.82%和7.65%。 展开更多
关键词 高速铁路 高速列车 网-车-线耦合 节能优化 改进深度q网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部