期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于改进深度强化学习算法的农业机器人路径规划
1
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-DQN) 路径规划
在线阅读 下载PDF
基于深度强化学习的带容量约束车辆路径问题求解
2
作者 江明 何韬 《系统仿真学报》 北大核心 2025年第9期2177-2187,共11页
要:带容量约束的车辆路径问题(capacitated vehicle routing problem,CVRP)是一种著名的组合优化问题,被称为NP-hard问题,具有高度的复杂性。在现有研究的基础上,提出了一种新颖的基于多指针Transformer端到端深度强化学习方法来解决CVR... 要:带容量约束的车辆路径问题(capacitated vehicle routing problem,CVRP)是一种著名的组合优化问题,被称为NP-hard问题,具有高度的复杂性。在现有研究的基础上,提出了一种新颖的基于多指针Transformer端到端深度强化学习方法来解决CVRP。算法模型在编码器中采用了可逆残差网络对输入的特征进行编码,减少了内存资源的消耗,在解码器中采用了多指针网络求出解的概率分布,为了进一步提高CVRP解决方案的性能,利用组合优化问题的对称性,在训练和推理阶段进行多轨迹并行处理,采用了增强的上下文嵌入方法,通过改进的强化学习算法进行训练。实验结果表明:所提算法模型对比当前经典的启发式算法和其他深度学习方法,在较低的内存消耗训练下,求解速度和求解质量之间取得了最好的平衡。 展开更多
关键词 深度强化学习 车辆路径问题 可逆残差网络 注意力机制 改进的REINFORCE算法
在线阅读 下载PDF
基于多重门限机制的异步深度强化学习 被引量:1
3
作者 徐进 刘全 +2 位作者 章宗长 梁斌 周倩 《计算机学报》 EI CSCD 北大核心 2019年第3期636-653,共18页
近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化... 近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果. 展开更多
关键词 深度学习 强化学习 异步深度强化学习 循环神经网络 多重门限机制 跳跃连接
在线阅读 下载PDF
基于深度强化学习的梯级水蓄风光互补系统优化调度策略研究 被引量:13
4
作者 刘建行 刘方 《广东电力》 北大核心 2024年第5期10-22,共13页
对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-en... 对常规水电站进行抽水蓄能功能重塑,使其由“电源供应者”逐步转为“电源供应者+‘电池’调节者”,是解决大规模灵活性资源需求的重要技术手段。以梯级水蓄风光互补系统(cascade hydropower-pumping-storage-wind-photovoltaic multi-energy complementary system,CHPMCS)为研究对象,首先针对其发电抽蓄双向运行工况灵活转换和互补消纳特征,以系统发电效益最大为目标建立短期优化运行模型;其次,考虑CHPMCS出力连续可调的特点,提出将优化调度问题转换为马尔可夫决策过程,从而将多约束优化问题转换为无约束深度强化学习问题;然后,针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法训练效率低、易陷入局部最优等缺陷,采用改进DDPG算法对优化调度决策过程进行求解。最后,通过算例验证所提模型和算法的有效性。结果表明:CHPMCS通过水电功能重塑,有效提升了灵活性和调节能力,可以提高新能源的消纳能力和水资源的利用率,并通过“低储高发”提高系统发电效益。 展开更多
关键词 梯级水蓄风光互补系统 优化调度 新能源消纳 深度强化学习 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习的智能微电网群控制优化方法 被引量:29
5
作者 毛亚哲 何柏娜 +5 位作者 王德顺 姜仁卓 周宇洋 张靖茹 贺兴民 董彦辰 《智慧电力》 北大核心 2021年第3期19-25,58,共8页
针对微电网群控制的经济效益、负荷波动以及碳排放问题,提出一种基于改进深度强化学习的智能微电网群运行优化方法。首先,计及分布式电源、电动汽车及负荷特性,提出微电网的系统模型。然后,针对微电网群的运行特点,提出4个系统优化目标... 针对微电网群控制的经济效益、负荷波动以及碳排放问题,提出一种基于改进深度强化学习的智能微电网群运行优化方法。首先,计及分布式电源、电动汽车及负荷特性,提出微电网的系统模型。然后,针对微电网群的运行特点,提出4个系统优化目标和5个约束条件,并且引入分时电价机制调控负荷运行。最后,利用改进深度强化学习算法对微电网群进行优化,合理调控多种能源协同出力,调整负荷状态,实现电网经济运行。仿真结果表明了所提方法的有效性,与其他方法相比,其收益较高且碳排放量较小,可实现系统的经济环保运行。 展开更多
关键词 智能微电网群 改进深度强化学习 电动汽车 能量控制优化 经济环保
在线阅读 下载PDF
基于改进深度强化学习的电力智慧供应链高维度决策模型研究 被引量:16
6
作者 刘中明 周岩 +2 位作者 刘博 安林林 赵云强 《电子测量技术》 2019年第23期53-60,共8页
着眼构建具备“建设一体化、检测自主化、监造可视化、分析智能化”属性的电力全景质控供应链,提出了一种基于改进深度强化学习的电力智慧供应链高维度决策模型。借助国家电网公司全景数据中心,构建大数据量级共享数据资源池,引入改进... 着眼构建具备“建设一体化、检测自主化、监造可视化、分析智能化”属性的电力全景质控供应链,提出了一种基于改进深度强化学习的电力智慧供应链高维度决策模型。借助国家电网公司全景数据中心,构建大数据量级共享数据资源池,引入改进深度强化学习算法建立智慧决策、智能监控、全景可视、专业协同与智慧供应链之间的高维度决策映射,实现多维差异性系统数据的横向共享集成。选取国网供应链某核心节点为效能评价载体,开发对应原型系统并对模型综合效能进行实证分析,结果表明原型系统具备智能采购、数字物流、全景质控等全方位立体智慧供应链体系效能,在数据集成共享性、供应链全局协同性、供需精准匹配性、泛在电力物联网实践性等方面具有明显优势。 展开更多
关键词 电力物资 改进深度强化学习算法 智慧供应链 决策模型 原型系统
在线阅读 下载PDF
基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法 被引量:10
7
作者 赵知劲 朱家晟 +1 位作者 叶学义 尚俊娜 《电子与信息学报》 EI CSCD 北大核心 2022年第8期2814-2823,共10页
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为... 为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。 展开更多
关键词 异步组网 多智能体 深度强化学习 集中式学习和分散式执行 模糊推理系统
在线阅读 下载PDF
双因子更新的车联网双层异步联邦学习研究
8
作者 王力立 吴守林 +1 位作者 杨妮 黄成 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2842-2849,共8页
针对车联网(IoV)中节点资源异构、拓扑结构动态变化等特点,该文建立了一个双因子更新的双层异步联邦学习(TTAFL)框架。考虑到模型版本差和车辆参与联邦学习(FL)次数对局部模型更新的影响,提出基于陈旧因子和贡献因子的模型更新方案。同... 针对车联网(IoV)中节点资源异构、拓扑结构动态变化等特点,该文建立了一个双因子更新的双层异步联邦学习(TTAFL)框架。考虑到模型版本差和车辆参与联邦学习(FL)次数对局部模型更新的影响,提出基于陈旧因子和贡献因子的模型更新方案。同时,为了避免训练过程中,车辆移动带来路侧单元切换的问题,给出考虑驻留时间的节点选择方案。最后,为了减少精度损失与系统能耗,利用强化学习方法优化联邦学习的本地迭代次数与路侧单元局部模型更新次数。仿真结果表明,所提算法有效提高了联邦学习的训练效率和训练精度,降低了系统能耗。 展开更多
关键词 车联网 联邦学习 异步训练 深度强化学习
在线阅读 下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
9
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
在线阅读 下载PDF
双足机器人步态控制的深度强化学习方法 被引量:11
10
作者 冯春 张祎伟 +2 位作者 黄成 姜文彪 武之炜 《计算机集成制造系统》 EI CSCD 北大核心 2021年第8期2341-2349,共9页
针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足... 针对双足机器人行走过程中的步态稳定控制问题,提出一种改进深度Q网络的深度强化学习方法。首先,将深度Q网络算法与确定性策略梯度相结合,提出用修正Double-Q网络优化操作—评论网络的评论网络,给出一种改进的深度Q网络;然后,建立双足机器人连杆模型,在常规的平整路面上将改进的深度Q网络用于作为智能体的双足机器人进行步态控制训练。MATLAB仿真结果表明,与深度Q网络和深度确定性策略梯度算法相比,所提算法有更好的训练速度且其回报曲线具有良好的平滑性。在CPU训练下,经过20 h左右深度强化学习能够完成智能体训练。双足机器人在较小的力矩和长距离下能够稳定快步行走。 展开更多
关键词 双足机器人 步态控制 深度强化学习 智能体 操作—评论 改进深度Q网络算法
在线阅读 下载PDF
混合交通流环境下基于改进强化学习的可变限速控制策略 被引量:19
11
作者 韩磊 张轮 郭为安 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第3期110-122,共13页
现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控... 现有的可变限速(VSL)控制策略灵活性较差,响应速度较慢,对驾驶人遵从度和交通流状态预测模型的依赖性较高,且单纯依靠可变限速标志(VMS)向驾驶人发布限速值,难以在智能网联车辆(CAVs)与人工驾驶车辆(HDVs)混行的交通环境中实现较好的控制效果。对此,结合深度强化学习无需建立交通流预测模型,能自动适应复杂环境,以及CAVs可控性的优势,提出一种混合交通流环境下基于改进竞争双深度Q网络(IPD3QN)的VSL控制策略,即IPD3QN-VSL。首先,将优先经验回放机制引入深度强化学习的竞争双深度Q网络(D3QN)框架中,提升网络的收敛速度和参数更新效率;并提出一种新的自适应ε-贪婪算法克服深度强化学习过程中探索与利用难以平衡的问题,实现探索效率和稳定性的提高。其次,以最小化路段内车辆总出行时间(TTS)为控制目标,将实时交通数据和上个控制周期内的限速值作为IPD3QN算法的输入,构造奖励函数引导算法输出VSL控制区域内执行的动态限速值。该策略通过基础设施到车辆通信(I2V)向CAVs发布限速信息,HDVs则根据VMS上公布的限速值以及周围CAVs的行为变化做出决策。最后,在不同条件下验证IPD3QN-VSL控制策略的有效性,并与无控制情况、反馈式VSL控制和D3QN-VSL控制进行控制效果上的优劣对比。结果表明:在30%渗透率下,所提策略即可发挥显著控制性能,在稳定和波动交通需求情境中均能有效提升瓶颈区域的通行效率,缩小交通拥堵时空范围,与次优的D3QN-VSL控制相比,两种情境中的TTS分别改善了14.46%和10.36%。 展开更多
关键词 智能交通 可变限速控制 改进竞争双深度Q网络 混合交通流 智能网联车辆 深度强化学习
在线阅读 下载PDF
基于强化学习的改进三维A^(*)算法在线航迹规划 被引量:7
12
作者 任智 张栋 唐硕 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期193-201,共9页
针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度... 针对飞行器在线航迹规划对算法实时性与结果最优性要求高的问题,基于强化学习方法改进三维A^(*)算法。首先,引入收缩因子改进代价函数的启发信息加权方法提升算法时间性能;其次,建立算法实时性与结果最优性的性能变化度量模型,结合深度确定性策略梯度方法设计动作-状态与奖励函数,对收缩因子进行优化训练;最后,在多场景下对改进后的三维A^(*)算法进行仿真验证。仿真结果表明,改进算法能够在保证航迹结果最优性的同时有效提升算法时间性能。 展开更多
关键词 改进A^(*)算法 收缩因子 强化学习 深度确定性策略梯度 在线航迹规划
在线阅读 下载PDF
基于深度强化学习的多无人艇协同目标搜索算法 被引量:3
13
作者 邢博闻 张昭夷 +2 位作者 王世明 娄嘉奕 王五桂 《兵器装备工程学报》 CAS CSCD 北大核心 2023年第11期118-125,共8页
针对应用于海上多无人艇目标搜索任务的经典深度强化学习模型难以收敛且训练耗时长的问题,提出一种基于优先经验回放的异步确定性策略梯度模型。为提升模型收敛效果,引入一种基于优先级的经验回放机制,该机制可以有效提高高价值经验的... 针对应用于海上多无人艇目标搜索任务的经典深度强化学习模型难以收敛且训练耗时长的问题,提出一种基于优先经验回放的异步确定性策略梯度模型。为提升模型收敛效果,引入一种基于优先级的经验回放机制,该机制可以有效提高高价值经验的利用率,从而避免算法收敛困难的问题。为进一步减少模型训练耗时长,引入异步学习的训练框架,该框架通过多子线程的同步训练参数更新主进程网络,有效提高了模型训练效率。在MPE仿真环境对提出的PA-MADDPG算法与MADDPG、MAPPO和PER-MADDPG算法进行对比实验,结果表明:提出模型在1000~1200回合就达到收敛,经过1000回合左右训练智能体总碰撞次数就趋于0,相较于其他算法任务成功率提高了5%~10%。 展开更多
关键词 深度强化学习 多无人艇 多目标搜索 优先经验回放 异步学习
在线阅读 下载PDF
基于改进DDPG的含PCH综合能源系统低碳经济运行策略
14
作者 温裕鑫 范培潇 +3 位作者 杨军 张幸 代贤忠 杨军伟 《全球能源互联网》 北大核心 2025年第5期552-564,共13页
为了使综合能源系统更好地适应源荷不确定性并提高其低碳经济运行能力,提出了基于改进深度强化学习算法的考虑电转气-碳捕集-氢燃料电池 (PCH) 联合模型与改进碳交易机制的综合能源低碳经济运行策略。首先,构建了具有固碳能力的PCH联合... 为了使综合能源系统更好地适应源荷不确定性并提高其低碳经济运行能力,提出了基于改进深度强化学习算法的考虑电转气-碳捕集-氢燃料电池 (PCH) 联合模型与改进碳交易机制的综合能源低碳经济运行策略。首先,构建了具有固碳能力的PCH联合模型,并引入氢能分配率以实现减碳能力与能源高效供应;其次,为了促进综合能源系统调度策略的低碳性,提出了改进阶梯型碳交易机制,以线性化的方式代替传统阶梯型碳交易机制中的定值设置;进而,应用混合噪声机制对深度强化学习算法进行了改进,使其能够更好地适应于低碳综合能源系统中源荷不确定性;最后,算例结果验证了所提策略的有效性与适应性,以及PCH联合模型与改进碳交易机制对综合能源系统低碳性的积极作用。 展开更多
关键词 综合能源系统 低碳经济运行 改进深度强化学习 源荷不确定性 碳交易
在线阅读 下载PDF
基于规则约束的深度强化学习智能车辆高速路场景下行驶决策
15
作者 王新凯 王树凤 王世皓 《汽车技术》 CSCD 北大核心 2023年第9期18-26,共9页
针对强化学习算法下智能车辆训练中动作选择过程随机性强、训练效率低等问题,提出了基于规则约束和深度Q网络(DQN)算法的智能车辆行驶决策框架,将引入的规则分为与换道相关的硬约束和与车道保持相关的软约束,分别通过动作检测模块(Actio... 针对强化学习算法下智能车辆训练中动作选择过程随机性强、训练效率低等问题,提出了基于规则约束和深度Q网络(DQN)算法的智能车辆行驶决策框架,将引入的规则分为与换道相关的硬约束和与车道保持相关的软约束,分别通过动作检测模块(ActionDetectionModule)与奖励函数来实现。同时结合竞争深度Q网络(DuelingDQN)和双重深度Q网络(Double DQN)对DQN的网络结构进行改进,并引入N步自举(N-Step Bootstrapping)学习提高DQN的训练效率,最后在Highway-env平台高速路场景下与原始DQN算法进行综合对比验证模型的有效性,改进后的算法提高了智能车辆任务成功率和训练效率。 展开更多
关键词 深度强化学习 行驶决策 智能车辆 规则约束 改进DQN算法
在线阅读 下载PDF
融合DRL的改进遗传算法求解众包车辆-公共交通协同配送问题
16
作者 冯睿锋 陈彦如 《计算机工程》 北大核心 2025年第10期357-368,共12页
针对农村地区配送场景,提出一种车辆路径问题的变体——众包车辆-公共交通协同配送问题(VRPOD-SL)。该问题对参与配送的公交车辆及其服务的物流客户进行选择,同时需选择参与配送的众包车辆,并对众包车辆的行驶路径等进行决策。考虑众包... 针对农村地区配送场景,提出一种车辆路径问题的变体——众包车辆-公共交通协同配送问题(VRPOD-SL)。该问题对参与配送的公交车辆及其服务的物流客户进行选择,同时需选择参与配送的众包车辆,并对众包车辆的行驶路径等进行决策。考虑众包车辆的起终点、服务范围和最大载重,以及公交车辆的载货空间限制和按固定路线行驶等特点,以最小化配送总成本为优化目标,构建VRPOD-SL的整数规划模型。由于公交车辆提供物流服务的客户选择决策,影响到众包车辆的服务客户选择,进而需要不断求解众包车辆路径问题,导致问题的计算复杂度较高,因此设计一种基于深度强化学习(DRL)的启发式算法,即融合了注意力模型的遗传算法(GA-AM)。该算法将遗传算法(GA)的全局搜索特性和注意力模型(AM)的并行决策能力相结合,能够有效减少VRPOD-SL的求解时间。同时设计局部搜索算法,进一步提高解决方案的质量。数值实验结果表明,所提出的GA-AM在求解性能方面明显优于Gurobi求解器、自适应大邻域搜索(ALNS)算法和变邻域搜索(VNS)算法。此外,研究结果也验证了众包车辆-公共交通协同配送模式的有效性。 展开更多
关键词 车辆路径问题 深度强化学习 改进遗传算法 众包车辆-公共交通协同配送 自适应大邻域搜索算法
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
17
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度Q网络强化学习算法 资源分配
在线阅读 下载PDF
基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制 被引量:18
18
作者 顾雪平 刘彤 +2 位作者 李少岩 王铁强 杨晓东 《电工技术学报》 EI CSCD 北大核心 2023年第8期2162-2177,共16页
新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统... 新型电力系统中,由于源荷不确定性的影响,发生线路过载事故的风险增大,传统的有功安全校正方法无法有效兼顾计算速度及效果等。基于此,该文提出一种基于改进双延迟深度确定性策略梯度算法的电网有功安全校正控制方法。首先,在满足系统静态安全约束条件下,以可调元件出力调整量最小且保证系统整体运行安全性最高为目标,建立有功安全校正控制模型。其次,构建有功安全校正的深度强化学习框架,定义计及目标与约束的奖励函数、反映电力系统运行的观测状态、可改变系统状态的调节动作以及基于改进双延迟深度确定性策略梯度算法的智能体。最后,构造考虑源荷不确定性的历史系统过载场景,借助深度强化学习模型对智能体进行持续交互训练以获得良好的决策效果;并且进行在线应用,计及源荷未来可能的取值,快速得到最优的元件调整方案,消除过载线路。IEEE 39节点系统和IEEE 118节点系统算例结果表明,所提方法能够有效消除电力系统中的线路过载且避免短时间内再次越限,在计算速度、校正效果等方面,与传统方法相比具有明显的优势。 展开更多
关键词 新型电力系统 有功安全校正 深度强化学习 改进双延迟深度确定性策略 最优调整方案
在线阅读 下载PDF
跨传感器异步迁移学习的室内单目无人机避障 被引量:3
19
作者 李湛 薛喜地 +3 位作者 杨学博 孙维超 于兴虎 高会军 《宇航学报》 EI CAS CSCD 北大核心 2020年第6期811-819,共9页
针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基... 针对强化学习策略由仿真环境向实际迁移困难的问题,以提高无人机采用无深度信息单目视觉时的行人规避能力为目标,提出一种基于异步深度神经网络结构的跨传感器迁移学习方法。首先,在仿真环境中仅使用虚拟单线激光雷达作为传感器,通过基于确定性策略梯度(DDPG)的深度强化学习方法,训练得到一个稳定的初级避障策略。其次,用单目摄像头和激光雷达同步采集现实环境中的视觉和深度数据集并逐帧绑定,使用上述初级避障策略对现实数据集进行自动标注,进而训练得到无需激光雷达数据的单目视觉避障策略,实现从虚拟激光雷达到现实单目视觉的跨传感器迁移学习。最后,引入YOLO v3-tiny网络与Resnet18网络组成异步深度神经网络结构,有效提高了存在行人场景下的避障性能。 展开更多
关键词 单目视觉 深度强化学习 确定性策略梯度 跨传感器迁移学习 异步深度神经网络
在线阅读 下载PDF
计及稳压率和经济性的城轨直流牵引供电光储系统深度Q网络优化控制方法 被引量:1
20
作者 吕宗璞 戴朝华 +3 位作者 姚志刚 周斌彬 郭爱 吴磊 《电力自动化设备》 EI CSCD 北大核心 2024年第10期46-52,共7页
光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷... 光伏应用于直流牵引供电系统可提高新能源渗透率、降低系统能耗,但可再生能源出力的不确定性及列车负荷的强波动性增加了控制策略的寻优难度。针对该问题,提出一种基于深度强化学习的控制策略优化方法。该方法基于深度Q网络,将源-储-荷能量管理系统作为智能代理,通过光伏出力、储能荷电状态、牵引网压等外部状态训练代理,得到可实现系统经济可靠运行的优化策略。介绍源-储-荷综合系统的框架结构及传统控制策略,并对各设备进行外特性建模;对源-储-荷综合系统的能量管理问题开展马尔可夫决策过程建模,确立强化学习框架;根据某市域线路数据在MATLAB平台上进行仿真以验证所提方法的有效性。研究结果表明,所提方法通过动态调整储能电压阈值,可实现控制策略优化;通过与几种传统控制策略对比可知,所提方法在兼顾系统稳压水平与运行经济性方面占据优势;不同环境下的收敛效果对比体现了所提方法的可继承性,并在多组测试样本下验证了该方法的普适性。 展开更多
关键词 光伏发电 直流牵引供电系统 改进控制策略 深度强化学习 深度Q网络
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部