期刊文献+
共找到57篇文章
< 1 2 3 >
每页显示 20 50 100
基于深度确定性策略梯度的粒子群算法 被引量:6
1
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 智能 粒子群优化算法
在线阅读 下载PDF
基于深度确定性策略梯度的PEMFC的水泵和散热器联合控制研究
2
作者 赵洪山 潘思潮 +2 位作者 吴雨晨 马利波 吕廷彦 《太阳能学报》 EI CAS CSCD 北大核心 2024年第6期92-101,共10页
针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体... 针对燃料电池热管理系统中水泵和散热器的控制问题,提出一种基于深度确定性策略梯度(DDPG)的联合控制策略。该策略取代了传统控制框架中水泵和散热器的独立控制器,采用多输入多输出且可同时控制水泵冷却水流速和散热器空气流速的智能体。首先确定智能体的状态空间和动作空间,然后由控制目标设定奖励函数,最后在仿真平台上验证该算法的有效性。结果表明,所提出的联合控制策略可有效地同时控制冷却水流速和空气流速,从而提高质子交换膜燃料电池(PEMFC)的运行效率。 展开更多
关键词 深度学习 强化学习 质子交换膜燃料电池 智能控制 深度确定性策略梯度
在线阅读 下载PDF
基于深度确定性策略梯度算法的智能水下机器人局部路径规划
3
作者 吕茜 党康宁 《科学技术创新》 2023年第20期224-228,共5页
路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件... 路径规划是智能水下机器人技术研究的核心内容之一,是实现其自主航行和作业的关键环节。基于水下机器人的运动学模型,将深度确定性策略梯度(DDPG)算法应用于水下机器人的局部路径规划中,通过构造适当的奖励信号和设置合理的训练评估条件,使算法适用于水下机器人的运动学模型。仿真试验验证了采用DDPG算法训练的水下机器人能够在航道水域环境中安全快速地规划和避开障碍物,实现自主安全航行。 展开更多
关键词 智能水下机器人 局部路径规划 深度确定性策略梯度(DDPG)算法 自主安全航行
在线阅读 下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究 被引量:3
4
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
在线阅读 下载PDF
基于多智能体深度强化学习的多星观测任务分配方法 被引量:1
5
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能体深度确定性策略梯度算法 任务规划
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计 被引量:1
6
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能深度确定性策略梯度
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
7
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
8
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
一种基于DDPG的变体飞行器智能变形决策方法
9
作者 王青 刘华华 屈东扬 《宇航学报》 EI CAS CSCD 北大核心 2024年第10期1560-1567,共8页
针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算... 针对一类变体飞行器自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能变形决策方法。首先,针对一种后掠角可连续变化的飞行器,通过计算流体力学方法获得飞行器的气动参数并分析其气动特性;然后,联合制导过程与DDPG算法,以获得最优气动特性和制导性能为目标,提出了一种变体飞行器智能变形决策算法;最后,仿真结果表明所提算法收敛效果好,相比于固定外形,可通过合适的变形决策指令在得到最优气动外形的同时获得更好的制导性能。 展开更多
关键词 飞行器 自主变形决策 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
DDPG深度强化学习算法在无人船目标追踪与救援中的应用
10
作者 宋雷震 吕东芳 《黑龙江大学工程学报(中英俄文)》 2024年第1期58-64,共7页
为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳... 为保证海上救援活动的高效性,研究结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)从状态空间、动作空间、奖励函数方面对船只追踪救援目标算法进行设计,并实际应用到无人船追踪救援之中。结果显示DDPG算法的稳定成功率接近100%,性能优异。该设计的算法最终回合累积奖励值能够稳定在10左右,而平均时长则能稳定在80 s左右,能够根据周边环境的状态调整自己的运动策略,满足海上救援活动中的紧迫性要求,能为相关领域的研究提供一条新的思路。 展开更多
关键词 无人船 目标追踪 海上救援 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
11
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流动态系统
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
12
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
改进型DDPG算法的多智能体编队控制与仿真 被引量:2
13
作者 景永年 耿双双 +1 位作者 向瑶 文家燕 《广西科技大学学报》 CAS 2023年第3期62-71,共10页
针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化... 针对多智能体系统编队在路径规划过程中队形不稳定、获取路径时间较慢以及在避障过程中存在与障碍物距离较近的问题,本文采用角度距离度量的方式对多智能体进行编队,通过改变传统的由起始点到达终点避障过程所形成的路径规划方法,弱化起始点和终点概念,添加路径中点的方式,使智能体同时从起点以及终点向中点移动,形成由起点指向中点、终点指向中点的2条路径。将奖励函数设计为同号智能体相碰为正向奖励,异号智能体相碰以及智能体(同号智能体和异号智能体)与障碍物之间相碰均为负向奖励。在搭建的静态和动态障碍物2种仿真环境下分别进行可变容量体验池深度确定性策略梯度算法(deep deterministic policy gradient-variable capacity experience pool,DDPG-vcep)验证,并对比不同训练次数下的奖赏值。仿真结果表明,改进后的DDPG编队算法较传统DDPG算法节约了路径获取时间,编队避障的效果更加明显。 展开更多
关键词 深度学习 强化学习 深度确定性策略梯度算法(DDPG算法) 多智能 编队控制 避障
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述
14
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于多智能体强化学习的轨道追逃博弈方法 被引量:17
15
作者 许旭升 党朝辉 +2 位作者 宋斌 袁秋帆 肖余之 《上海航天(中英文)》 CSCD 2022年第2期24-31,共8页
针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进... 针对空间轨道博弈过程中的集群卫星和非合作目标追逃博弈情形下的动力学模型复杂、非合作目标机动信息未知,以及卫星间难以有效协调等问题,提出一种基于多智能体深度强化学习算法的集群卫星空间轨道追逃博弈方法。首先通过对博弈场景进行建模,在考虑最短时间、最优燃料以及碰撞规避的情形下进行奖励函数的塑造和改进,利用深度强化学习方法中的多智能体深度确定性策略梯度(MADDPG)算法进行集中训练,得到各个追捕卫星和逃逸卫星的最优追逃策略参数;然后分布式执行使得多个追捕卫星和逃逸卫星之间能够完成追逃博弈。仿真结果表明:该方法能够完成集群卫星对非合作目标的追逃博弈,且能够利用数量优势有效地弥补速度劣势,涌现出“围捕“”拦截“”合作“”潜伏”等一系列智能博弈行为,有效地实现了博弈目的。 展开更多
关键词 集群卫星 非合作目标 追逃博弈 奖励塑造 多智能体深度确定性策略梯度算法 涌现 智能
在线阅读 下载PDF
考虑智能网联车辆影响的八车道高速公路施工区可变限速控制方法 被引量:1
16
作者 过秀成 肖哲 +2 位作者 张一鸣 张叶平 许鹏宇 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第2期353-359,共7页
为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标... 为提升车联网环境下高速公路施工区交通运行效率及安全水平,提出了一种基于强化学习的可变限速控制方法.选取智能驾驶模型和真车试验模型,分别对传统人工车辆和智能网联车辆的跟驰行为进行建模,构建了以瓶颈下游路段交通流量为效率指标、瓶颈路段速度标准差为安全指标的复合奖励值,利用深度确定性策略梯度算法,分车道动态求解最佳限速值.仿真结果表明,所提可变限速控制方法在不同智能网联车辆渗漏率条件下均能有效提升交通流运行效率和安全水平,且在智能网联车辆渗漏率较低时,提升效果更加显著.当智能网联车辆渗漏率为1.0时,瓶颈下游路段交通流量提升10.1%,瓶颈路段速度标准差均值下降68.9%;当智能网联车辆渗漏率为0时,瓶颈下游路段交通流量提升20.7%,瓶颈路段速度标准差均值下降78.1%.智能网联车辆的引入能够提升至多52.0%的瓶颈下游路段交通流量. 展开更多
关键词 可变限速控制 深度确定性策略梯度算法 八车道高速公路施工区 智能网联车辆 协同自适应巡航控制
在线阅读 下载PDF
基于DDPG算法的变体飞行器自主变形决策 被引量:13
17
作者 桑晨 郭杰 +2 位作者 唐胜景 王肖 王子瑶 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第5期910-919,共10页
针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长... 针对变体飞行器的自主变形决策问题,提出了一种基于深度确定性策略梯度(DDPG)算法的智能二维变形决策方法。以可同时变展长及后掠角的飞行器为研究对象,利用DATCOM计算气动数据,并通过分析获得变形量与气动特性之间关系;基于给定的展长和后掠角变形动力学方程,设计DDPG算法学习步骤;针对对称和不对称变形条件下的变形策略进行学习训练。仿真结果表明:所提算法可以快速收敛,变形误差保持在3%以内,训练好的神经网络提高了变体飞行器对不同飞行任务的适应性,可以在不同的飞行环境中获得最佳的飞行性能。 展开更多
关键词 飞行器 自主变形决策 深度强化学习 深度确定性策略梯度(DDPG)算法 动力学分析
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:3
18
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
在线阅读 下载PDF
基于深度强化学习的智能路由技术研究 被引量:7
19
作者 黄万伟 郑向雨 +2 位作者 张超钦 王苏南 张校辉 《郑州大学学报(工学版)》 CAS 北大核心 2023年第1期44-51,共8页
针对现有智能路由算法收敛速度慢、平均时延高、带宽利用率低等问题,提出了一种基于深度强化学习(DRL)的多路径智能路由算法RDPG-Route。该算法采用循环确定性策略梯度(RDPG)作为训练框架,引入长短期记忆网络(LSTM)作为神经网络,基于RDP... 针对现有智能路由算法收敛速度慢、平均时延高、带宽利用率低等问题,提出了一种基于深度强化学习(DRL)的多路径智能路由算法RDPG-Route。该算法采用循环确定性策略梯度(RDPG)作为训练框架,引入长短期记忆网络(LSTM)作为神经网络,基于RDPG处理高纬度问题的算法优势,以及LSTM循环核中记忆体的存储能力,将动态变化的网络状态输入神经网络进行训练。算法训练收敛后,将神经网络输出的动作值作为网络链路权重,基于多路径路由策略进行流量划分,以实现网络路由的智能动态调整。最后,将RDPG-Route路由算法分别与ECMP、DRL-TE和DRL-R-DDPG路由算法进行对比。结果表明,RDPG-Route具有较好的收敛性和有效性,相比于其他智能路由算法至少降低了7.2%平均端到端时延,提高了6.5%吞吐量,减少了8.9%丢包率和6.3%的最大链路利用率。 展开更多
关键词 验质量 软件定义网络 深度强化学习 路由算法 循环确定性策略梯度
在线阅读 下载PDF
一种超参数自适应航天器交会变轨策略优化方法 被引量:1
20
作者 孙雷翔 郭延宁 +2 位作者 邓武东 吕跃勇 马广富 《宇航学报》 EI CAS CSCD 北大核心 2024年第1期52-62,共11页
利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO... 利用强化学习技术,本文提出了一种超参数自适应的燃料最优地球同步轨道(GEO)航天器交会变轨策略优化方法。首先,建立了GEO航天器交会Lambert变轨模型。以变轨时刻为决策变量、燃料消耗为适应度函数,使用改进式综合学习粒子群算法(ICLPSO)作为变轨策略优化的基础方法。其次,考虑到求解的最优性和快速性,重新设计了以粒子群算法(PSO)优化结果为参考基线的奖励函数。使用一族典型GEO航天器交会工况训练深度确定性策略梯度神经网络(DDPG)。将DDPG与ICLPSO组合为强化学习粒子群算法(RLPSO),从而实现算法超参数根据实时迭代收敛情况的自适应动态调整。最后,仿真结果表明与PSO、综合学习粒子群算法(CLPSO)相比,RLPSO在较少迭代后即可给出适应度较高的规划结果,减轻了迭代过程中的计算资源消耗。 展开更多
关键词 地球同步轨道 Lambert变轨 强化学习 粒子群算法 深度确定性策略梯度
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部