期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
基于MADDPG的多无人机协同攻击方法 被引量:1
1
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(maddpg) 无人机集群
在线阅读 下载PDF
基于融合课程思想MADDPG的无人机编队控制
2
作者 吴凯峰 刘磊 +1 位作者 刘晨 梁成庆 《计算机工程》 北大核心 2025年第5期73-82,共10页
多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变... 多智能体深度确定性梯度(MADDPG)算法由深度确定性策略梯度(DDPG)算法扩展而来,专门针对多智能体环境设计,算法中每个智能体不仅考虑自身的观察和行动,还考虑其他智能体的策略,以更好地进行集体决策,这种设计显著提升了其在复杂、多变的环境中的性能和稳定性。基于MADDPG算法框架,设计算法的网络结构、状态空间、动作空间和奖励函数,实现无人机编队控制。为解决多智能体算法收敛困难的问题,训练过程中使用课程强化学习将任务进行阶段分解,针对每次任务不同,设计层次递进的奖励函数,并使用人工势场思想设计稠密奖励,使得训练难度大大降低。在自主搭建的软件在环(SITL)仿真环境中,通过消融、对照实验,验证了MADDPG算法在多智能体环境中的有效性和稳定性。最后进行实机实验,在现实环境中进一步验证了所设计算法的实用性。 展开更多
关键词 无人机编队 深度强化学习 多智能体深度确定性策略梯度 课程学习 神经网络
在线阅读 下载PDF
基于MADDPG算法的匝道合流区多车协同控制 被引量:1
3
作者 蔡田茂 孔伟伟 +3 位作者 罗禹贡 石佳 姬鹏霄 李聪民 《汽车安全与节能学报》 CSCD 北大核心 2024年第6期923-933,共11页
为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通... 为了保障匝道合流区的安全高效通行,提出了一种基于多智能体强化学习算法的多车协同控制方法。以提升系统计算效率为目标,设计了基于多智能体确定性策略梯度算法(MADDPG)的分布式训练框架;针对智能体模型难以应对连续车流场景的问题,通过构建相对静止环境,改进策略更新梯度,保障智能体面向连续车流环境的平稳性;拆分匝道合流区场景为准备区和汇入区,分别依据两区域控制目标设计了状态、动作空间及奖励函数。结果表明:在不同交通流量下,与基于规则的方法相比,该方法通行合流区的总延误时间平均缩短25.46%;与全局优化方法相比,延误时间相差8.47%,但控制时长上不会随车辆数量增加而增长。该文所提出匝道合流区多车协同控制方法能够更好地兼顾通行效率提升与系统实时性。 展开更多
关键词 多智能体确定性策略梯度算法(maddpg) 多智能体强化学习 多车协同控制 匝道合流
在线阅读 下载PDF
基于轨迹预测和分布式MADDPG的无人机集群追击决策 被引量:2
4
作者 王昱 关智慧 李远鹏 《计算机应用》 CSCD 北大核心 2024年第11期3623-3628,共6页
针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通... 针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通信中断等原因导致的目标机信息缺失等情况,采用长短时记忆(LSTM)网络实时预测目标机的位置信息,并基于预测信息构建决策模型的状态空间;最后,依据分布式框架和多智能体深度确定性策略梯度(MADDPG)算法设计TP-DMADDPG算法,增强复杂空战进程中集群追击决策的灵活性和泛化能力。仿真实验结果表明,相较于深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)和MADDPG算法,TP-DMADDPG算法将协同决策的成功率提升了至少15个百分点,能够解决不完备信息下追击智能化逃逸目标机的问题。 展开更多
关键词 集群追击 轨迹预测 分布式决策 多智能体 强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
5
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习的停机位分配
6
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
7
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
8
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略 被引量:2
9
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
10
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
应对非预期情况的船舶混合能源系统能量管理
11
作者 司玉鹏 王荣杰 +2 位作者 王亦春 林安辉 刘亚杰 《哈尔滨工程大学学报》 北大核心 2025年第10期2021-2031,共11页
为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决... 为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决策模型,该模型具有连续的状态空间和动作空间。利用历史航行数据对该算法进行训练,从而生成高效的最优能量管理策略。该策略旨在实现船舶混合能源系统在正常运行条件下的经济性优化调度,以及非预期工况下的弹性安全控制。不同场景的模拟船舶航行试验结果表明:该策略能够充分利用各类型设备的运行特性,稳态工况下能以经济性为导向实现合理的能量分配,非预期工况下则以可靠性为导向最大限度地保证系统安全运行。 展开更多
关键词 新能源船舶 非预期工况 弹性增强控制 马尔可夫决策过程 优先级采样 深度确定性策略梯度算法 历史航行数据 能量管理
在线阅读 下载PDF
基于自主探索的移动机器人路径规划研究 被引量:3
12
作者 陈浩 陈珺 刘飞 《计算机工程》 北大核心 2025年第1期60-70,共11页
移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径... 移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径规划性能。首先,引入长短期记忆(LSTM)神经网络并与TD3算法相结合,通过门结构筛选历史状态信息,并感知探测范围内障碍物的状态变化,帮助机器人更好地理解环境的动态变化和障碍物的移动模式,使移动机器人能够准确预测和响应动态障碍物的行为,从而降低与障碍物的碰撞率。其次,加入OU (Ornstein-Uhlenbeck)探索噪声,帮助移动机器人持续探索周围环境,增强移动机器人的探索能力和随机性。在此基础上,将单个经验池设置为成功、失败和临时3个经验池,以此提高有效经验样本的采样效率,进而减少训练时间。最后,在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明:场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法,模型收敛的回合数减少了100~200个,路径长度缩短了0.5~0.8,规划时间减少了1~4 s;场景2中该算法相较于TD3算法,模型收敛的回合数减少了100~300个,路径长度缩短了1~3,规划时间减少了4~8 s, DDPG算法失败,移动机器人无法成功抵达终点。由此可见,改进的算法具有更好的路径规划性能。 展开更多
关键词 移动机器人 路径规划 双延迟深度确定性策略梯度算法 长短期记忆神经网络 OU探索噪声
在线阅读 下载PDF
基于渐近式k-means聚类的多行动者确定性策略梯度算法
13
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
EP-DDPG引导的着舰控制系统
14
作者 雷元龙 谢鹏 +3 位作者 刘业华 陈翃正 朱静思 盛守照 《控制理论与应用》 北大核心 2025年第10期1904-1913,共10页
针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略... 针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略.首先,构建“魔毯”着舰控制系统作为基础架构;其次,为提升控制器的自适应能力和鲁棒性,基于行动者–评论家框架设计深度确定性策略梯度(DDPG)算法对控制器参数进行在线调整;最后,针对常规强化学习算法前期训练效率低,效果差的问题,基于反向传播(BP)神经网络构专家策略为智能体的训练提供引导,并设计指导探索协调模块进行策略决策,保证动作策略的合理性和算法的高效性.仿真结果表明,与常规控制器相比,该算法的控制精度和鲁棒性有了极大的提升. 展开更多
关键词 强化学习 深度确定性策略梯度算法 魔毯 行动者–评论家 BP神经网络
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述 被引量:1
15
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
动态窗口法引导的TD3无地图导航算法
16
作者 柳佳乐 薛雅丽 +1 位作者 崔闪 洪君 《浙江大学学报(工学版)》 北大核心 2025年第8期1671-1679,共9页
针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)... 针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)引导双延迟确定策略梯度(TD3),提高训练数据的质量.在策略网络中引入长短期记忆神经网络(LSTM),提升智能体对连续导航信息的处理能力.搭建仿真环境训练测试,与其他方法进行对比.实验结果表明,DWA-LSTM TD3在相同的训练步数下能够获得更高的奖励值,提高了导航任务的成功率;导航姿态角的波动范围变化更小,轨迹更平滑,改善机器人的运动安全性能.利用该算法,能够在不同场景下高效完成导航任务.该算法具有很强的泛化能力. 展开更多
关键词 无地图导航 动态窗口法 深度强化学习 双延迟确定策略梯度算法 长短期记忆
在线阅读 下载PDF
面向跨海大桥的自动驾驶车辆侧倾控制 被引量:1
17
作者 唐晓峰 李若旭 曹钊 《江苏大学学报(自然科学版)》 北大核心 2025年第2期132-139,148,共9页
针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环... 针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环境;其次构建了车辆动力学模型和车辆跟踪误差模型,融合了车辆的侧倾、侧滑和横摆的动力学特性,并构建了侧倾稳定性判据;最后设计了深度确定性策略梯度算法中的状态空间和动作空间,并根据车辆的侧倾状态设计了奖励函数.数值模拟结果表明深度确定性策略梯度算法在每一回合中都会获得良好的性能,具有良好的学习能力和解决不确定性复杂环境问题的能力,确保了车辆侧倾角和横向距离误差在可接受的微小波动范围内,满足车辆控制的安全性. 展开更多
关键词 自动驾驶车辆 跨海大桥 侧倾控制 深度确定性策略梯度算法 奖励函数 状态空间 车辆跟踪误差 侧倾稳定性
在线阅读 下载PDF
基于深度强化学习的飞行机械臂视觉抓取研究
18
作者 王宁 毛鹏军 +1 位作者 倪培龙 杨孟杰 《组合机床与自动化加工技术》 北大核心 2025年第9期34-39,43,共7页
为了解决传统深度确定性策略梯度算法(DDPG)在旋翼飞行机械臂抓取物体过程中机械臂学习效率低、收敛速度慢,导致旋翼飞行机械臂抓取成功率较低的问题,提出了一种HER-DDPG算法。首先基于ROS平台搭建旋翼飞行机械臂的实验环境,然后利用改... 为了解决传统深度确定性策略梯度算法(DDPG)在旋翼飞行机械臂抓取物体过程中机械臂学习效率低、收敛速度慢,导致旋翼飞行机械臂抓取成功率较低的问题,提出了一种HER-DDPG算法。首先基于ROS平台搭建旋翼飞行机械臂的实验环境,然后利用改进的YOLOv8n目标检测算法和反向投影法获取抓取物体的三维位置,最后将DDPG算法、HER-TD3算法和设计的HER-DDPG算法加入仿真环境对飞行机械臂进行抓取训练。HER-DDPG算法先利用事后经验回放算法(HER)将实际未成功的经验重新解释为成功的的经验,增加了有用经验的数量,然后再用DDPG算法对飞行机械臂进行训练。实验结果表明,利用DDPG算法对飞行机械臂进行训练,学习效率较低,收敛速度较慢,抓取成功率为65.2%,利用HER-TD3算法对飞行机械臂进行训练,学习效率较低,收敛速度较快,抓取成功率为79.5%,而利用HER-DDPG算法对飞行机械臂进行训练,学习效率高,收敛速度快,抓取成功率为80.4%,较DDPG算法上升了15.2%。 展开更多
关键词 深度确定性策略梯度算法 旋翼飞行机械臂抓取 HER-TD3 HER-DDPG ROS
在线阅读 下载PDF
基于集群划分的配电网源-荷-储分层协调规划方法
19
作者 黄振琳 仲卫 吴巨豪 《太阳能学报》 北大核心 2025年第7期237-246,共10页
提出基于集群划分的配电网源-荷-储分层协调规划控制策略。首先,提出考虑负荷预测下电气距离的配电网综合指标集群划分方法;其次,在集群划分的基础上提出双层联合规划模型,上层针对集群内源、荷的不确定性建立源-储选址定容模型,下层以... 提出基于集群划分的配电网源-荷-储分层协调规划控制策略。首先,提出考虑负荷预测下电气距离的配电网综合指标集群划分方法;其次,在集群划分的基础上提出双层联合规划模型,上层针对集群内源、荷的不确定性建立源-储选址定容模型,下层以节点电压偏差最小为目标函数,建立马尔科夫决策过程参与的电压控制模型;然后,通过退火策略改进的粒子群算法和深度确定性策略梯度算法对上下层模型进行求解。最后,在某实际35 kV/10 kV配电网络中验证该源-荷-储双层优化模型的有效性,实现了配电网源-荷-储不同空间响应的协调规划控制。 展开更多
关键词 分布式电源 集群 马尔科夫决策过程 协调规划 粒子群算法 深度确定性策略梯度算法 退火策略
在线阅读 下载PDF
基于深度强化学习的航天器电磁对接控制方法
20
作者 林菁 刘闯 《宇航学报》 北大核心 2025年第8期1621-1629,共9页
随着在轨组装技术的发展,大型航天平台与组装模块的自主电磁对接面临多目标协同优化控制难题。针对大型航天器在轨组装任务,结合深度强化学习算法,提出了一种基于深度确定性策略梯度(DDPG)算法的多目标优化电磁对接控制方法。该方法通... 随着在轨组装技术的发展,大型航天平台与组装模块的自主电磁对接面临多目标协同优化控制难题。针对大型航天器在轨组装任务,结合深度强化学习算法,提出了一种基于深度确定性策略梯度(DDPG)算法的多目标优化电磁对接控制方法。该方法通过构建椭圆轨道上的航天器电磁对接动力学模型,同时考虑高精度控制、抗干扰、最优能耗及对接时间优化等约束,利用DDPG算法进行轨道控制方法设计,能够实现多目标协同优化控制。将其应用到大型航天平台与组装模块的在轨电磁组装中,仿真结果表明该算法不仅能够快速精确地引导组装模块完成在轨电磁组装任务,而且具备较强的鲁棒性和适应性,最大限度地降低组装过程中的能耗,优化对接时间和精度,同时有效避免羽流污染。 展开更多
关键词 大型航天器 多目标优化控制 在轨电磁组装 深度确定性策略梯度算法
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部