期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进TD3的RIS-无人机通信系统能效优化
1
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
2
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于深度强化学习的停机位分配
3
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
4
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
5
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度 被引量:3
6
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 双延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略 被引量:2
7
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
8
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
应对非预期情况的船舶混合能源系统能量管理
9
作者 司玉鹏 王荣杰 +2 位作者 王亦春 林安辉 刘亚杰 《哈尔滨工程大学学报》 北大核心 2025年第10期2021-2031,共11页
为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决... 为应对船舶混合能源系统在设备故障或突发扰动等非预期工况下面临的能量管理挑战,本文提出一种基于优先级采样的深度确定性策略梯度算法的弹性增强控制策略。基于动作-评价网络框架,构建了适用于船舶混合能源系统协同运行的马尔可夫决策模型,该模型具有连续的状态空间和动作空间。利用历史航行数据对该算法进行训练,从而生成高效的最优能量管理策略。该策略旨在实现船舶混合能源系统在正常运行条件下的经济性优化调度,以及非预期工况下的弹性安全控制。不同场景的模拟船舶航行试验结果表明:该策略能够充分利用各类型设备的运行特性,稳态工况下能以经济性为导向实现合理的能量分配,非预期工况下则以可靠性为导向最大限度地保证系统安全运行。 展开更多
关键词 新能源船舶 非预期工况 弹性增强控制 马尔可夫决策过程 优先级采样 深度确定性策略梯度算法 历史航行数据 能量管理
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
10
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 双延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于自主探索的移动机器人路径规划研究 被引量:3
11
作者 陈浩 陈珺 刘飞 《计算机工程》 北大核心 2025年第1期60-70,共11页
移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径... 移动机器人在路径规划过程中,当面对未知且动态变化的环境时,会存在与障碍物碰撞率高、易陷入局部最优等问题。针对这些问题,提出一种基于双延迟深度确定性策略梯度(TD3)算法的改进算法TD3pro,以提高移动机器人在未知动态环境下的路径规划性能。首先,引入长短期记忆(LSTM)神经网络并与TD3算法相结合,通过门结构筛选历史状态信息,并感知探测范围内障碍物的状态变化,帮助机器人更好地理解环境的动态变化和障碍物的移动模式,使移动机器人能够准确预测和响应动态障碍物的行为,从而降低与障碍物的碰撞率。其次,加入OU (Ornstein-Uhlenbeck)探索噪声,帮助移动机器人持续探索周围环境,增强移动机器人的探索能力和随机性。在此基础上,将单个经验池设置为成功、失败和临时3个经验池,以此提高有效经验样本的采样效率,进而减少训练时间。最后,在2个不同的动、静态障碍物混合场景中进行路径规划实验仿真。实验结果表明:场景1中该算法相较于深度确定性策略梯度(DDPG)算法以及TD3算法,模型收敛的回合数减少了100~200个,路径长度缩短了0.5~0.8,规划时间减少了1~4 s;场景2中该算法相较于TD3算法,模型收敛的回合数减少了100~300个,路径长度缩短了1~3,规划时间减少了4~8 s, DDPG算法失败,移动机器人无法成功抵达终点。由此可见,改进的算法具有更好的路径规划性能。 展开更多
关键词 移动机器人 路径规划 双延迟深度确定性策略梯度算法 长短期记忆神经网络 OU探索噪声
在线阅读 下载PDF
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制 被引量:1
12
作者 易佳豪 王福杰 +3 位作者 胡锦涛 秦毅 郭芳 罗俊轩 《计算机应用研究》 北大核心 2025年第4期1025-1033,共9页
针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性... 针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)为基底算法的比例积分微分智能体(proportional-integral-derivative agent,PID agent)和直接用深度强化学习策略输出扭矩的智能体(direct deep reinforcement learning agent,DDR agent),并采用两个奖励函数来优化两个agent的策略网络。PID agent用于输出PID控制器的参数,再由PID控制器输出力矩控制机械臂以增加控制器的跟踪泛性,DDR agent则直接输出扭矩增加控制器的抗干扰性。为了克服多智能体训练难度高的问题,在训练中引入行为克隆技术,利用PID控制器的专家经验对PID agent进行预训练,形成预策略在训练初期就可以输出较合适的PID参数,增加有效经验来加速训练过程的奖励收敛。为了验证方法的有效性,通过欧拉拉格朗日建模二自由度机械臂,并在具有干扰的多种环境下进行仿真实验对比。实验结果表明,所提算法在具有随机干扰环境以及与训练轨迹不同的跟踪轨迹中都具有最好的跟踪效果,验证了所提算法的有效性。 展开更多
关键词 多智能体 孪生延迟深度确定性策略梯度 深度强化学习 轨迹跟踪 行为克隆
在线阅读 下载PDF
动态窗口法引导的TD3无地图导航算法
13
作者 柳佳乐 薛雅丽 +1 位作者 崔闪 洪君 《浙江大学学报(工学版)》 北大核心 2025年第8期1671-1679,共9页
针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)... 针对深度强化学习(DRL)算法训练数据需求量大、连续导航信息利用不充分的问题,提出DWA-LSTM TD3算法.该算法根据目标点相对位置、机器人自身速度和当前激光雷达数据控制机器人运动,过程无需先验地图.在训练过程中,利用动态窗口法(DWA)引导双延迟确定策略梯度(TD3),提高训练数据的质量.在策略网络中引入长短期记忆神经网络(LSTM),提升智能体对连续导航信息的处理能力.搭建仿真环境训练测试,与其他方法进行对比.实验结果表明,DWA-LSTM TD3在相同的训练步数下能够获得更高的奖励值,提高了导航任务的成功率;导航姿态角的波动范围变化更小,轨迹更平滑,改善机器人的运动安全性能.利用该算法,能够在不同场景下高效完成导航任务.该算法具有很强的泛化能力. 展开更多
关键词 无地图导航 动态窗口法 深度强化学习 双延迟确定策略梯度算法 长短期记忆
在线阅读 下载PDF
基于渐近式k-means聚类的多行动者确定性策略梯度算法
14
作者 刘全 刘晓松 +1 位作者 吴光军 刘禹含 《吉林大学学报(理学版)》 北大核心 2025年第3期885-894,共10页
针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic po... 针对深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法在一些大状态空间任务中存在学习效果不佳及波动较大等问题,提出一种基于渐近式k-means聚类算法的多行动者深度确定性策略梯度(multi-actor deep deterministic policy gradient based on progressive k-means clustering,MDDPG-PK-Means)算法.在训练过程中,对每一时间步下的状态进行动作选择时,根据k-means算法判别结果辅佐行动者网络的决策,同时随训练时间步的增加,逐渐增加k-means算法类簇中心的个数.将MDDPG-PK-Means算法应用于MuJoCo仿真平台上,实验结果表明,与DDPG等算法相比,MDDPG-PK-Means算法在大多数连续任务中都具有更好的效果. 展开更多
关键词 深度强化学习 确定性策略梯度算法 K-MEANS聚类 多行动者
在线阅读 下载PDF
增强型深度强化学习方法应用于化工过程控制
15
作者 张佳鑫 董立春 《化工进展》 北大核心 2025年第10期5563-5569,共7页
深度强化学习(DRL)算法因其无须依赖历史数据和先验知识,仅通过环境与智能体的互动即可实现策略优化和自主学习,在工业过程控制领域表现出良好的应用前景。其中,基于双延迟深度确定性策略梯度(TD3)算法的控制策略可有效克服深度确定性... 深度强化学习(DRL)算法因其无须依赖历史数据和先验知识,仅通过环境与智能体的互动即可实现策略优化和自主学习,在工业过程控制领域表现出良好的应用前景。其中,基于双延迟深度确定性策略梯度(TD3)算法的控制策略可有效克服深度确定性策略梯度(DDPG)模型中Q值易被高估,导致次优策略和鲁棒性不佳的缺陷,成为目前最领先的基于深度强化学习的控制模型。然而,原始TD3方法在应用于具有较显著策略波动的工业过程控制时仍显示出局限性,特别是其Q值低估问题会导致模型控制性能不佳。为了解决这些限制,本文提出了一种适用于工业过程控制的增强型TD3控制模型(ETD3),该模型首先建立评估指标来判断行动者(Actor)网络参数的高估或低估情况,并根据评估结果调整输入到批评家(Critic)网络的损失函数。然后,通过替换原始TD3中的固定学习率为三角衰减周期学习率,以提升模型的训练收敛性和控制性能。本文最后通过将增强型TD3算法应用于工业天然气脱水过程的控制过程验证了其有效性。 展开更多
关键词 过程控制 深度强化学习 双延时深度确定性策略梯度 三角衰减周期
在线阅读 下载PDF
EP-DDPG引导的着舰控制系统
16
作者 雷元龙 谢鹏 +3 位作者 刘业华 陈翃正 朱静思 盛守照 《控制理论与应用》 北大核心 2025年第10期1904-1913,共10页
针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略... 针对舰载机纵向通道下的控制精度提升问题,本文以保证舰载机以合理的姿态和速度沿期望下滑道着落为目标,以深度确定性策略梯度算法为基本优化框架,提出了一种基于专家策略–深度确定性策略梯度(EP-DDPG)算法的控制器参数自适应调节策略.首先,构建“魔毯”着舰控制系统作为基础架构;其次,为提升控制器的自适应能力和鲁棒性,基于行动者–评论家框架设计深度确定性策略梯度(DDPG)算法对控制器参数进行在线调整;最后,针对常规强化学习算法前期训练效率低,效果差的问题,基于反向传播(BP)神经网络构专家策略为智能体的训练提供引导,并设计指导探索协调模块进行策略决策,保证动作策略的合理性和算法的高效性.仿真结果表明,与常规控制器相比,该算法的控制精度和鲁棒性有了极大的提升. 展开更多
关键词 强化学习 深度确定性策略梯度算法 魔毯 行动者–评论家 BP神经网络
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述 被引量:1
17
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度Q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
面向跨海大桥的自动驾驶车辆侧倾控制 被引量:1
18
作者 唐晓峰 李若旭 曹钊 《江苏大学学报(自然科学版)》 北大核心 2025年第2期132-139,148,共9页
针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环... 针对跨海大桥道路环境的不确定性导致自动驾驶车辆容易发生车辆动力学状态变化的问题,提出了基于深度确定性策略梯度(DDPG)算法的车辆侧倾控制策略,探索了该策略在不同车速下的泛化能力.首先构建了跨海大桥的垂向模型,以提供动态道路环境;其次构建了车辆动力学模型和车辆跟踪误差模型,融合了车辆的侧倾、侧滑和横摆的动力学特性,并构建了侧倾稳定性判据;最后设计了深度确定性策略梯度算法中的状态空间和动作空间,并根据车辆的侧倾状态设计了奖励函数.数值模拟结果表明深度确定性策略梯度算法在每一回合中都会获得良好的性能,具有良好的学习能力和解决不确定性复杂环境问题的能力,确保了车辆侧倾角和横向距离误差在可接受的微小波动范围内,满足车辆控制的安全性. 展开更多
关键词 自动驾驶车辆 跨海大桥 侧倾控制 深度确定性策略梯度算法 奖励函数 状态空间 车辆跟踪误差 侧倾稳定性
在线阅读 下载PDF
一种基于深度强化学习的海上MEC任务卸载和资源分配优化算法
19
作者 徐艳丽 周子睿 《电信科学》 北大核心 2025年第10期102-121,共20页
移动边缘计算被认为是减少回程压力和提高服务质量的重要解决方案,但现有的资源管理策略在高动态的海洋环境下适应性较差。为解决该问题,提出了一种基于改进双延迟深度确定性策略梯度的任务卸载和资源分配算法。该算法可系统地协调无人... 移动边缘计算被认为是减少回程压力和提高服务质量的重要解决方案,但现有的资源管理策略在高动态的海洋环境下适应性较差。为解决该问题,提出了一种基于改进双延迟深度确定性策略梯度的任务卸载和资源分配算法。该算法可系统地协调无人机部署与边缘节点资源,联合优化通信资源分配和计算任务调度,同时考虑海洋边缘节点的能量限制和海洋网络的时变特性。具体而言,问题被表述为一个非凸优化框架,目标是在用户设备严格的服务质量要求下最大化吞吐量。提出的算法通过资源协调动态适应海洋环境变化,有效平衡了时延和能耗。仿真结果表明,在高动态的海事通信场景中,提出的算法显著优于现有的基准方法,证明该方法的有效性和可行性。 展开更多
关键词 移动边缘计算 资源分配 任务卸载 海事通信 双延迟深度确定性策略梯度
在线阅读 下载PDF
智能电网中基于空地一体化的移动安全通信策略
20
作者 刘成江 黎燕 +2 位作者 殷攀程 杨柳 孙文雪 《电讯技术》 北大核心 2025年第7期1042-1049,共8页
针对智能电网中移动用户(如远程巡检设备、移动维护设备等)在窃听威胁下的数据传输问题,提出了一种基于空地一体化的无人机(Unmanned Aerial Vehicle,UAV)辅助智能电网移动用户通信系统。该系统利用混合智能反射表面(Hybrid Reconfigura... 针对智能电网中移动用户(如远程巡检设备、移动维护设备等)在窃听威胁下的数据传输问题,提出了一种基于空地一体化的无人机(Unmanned Aerial Vehicle,UAV)辅助智能电网移动用户通信系统。该系统利用混合智能反射表面(Hybrid Reconfigurable Intelligent Surfaces,HRIS)与UAV协同工作,通过优化基站(Base Station,BS)的波束赋形和HRIS的反射系数矩阵,并采用双深度确定性策略梯度(Twin Deep Deterministic Policy Gradient,TDDPG)算法进行求解,在满足系统总能耗和通信服务质量(Quality of Service,QoS)要求的约束下,最大化通信系统的保密能效(Secrecy Energy Efficiency,SEE),确保移动设备的数据传输安全性和通信质量。仿真结果验证了所提模型和通信策略的有效性,保密速率相较于传统方案提升约36.8%,从物理层显著提高了智能电网中移动业务通信的安全性和能效。 展开更多
关键词 智能电网 无人机 混合智能反射表面 联合优化 双深度确定性策略梯度
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部