期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于强化学习的地下空间除湿机组系统优化控制研究
1
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 双延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
2
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 双延迟深度确定性策略梯度 连续控制
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
3
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 双延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
在线阅读 下载PDF
信控路段混行交通生态驾驶深度强化学习模型
4
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 双延迟深度确定性策略梯度 信号交叉口 智能网联车辆
在线阅读 下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制 被引量:1
5
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 双延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
基于动态延迟策略更新的TD3算法 被引量:3
6
作者 康朝海 孙超 +1 位作者 荣垂霆 刘鹏云 《吉林大学学报(信息科学版)》 CAS 2020年第4期474-481,共8页
在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-T... 在深度强化学习领域中,为进一步减少双延迟深度确定性策略梯度TD3(Twin Delayed Deep Deterministic Policy Gradients)中价值过估计对策略估计的影响,加快模型学习的效率,提出一种基于动态延迟策略更新的双延迟深度确定性策略梯度(DD-TD3:Twin Delayed Deep Deterministic Policy Gradients with Dynamic Delayed Policy Update)。在DD-TD3方法中,通过Critic网络的最新Loss值与其指数加权移动平均值的动态差异指导Actor网络的延迟更新步长。实验结果表明,与原始TD3算法在2000步获得较高的奖励值相比,DD-TD3方法可在约1000步内学习到最优控制策略,并且获得更高的奖励值,从而提高寻找最优策略的效率。 展开更多
关键词 深度强化学习 TD3算法 动态延迟策略更新
在线阅读 下载PDF
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:8
7
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 双延迟深度确定性策略梯度法
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:2
8
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
在线阅读 下载PDF
变形飞行器深度强化学习姿态控制方法研究 被引量:2
9
作者 马少捷 惠俊鹏 +1 位作者 王宇航 张旋 《航天控制》 CSCD 北大核心 2022年第6期3-10,共8页
针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的... 针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的框架下设计了算法所需状态空间、动作空间以及奖励函数,通过在状态空间中引入姿态跟踪误差历史信息,进一步提高了控制精度,并将策略网络与传统PD控制结合形成复合控制器,提高了算法训练效率,最后通过数学仿真验证了深度强化学习控制策略对变形过程模型不确定性与外界复杂干扰的强鲁棒性,以及对不同变形指令的强适应性。 展开更多
关键词 变形飞行器 深度强化学习 双延迟深度确定性策略梯度 姿态控制
在线阅读 下载PDF
基于TD3-PER的混合动力履带车辆能量管理 被引量:2
10
作者 张彬 邹渊 +3 位作者 张旭东 杜国栋 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2022年第9期1400-1409,共10页
为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速... 为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速策略的训练和获得更高的优化性能。在建立包括纵横向动力学的车辆模型的基础上,完成基于TD3-PER的能量管理策略的框架构建和仿真验证。结果表明,与深度确定性策略梯度(DDPG)相比,所提出的策略使SHETV的燃油消耗降低了3.89%,燃油经济性达到了作为基准的动态规划算法的95.05%。同时该策略具有较好的电池SOC保持能力和工况适应性。 展开更多
关键词 串联式混合动力履带车辆 双延迟深度确定性策略梯度 连续控制 优先经验采样
在线阅读 下载PDF
基于深度强化学习的轨迹跟踪横向控制研究 被引量:3
11
作者 张炳力 佘亚飞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第7期865-872,共8页
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场... 针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。 展开更多
关键词 自动驾驶 轨迹跟踪 深度强化学习 双延迟深度确定性策略梯度(TD3)算法 奖励函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部