期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于双延迟深度确定性策略梯度的受电弓主动控制 被引量:2
1
作者 吴延波 韩志伟 +2 位作者 王惠 刘志刚 张雨婧 《电工技术学报》 EI CSCD 北大核心 2024年第14期4547-4556,共10页
弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升... 弓网系统耦合性能对于高速列车受流质量起着至关重要的作用,提高弓网耦合性能,一种有效的方法是针对受电弓进行主动控制调节,特别是在低速线路提速及列车多线路混跑时,主动控制可通过提高弓网自适应适配性,有效降低线路改造成本并提升受流质量。针对受电弓主动控制问题,该文提出一种基于双延迟深度确定性策略梯度(TD3)的深度强化学习受电弓主动控制算法。通过建立弓网耦合模型实现深度强化学习系统环境模块,利用TD3作为受电弓行为控制策略,最终通过对控制器模型训练实现有效的受电弓控制策略。实验结果表明,运用该文方法可有效提升低速线路列车高速运行时弓网耦合性能及受电弓在多线路运行时的适应性,为铁路线路提速及列车跨线路运行提供新的思路。 展开更多
关键词 低速线路 混跑 延迟深度确定性策略梯度(td3) 受电弓主动控制
在线阅读 下载PDF
基于乐观探索的双延迟深度确定性策略梯度 被引量:1
2
作者 王浩宇 张衡波 +1 位作者 程玉虎 王雪松 《南京理工大学学报》 CAS CSCD 北大核心 2024年第3期300-309,共10页
双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对... 双延迟深度确定性策略梯度是深度强化学习的一个主流算法,是一种无模型强化学习,已成功应用于具有挑战性的连续控制任务中。然而,当环境中奖励稀疏或者状态空间较大时,双延迟深度确定性策略梯度的样本效率较差,环境探索能力较弱。针对通过双Q值函数的下界确定目标函数带来的低效探索问题,提出一种基于乐观探索的双延迟深度确定性策略梯度(TD3-OE)。首先,从双Q值函数出发,分析取下界会使得探索具有一定的悲观性;然后,利用高斯函数和分段函数分别对双Q值函数进行拟合;最后,利用拟合Q值函数和目标策略构造出探索策略,指导智能体在环境中进行探索。探索策略能够避免智能体学习到次优策略,从而有效解决低效探索的问题。该文在基于MuJoCo物理引擎的控制平台上将所提算法与基准算法进行试验对比,验证了所提算法的有效性。试验结果表明:所提算法在奖励、稳定性和学习速度等指标上均达到或超过其他基础强化学习算法。 展开更多
关键词 深度强化学习 延迟深度确定性策略梯度 探索策略 乐观探索
在线阅读 下载PDF
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:11
3
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 延迟深度确定性策略梯度
在线阅读 下载PDF
改进双延迟深度确定性策略梯度的多船协调避碰决策
4
作者 黄仁贤 罗亮 +1 位作者 杨萌 刘维勤 《计算机科学》 CSCD 北大核心 2023年第11期269-281,共13页
目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(... 目前,多数海上避碰模型都是将船舶作为单智能体进行避碰决策,未考虑船舶间的协调避让,在多船会遇场景下仅靠单船进行避碰操作会导致避让效果不佳。为此,提出了一种改进双延迟深度确定性策略梯度算法(TD3)的Softmax深层双确定性策略梯度(SD3)多船协调避碰模型。从考虑船舶航行安全的时空因素出发构建时间碰撞模型、空间碰撞模型,对船舶碰撞风险进行定量分析,在此基础上采用根据会遇态势和船速矢量动态变化的船域模型对船舶碰撞风险进行定性分析。综合船舶目标导向、航向角改变、航向保持、碰撞风险和《国际海上避碰规则》(COLREGS)的约束设计奖励函数,结合COLREGS中的典型相遇情况构造对遇、追越和交叉相遇多局面共存的会遇场景进行避碰模拟仿真。消融实验显示softmax运算符提升了SD3算法的性能,使其在船舶协调避碰中拥有更好的决策效果,并与其他强化学习算法进行学习效率和学习效果的比较。实验结果表明,SD3算法在多局面共存的复杂场景下能高效做出准确的避碰决策,并且性能优于其他强化学习算法。 展开更多
关键词 多船会遇 协调避碰 智能决策 延迟深度确定性策略梯度(td3) Softmax深层确定性策略梯度(SD3) 强化学习
在线阅读 下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
5
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 td3算法 深度强化学习 噪声流 多步截断Q学习 经验回放池
在线阅读 下载PDF
基于双延迟深度确定性策略梯度的综合能源微网运行优化
6
作者 谢启跃 应雨龙 《济南大学学报(自然科学版)》 CAS 北大核心 2022年第3期301-307,共7页
为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电... 为了满足综合能源微网运行优化及能量管理的需求,提出基于双延迟深度确定性策略梯度算法的综合能源微网运行优化方法;基于标准化矩阵建模理论,构建一个含冷、热、电供应的综合能源微网数学模型;考虑到综合能源微网中天然气、主电网供电等相关约束和电力价格的变化,提出以运行成本最小化为目标的双延迟深度确定性策略梯度算法,对各种能源设备的出力情况作出决策,形成合理的能源分配管理方案。仿真结果表明,所提出方法的性能优于非线性算法、深度Q网络算法和深度确定性策略梯度算法,在确保运行成本最小化的同时计算耗时较短。 展开更多
关键词 综合能源微网 运行优化 延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
7
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:2
8
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 延迟深度确定性策略梯度 连续控制
在线阅读 下载PDF
基于A-TD3的码垛机器人轨迹规划
9
作者 金桥 杨光锐 +2 位作者 王霄 徐凌桦 张芳 《现代制造工程》 北大核心 2025年第5期42-52,共11页
深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Determini... 深度强化学习算法在码垛机器人机械臂轨迹规划的应用中存在学习速率低和鲁棒性差的问题。针对以上问题,提出了一种基于改进方位奖励函数(improved Azimuthal reward function,A)的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法用于机械臂的轨迹规划。首先,在笛卡尔坐标系下建立码垛机器人的数学模型,并对其进行运动学分析;其次,针对学习速率低和鲁棒性差的问题,基于机械臂和障碍物的相对方向和位置,设计了一种改进方位奖励函数结合双延迟深度确定性策略梯度(A-TD3)算法用于码垛机器人机械臂轨迹规划,以增强机械臂目标搜索的导向性,提高学习效率和鲁棒性。仿真结果表明,相比于改进前TD3算法,A-TD3算法平均收敛速度提升了11.84%,平均奖励值提升了4.64%,平均极差下降了10.30%,在轨迹规划用时上也比主流RRT和GA算法短,验证了A-TD3算法在码垛机器人机械臂轨迹规划应用中的有效性。 展开更多
关键词 机械臂 深度强化学习 改进方位奖励函数 延迟深度确定性策略梯度 轨迹规划
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
10
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 延迟深度确定性策略梯度算法 深度强化学习 扰动流体动态系统
在线阅读 下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制 被引量:1
11
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
12
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
13
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 延迟深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度
14
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
改进TD3算法在四旋翼无人机避障中的应用 被引量:9
15
作者 唐蕾 刘广钟 《计算机工程与应用》 CSCD 北大核心 2021年第11期254-259,共6页
为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradi... 为了提高无人机(Unmanned Aerial Vehicle,UAV)系统的智能避障性能,提出了一种基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)的改进算法(Improved Twin Delayed Deep Deterministic Policy Gradient,I-TD3)。该算法通过设置两个经验缓存池分离成功飞行经验和失败飞行经验,并根据两个经验缓存池的不同使用目的分别结合优先经验回放(Prioritized Experience Replay)方法和经验回放(Experience Replay)方法,提高有效经验的采样效率,缓解因无效经验过高导致的训练效率低问题。改进奖励函数,解决因奖励设置不合理导致的训练效果差问题。在AirSim平台上实现仿真实验,结果表明在四旋翼无人机的避障问题上,I-TD3算法的避障效果优于TD3算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法。 展开更多
关键词 延迟深度确定性策略梯度(td3) 优先经验回放 避障 四旋翼无人机
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:4
16
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 延迟深度确定性策略梯度算法 增程式电动轻卡
在线阅读 下载PDF
基于TD3-PER的混合动力履带车辆能量管理 被引量:3
17
作者 张彬 邹渊 +3 位作者 张旭东 杜国栋 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2022年第9期1400-1409,共10页
为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速... 为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速策略的训练和获得更高的优化性能。在建立包括纵横向动力学的车辆模型的基础上,完成基于TD3-PER的能量管理策略的框架构建和仿真验证。结果表明,与深度确定性策略梯度(DDPG)相比,所提出的策略使SHETV的燃油消耗降低了3.89%,燃油经济性达到了作为基准的动态规划算法的95.05%。同时该策略具有较好的电池SOC保持能力和工况适应性。 展开更多
关键词 串联式混合动力履带车辆 延迟深度确定性策略梯度 连续控制 优先经验采样
在线阅读 下载PDF
信控路段混行交通生态驾驶深度强化学习模型 被引量:2
18
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 延迟深度确定性策略梯度 信号交叉口 智能网联车辆
在线阅读 下载PDF
基于深度强化学习的综合能源系统低碳经济调度 被引量:1
19
作者 崔在兴 应雨龙 +1 位作者 李靖超 王新友 《南京信息工程大学学报》 CAS 北大核心 2024年第5期599-607,共9页
综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,... 综合能源系统(IES)能够实现多种能源形式的供应,但同时排放的大量CO_(2)也影响着周边环境.针对综合能源系统的低碳经济调度问题,本文提出一种基于双延迟深度确定性策略梯度(TD3)算法的优化调度策略.首先,以调度运行成本最小为目标函数,建立考虑碳捕集技术和电转气技术的包含电、热、冷多能互补的综合能源系统模型;其次,引入碳交易机制,提高优化调度策略节能减排的积极性;然后,根据强化学习框架设计优化模型的状态空间、动作空间和奖励函数等,利用TD3算法中的智能体与环境互动,学习综合能源系统的运行策略;最后,利用历史数据对TD3算法的智能体进行训练,并对比线性规划和粒子群算法在不同场景下进行算例分析.结果表明,本文所提方法可以减少综合能源系统运行时的碳排放和运行成本,能够实现综合能源系统的低碳经济调度. 展开更多
关键词 碳捕获系统 电转气 深度强化学习 延迟深度确定性策略梯度 综合能源系统 碳交易机制
在线阅读 下载PDF
扩展目标跟踪中基于深度强化学习的传感器管理方法
20
作者 张虹芸 陈辉 张文旭 《自动化学报》 EI CAS CSCD 北大核心 2024年第7期1417-1431,共15页
针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测... 针对扩展目标跟踪(Extended target tracking,ETT)优化中的传感器管理问题,基于随机矩阵模型(Random matrices model,RMM)建模扩展目标,提出一种基于深度强化学习(Deep reinforcement learning,DRL)的传感器管理方法.首先,在部分可观测马尔科夫决策过程(Partially observed Markov decision process,POMDP)理论框架下,给出基于双延迟深度确定性策略梯度(Twin delayed deep deterministic policy gradient,TD3)算法的扩展目标跟踪传感器管理的基本方法;其次,利用高斯瓦瑟斯坦距离(Gaussian Wasserstein distance,GWD)求解扩展目标先验概率密度与后验概率密度之间的信息增益,对扩展目标多特征估计信息进行综合评价,进而以信息增益作为TD3算法奖励函数的构建;然后,通过推导出的奖励函数,进行基于深度强化学习的传感器管理方法的最优决策;最后,通过构造扩展目标跟踪优化仿真实验,验证了所提方法的有效性. 展开更多
关键词 传感器管理 扩展目标跟踪 深度强化学习 延迟深度确定性策略梯度 信息增益
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部