期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量:8
1
作者 郭万春 解武杰 +1 位作者 尹晖 董文瀚 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期15-21,共7页
针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,... 针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 展开更多
关键词 深度强化学习 近距空战 无人机 双延迟深度确定性策略梯度法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
2
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 延迟深度确定性策略梯度 控制性能
在线阅读 下载PDF
基于TD3-PER的氢燃料电池混合动力汽车能量管理策略研究 被引量:1
3
作者 虞志浩 赵又群 +2 位作者 潘陈兵 何鲲鹏 李丹阳 《汽车技术》 CSCD 北大核心 2024年第1期13-19,共7页
为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控... 为优化氢燃料电池混合动力汽车的燃料经济性及辅助动力电池性能,提出了一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。采用双延迟深度确定性策略梯度(TD3)算法,在防止训练过优估计的同时实现了更精准的连续控制;同时结合优先经验采样(PER)算法,在获得更好优化性能的基础上加速了策略的训练。仿真结果表明:相较于深度确定性策略梯度(DDPG)算法,所提出的TD3-PER能量管理策略的百公里氢耗量降低了7.56%,平均功率波动降低了6.49%。 展开更多
关键词 氢燃料电池混合动力汽车 优先经验采样 延迟深度确定性策略梯度 连续控制
在线阅读 下载PDF
基于强化学习的飞行器自主规避决策方法 被引量:1
4
作者 窦立谦 任梦圆 +1 位作者 张秀云 宗群 《航空科学技术》 2024年第6期96-103,共8页
考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨... 考虑飞行器在执行任务过程中存在诸多不可预知的威胁或障碍,为保障飞行器的安全性,本文进行飞行器面向威胁目标的自主规避决策方法研究。首先综合考虑飞行器与威胁目标行为之间的相互影响,提出了基于深度长短期记忆(LSTM)神经网络的轨迹预测算法,实现对威胁目标未来轨迹的预测;然后结合预测信息构建拦截场景下规避机动的马尔可夫决策过程,设计了基于改进双延迟深度确定性策略梯度(P-TD3)的飞行器规避决策方法,以最大化规避过程的总收益为优化目标,实现飞行器自主规避决策。最后通过在虚拟仿真交互平台的试验验证,本文的决策方法提升了网络的收敛速度,具有84%的规避成功率,提高了飞行器对潜在威胁的成功规避概率,有利于增强飞行器的自主性与安全性。 展开更多
关键词 高超声速飞行器 强化学习 延迟深度确定性策略梯度 自主规避 机动决策
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:3
5
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度Q网络 深度确定性策略梯度 延迟深度确定性策略梯度 增程式电动轻卡
在线阅读 下载PDF
变形飞行器深度强化学习姿态控制方法研究 被引量:2
6
作者 马少捷 惠俊鹏 +1 位作者 王宇航 张旋 《航天控制》 CSCD 北大核心 2022年第6期3-10,共8页
针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的... 针对变形飞行器动力学模型非线性强、不确定性大,以及变形引起模型变化范围大的问题,基于双延迟深度确定性策略梯度算法提出了一种深度强化学习姿态控制方法。首先,基于多刚体系统建立了变形飞行器动力学模型,然后在马尔可夫决策过程的框架下设计了算法所需状态空间、动作空间以及奖励函数,通过在状态空间中引入姿态跟踪误差历史信息,进一步提高了控制精度,并将策略网络与传统PD控制结合形成复合控制器,提高了算法训练效率,最后通过数学仿真验证了深度强化学习控制策略对变形过程模型不确定性与外界复杂干扰的强鲁棒性,以及对不同变形指令的强适应性。 展开更多
关键词 变形飞行器 深度强化学习 延迟深度确定性策略梯度 姿态控制
在线阅读 下载PDF
基于扰动流体与TD3的无人机路径规划算法 被引量:3
7
作者 陈康雄 刘磊 《电光与控制》 CSCD 北大核心 2024年第1期57-62,共6页
针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动... 针对双延迟深度确定性策略梯度(TD3)算法存在的动作选取随机性低的问题,在TD3算法中依正态分布进行动作选取,并依据扰动流体路径规划方法在路径平滑度上较高的优势,提出一种基于扰动流体与TD3算法的无人机路径规划框架,将其用于解决动态未知环境下的无人机路径规划问题,实现了无人机路径规划方案的快速收敛。仿真结果表明,对算法的改进可大幅提升网络训练效率,且能在保证避障实时性的前提下,满足航迹质量需求,为路径规划任务中应用深度强化学习提供了新思路。 展开更多
关键词 无人机 路径规划 延迟深度确定性策略梯度 深度强化学习 扰动流体动态系统
在线阅读 下载PDF
信控路段混行交通生态驾驶深度强化学习模型 被引量:1
8
作者 辛琪 王嘉琪 +2 位作者 杨文科 徐猛 袁伟 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第3期127-139,共13页
针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并... 针对考虑通过性约束和安全性约束的动态规划模型,其在混行和大流量条件下模型复杂度较高,甚至会出现无解的问题,本文提出一种混行信控路段智能网联车辆生态驾驶轨迹优化的深度强化学习模型。本文所提模型通过设定不同程度的奖惩机制,并采用双延迟深度确定性策略梯度算法优化混行车流中智能网联车辆接近信号交叉口的轨迹。首先,选取车距、速度差、速度、到交叉口距离、排队长度、信号相位及配时等特征作为智能体状态,刻画驾驶安全性和通行效率,特别地,将交叉口排队长度扩增到状态中,解决智能网联车辆因有人驾驶车辆排队而临时停车的问题;其次,构建基于智能体状态和预期到达交叉口时间的多目标奖励函数,同时,优化混行车流下智能网联车辆的效率、能耗、舒适性和安全性,解决动态规划模型约束与求解复杂度关联的问题。仿真训练和测试结果表明,随着智能网联车辆渗透率的提高,车辆在交叉口等待时间显著减少;与无控制相比,能耗降低约5.47%;与动态规划模型相比,能耗降低约4.42%,与基于深度确定性策略梯度轨迹规划模型相比,能耗降低约2.91%。此外,在交通需求和信号周期波动条件下,本文所提模型均可实现智能网联车辆不停车通过信号交叉口。 展开更多
关键词 智能交通 轨迹优化 延迟深度确定性策略梯度 信号交叉口 智能网联车辆
在线阅读 下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
9
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度Q网络(DQN) 深度强化学习 延迟策略梯度 毫米波 智能反射面
在线阅读 下载PDF
基于强化学习的地下空间除湿机组系统优化控制研究
10
作者 赵安军 魏渊 +1 位作者 张洺瑞 任启航 《建筑节能(中英文)》 2025年第4期89-98,共10页
针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系... 针对地下空间建筑在夏季常面临闷热潮湿的问题,传统的除湿设备如空调和除湿机组存在非线性和滞后的运行问题,导致能耗较高。因此,提出了一种基于强化学习的地下空间建筑除湿机组系统的节能优化控制方法。利用神经网络建立了除湿机组系统的环境模型,并将室内湿度和系统能效设定为控制目标。针对地下空间建筑除湿机组系统,构建了基于双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient, TD3)算法的强化学习智能体结构。通过智能体与环境模型的交互,不断尝试调整除湿机组中的蒸发温度和冷却塔风机频率,使室内湿度更接近设定的湿度值,并在一定程度上提高系统能效,从而降低能源消耗,实现一定的节能效果。 展开更多
关键词 地下空间建筑 除湿机组 系统能效 延迟深度确定性策略梯度 强化学习
在线阅读 下载PDF
无人机辅助NOMA通信系统中的3D轨迹优化与资源分配
11
作者 朱耀辉 王涛 +1 位作者 彭振春 刘含 《应用科学学报》 北大核心 2025年第2期208-221,共14页
无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delay... 无人机辅助通信系统是未来无线通信系统的重要组成部分。为进一步提高无人机辅助通信系统中时频资源的利用率,本文研究了一种基于非正交多址技术的无人机辅助通信架构,并提出了一种基于双延迟深度确定性策略梯度的TD3-TOPATM(twin delayedtrajectory optimization and power allocation for total throughput maximization)算法,以最大化总吞吐量为目标,在满足最大功率约束、空间约束、最大飞行速度和服务质量(quality of service,QoS)约束的情况下,联合优化无人机的功率分配策略和3D轨迹。仿真实验分析结果表明,与随机算法相比,TD3-TOPATM算法能够实现98%的性能增益;与基于DQN(deep Q-network)的轨迹优化与资源分配算法相比,TD3-TOPATM算法获得的性能增益为19.4%;与基于深度确定性策略梯度的轨迹优化与资源分配算法相比,TD3-TOPATM算法得到的总吞吐量增加了9.7%;与基于正交多址技术的无人机辅助通信方案相比,基于非正交多址技术的无人机辅助通信方案实现了55%的性能增益。 展开更多
关键词 深度强化学习 无人机辅助通信 3D轨迹优化 非正交多址 延迟深度确定性策略梯度
在线阅读 下载PDF
基于规则引导DDPG的多目标电网调度算法 被引量:4
12
作者 黄尽云 罗倩 成梁成 《北京信息科技大学学报(自然科学版)》 2022年第2期56-61,共6页
设计了一种多目标的电网调度模型,在保障电网安全运行的基础上,实现最大化新能源消纳和最小化运行成本的目标。引入深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法与环境交互得到最优调度策略。针对DDPG算法存在的... 设计了一种多目标的电网调度模型,在保障电网安全运行的基础上,实现最大化新能源消纳和最小化运行成本的目标。引入深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法与环境交互得到最优调度策略。针对DDPG算法存在的训练不稳定的问题,提出一种规则引导DDPG算法,并在训练过程中加入双价值网络。实验结果表明,所提方法能够更好地实现调度目标,在原DDPG算法的基础上提高了模型稳定性和有效性。 展开更多
关键词 深度确定性策略梯度 规则引导函数 电网调度 多目标 价值网络 新能源消纳
在线阅读 下载PDF
基于改进TD3算法的无人机决策研究 被引量:1
13
作者 蒋方庆 陈自力 +2 位作者 高喜俊 王春峰 贺道坤 《信息化研究》 2023年第3期36-42,共7页
针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问... 针对无人机在执行打击任务时,对飞行区域的环境掌握甚少、飞行区域大、目标稀疏、火力威胁等相对不确定因素会导致任务的完成度低的问题。本文提出利用双策略网络对双延迟深度确定性策略梯度算法(TD3)进行改进,解决单策略动作波动大问题。针对优质训练样本利用率低导致的收敛速度慢问题,采用优先经验回放机制提高优质样本利用率。使用改进后的TD3算法训练无人机,通过改变偏航角、俯仰角以及速度控制无人机飞行,无人机在三维环境中完成抵近打击任务并规避威胁。实验结果表明,改进后的算法相比于传统TD3算法,算法收敛的速度更快,无人机的任务完成度可相对提高15%。 展开更多
关键词 无人机 延迟深度确定性策略梯度 策略网络 优先经验回放
在线阅读 下载PDF
面向工业物联网的短包安全通信资源智能分配算法 被引量:9
14
作者 李松 张继钰 陈瑞瑞 《南京邮电大学学报(自然科学版)》 北大核心 2023年第2期11-17,共7页
面向工业物联网业务的低时延与安全性需求,针对短包安全通信的设备高能耗问题,结合物理层安全技术的短包通信理论,提出了一种安全容量约束下带宽和功率的智能分配算法。考虑安全容量和总带宽约束,构建了工业物联网下短包安全通信的总功... 面向工业物联网业务的低时延与安全性需求,针对短包安全通信的设备高能耗问题,结合物理层安全技术的短包通信理论,提出了一种安全容量约束下带宽和功率的智能分配算法。考虑安全容量和总带宽约束,构建了工业物联网下短包安全通信的总功率最小化问题。根据优化目标和约束条件,设计了带宽资源决策的双深度Q网络和基于深度确定性策略梯度的功率资源分配网络。仿真结果表明,所提出的智能资源分配算法有效地降低了工业物联网下短包安全通信的总功率。 展开更多
关键词 短包安全通信 工业物联网 深度Q网络 深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习的轨迹跟踪横向控制研究 被引量:3
15
作者 张炳力 佘亚飞 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2023年第7期865-872,共8页
针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场... 针对自动驾驶的轨迹跟踪问题,为实现性能优异且具有实际应用价值的控制器,文章将双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的深度强化学习算法应用于轨迹跟踪的横向控制。对车道线保持的应用场景进行控制器设计,首先基于TD3算法对神经网络结构及其参数进行设计,并依据人类驾驶员的行为方式定义状态空间和动作输出,使其具有较快的训练速度以及较好的控制执行效果;然后设计一种奖励函数,将跟踪精度和舒适度同时作为控制器性能的优化方向;最后,根据ISO 11270:2014(E)标准在Prescan中搭建多种使用场景进行仿真实验,验证所设计的控制器性能。通过与当前主流轨迹跟踪解决方案实验结果的对比,分别从跟踪精度和舒适度两方面证明了该控制器可以满足使用要求并且控制性能更加优异,具有的较高应用价值。 展开更多
关键词 自动驾驶 轨迹跟踪 深度强化学习 延迟深度确定性策略梯度(TD3)算 奖励函数
在线阅读 下载PDF
基于改进TD3的欠驱动无人水面艇路径跟踪控制 被引量:1
16
作者 曲星儒 江雨泽 +2 位作者 李初 龙飞飞 张汝波 《上海海事大学学报》 北大核心 2024年第3期1-9,共9页
针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设... 针对模型参数未知和海洋环境干扰下的欠驱动无人水面艇(unmanned surface vehicles,USV)路径跟踪问题,提出一种基于改进双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)的控制方法。在运动学层次上,设计基于视线制导的航速航向联合制导律,引导USV准确跟踪期望路径。在动力学层次上,设计基于改进TD3的强化学习动力学控制器;采用基于时间差分误差的优先经验回放技术,建立包含路径跟踪成功和失败采样信息的双经验池,通过自适应比例系数调整每批次回放数据的组成结构;搭建包含长短期记忆网络的评价网络和策略网络,利用历史状态序列信息提高路径跟踪控制器的训练效率。仿真结果表明,基于改进TD3的控制方法可有效提高欠驱动USV的跟踪精度。该方法不依赖USV模型,可为USV路径跟踪控制提供参考。 展开更多
关键词 无人水面艇 路径跟踪控制 延迟深度确定性策略梯度 优先经验回放 长短期记忆网络
在线阅读 下载PDF
基于TD3-PER的混合动力履带车辆能量管理 被引量:2
17
作者 张彬 邹渊 +3 位作者 张旭东 杜国栋 孙文景 孙巍 《汽车工程》 EI CSCD 北大核心 2022年第9期1400-1409,共10页
为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速... 为优化串联式混合动力履带车辆(SHETV)的燃油经济性和动力电池性能,提出一种基于优先经验采样的双延迟深度确定性策略梯度(TD3-PER)能量管理策略。TD3算法能实现更精准的连续控制和防止训练陷入过优估计。优先经验采样(PER)算法可加速策略的训练和获得更高的优化性能。在建立包括纵横向动力学的车辆模型的基础上,完成基于TD3-PER的能量管理策略的框架构建和仿真验证。结果表明,与深度确定性策略梯度(DDPG)相比,所提出的策略使SHETV的燃油消耗降低了3.89%,燃油经济性达到了作为基准的动态规划算法的95.05%。同时该策略具有较好的电池SOC保持能力和工况适应性。 展开更多
关键词 串联式混合动力履带车辆 延迟深度确定性策略梯度 连续控制 优先经验采样
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部