期刊文献+
共找到141篇文章
< 1 2 8 >
每页显示 20 50 100
基于改进深度强化学习算法的行为决策方法
1
作者 贾瑞豪 《汽车实用技术》 2025年第1期25-30,共6页
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引... 针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 展开更多
关键词 自动驾驶 行为决策 深度强化学习 模仿学习 改进DQN算法
在线阅读 下载PDF
基于改进深度强化学习算法的电力调度策略分析
2
作者 贺明强 靳君 +1 位作者 关新宇 宋德琦 《集成电路应用》 2024年第10期404-405,共2页
阐述电力系统的运行状态,建立电力系统模型,设计基于改进深度强化学习算法的辅助决策方法,并针对电力系统中存在的随机扰动问题,采用深度强化学习算法的辅助决策策略。
关键词 深度强化学习算法 电力系统模型设计 辅助决策
在线阅读 下载PDF
用于巡航导弹突防航迹规划的改进深度强化学习算法 被引量:6
3
作者 马子杰 高杰 +1 位作者 武沛羽 谢拥军 《电子技术应用》 2021年第8期11-14,19,共5页
为了解决巡航导弹面临动态预警机雷达威胁下的突防航迹规划问题,提出一种改进深度强化学习智能航迹规划方法。针对巡航导弹面对预警威胁的突防任务,构建了典型的作战场景,给出了预警机雷达探测概率的预测公式,在此基础上设计了一种引入... 为了解决巡航导弹面临动态预警机雷达威胁下的突防航迹规划问题,提出一种改进深度强化学习智能航迹规划方法。针对巡航导弹面对预警威胁的突防任务,构建了典型的作战场景,给出了预警机雷达探测概率的预测公式,在此基础上设计了一种引入动态预警威胁的奖励函数,使用深度确定性策略梯度网络算法(Deep Deterministic Policy Gradient,DDPG)探究巡航导弹智能突防问题。针对传统DDPG算法中探索噪声时序不相关探索能力差的问题,引入了奥恩斯坦-乌伦贝克噪声,提高了算法的训练效率。计算结果表明,改进的DDPG算法训练收敛时间更短。 展开更多
关键词 巡航导弹 DDPG算法 突防策略 深度强化学习
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
4
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
5
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:2
6
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度Q网络
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
7
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
深度强化学习下的管道气动软体机器人控制
8
作者 江雨霏 朱其新 《西安工程大学学报》 2025年第2期65-74,共10页
在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深... 在复杂的管道环境中,与刚性机器人相比,软体机器人更适合执行操作任务。然而,由于具有无限自由度和非线性变形的特点,软体机器人的控制是一个较大的挑战。根据管道气动软体机器人变形方式进行动力学建模,提出一种结合预测奖励技术的深度确定性策略梯度(predictive reward-deep deterministic policy gradient,PR-DDPG)算法,将其应用于管道气动软体机器人的连续运动控制,为其动态的弯曲运动控制问题设计自主运动控制器。实验结果表明:PR-DDPG算法能够有效控制管道气动软体机器人在三维空间中进行自主连续运动,且可控制其前端到达目标点与目标方向。与深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法相比,PR-DDPG算法的收敛时间减少了约17%,奖励值提高了约20%,提高了管道气动软体机器人的连续运动控制性能。 展开更多
关键词 管道软体机器人 运动控制 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于深度强化学习算法的全视角人脸纹理图像生成方法 被引量:1
9
作者 吕周澍 《湖南邮电职业技术学院学报》 2024年第2期34-38,共5页
由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系... 由于人脸的面部特征复杂且纹理结构多样,传统方法往往受到完整性、纹理真实性、清晰度以及鲁棒性等方面的局限。因此,本研究提出基于深度强化学习算法的全视角人脸纹理图像生成方法。首先,对全视角人脸面部区域进行细致划分,建立坐标系以精确提取各区域的关键纹理结构特征点。随后,将这些特征点输入深度强化学习模型中,通过算法优化整合成一套全面的全视角特征点集合。利用马尔科夫权重场进一步处理特征点,通过计算联合概率,并结合重叠区域约束条件,生成了细节丰富、纹理清晰的全视角人脸纹理图像。实验结果表明,所提出方法生成的图像具有较高的峰值信噪比和较高的纹理清晰度,且鲁棒性较好,有效满足了高质量人脸纹理图像生成的需求。 展开更多
关键词 人脸图像生成 人脸纹理图像 深度强化学习算法 图像生成
在线阅读 下载PDF
基于深度强化学习算法的汽车发动机智能控制研究 被引量:1
10
作者 陈孝威 《汽车测试报告》 2024年第8期32-34,共3页
现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作... 现有的汽车发动机控制方法低压涡轮转速为3000 r/min,发动机压比值与期望值存在出入。该文设计汽车发动机智能控制器,通过校正的方式来降低动态不确定性对控制器的影响,更新发动机转速。定义奖励函数,针对使燃气轮机转速趋向稳定的动作添加大量奖励值,针对影响转速偏离目标值的动作添加少量奖励值,建立控制发动机的动作空间,并设计回报函数,调节网络参数,从而实现控制。试验结果表明,提出的控制方法低压涡轮转速为3400r/min,提高了发动机的性能,并且发动机压比值稳定在1.8,与预期结果一致,未出现明显的超调现象,显示出控制方法的稳定性。 展开更多
关键词 深度强化学习算法 汽车发动机 智能控制
在线阅读 下载PDF
基于深度强化学习算法的弹性供应链调度优化方法 被引量:1
11
作者 张进军 《信息技术与信息化》 2024年第4期89-92,共4页
由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研... 由于参与供应链的客户需求和供应者配置的多元性,导致供应链的配送成本难以得到有效控制,主要是因为在模型求解过程中,受困于参数本身的矛盾性,求解过程很容易陷入局部最优。为此,提出基于深度强化学习算法的弹性供应链调度优化方法研究。分别从供应者配置角度和客户需求角度构建了供应链模型,以供应链配送成本最小化为目标函数,应用深度强化学习算法中的深度Q网络(deepQ-network,DQN)算法进行训练,同步进行弹性供应链优化调度。DQN能够有效地处理这种高维状态空间,通过深度神经网络学习状态与动作之间的映射关系,自动提取关键特征,从而简化问题的复杂性。将收敛输出结果期望误差,输入供应链模型进行迭代计算,输出优化调度结果。测试结果表明,设计的方法可以实现对配送成本的有效控制。 展开更多
关键词 深度强化学习算法 弹性供应链调度 供应者配置 客户需求 供应链模型 配送成本最小化 DeepQ-Network 误差收敛
在线阅读 下载PDF
基于深度强化学习算法的火力-目标分配方法
12
作者 李伟光 陈栋 《指挥控制与仿真》 2024年第3期62-69,共8页
针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟... 针对火力-目标分配问题解空间较大、离散、非线性等特点,提出了一种基于DQN的深度强化学习算法,通过将6层全连接前馈神经网络与Q-learning算法相结合,充分发挥了深度学习的感知能力和强化学习的决策能力,通过模型性能测试对比,该方法拟合能力较强、收敛速度较快、方差抖动性较小,并通过实际作战场景对算法进行了验证,所得的分配结果符合作战期望,可为指挥员火力打击分配问题决策提供一定参考。 展开更多
关键词 火力-目标分配 深度强化学习 Q-learning算法 DQN算法
在线阅读 下载PDF
基于深度强化学习的交通标识检测算法优化与实践研究
13
作者 胡涛 申邵林 《佳木斯大学学报(自然科学版)》 CAS 2024年第3期141-144,180,共5页
交通标识是道路交通系统的重要组成部分,在实际应用中,交通标识主要存在于室外,极易受到光照、雨雾等因素的影响,导致图像采集质量参差不齐。同时,由于拍摄角度、距离、对焦等因素的影响,获取的图像不够高清,这对交通标识的检测带来巨... 交通标识是道路交通系统的重要组成部分,在实际应用中,交通标识主要存在于室外,极易受到光照、雨雾等因素的影响,导致图像采集质量参差不齐。同时,由于拍摄角度、距离、对焦等因素的影响,获取的图像不够高清,这对交通标识的检测带来巨大挑战。为了解决交通标识检测问题,在深度强化学习基础上,结合当下经典目标检测算法进行深入分析,以YOLOv5,YOLOv5-Tiny作为基础网络模型,经过算法改进与优化,结果表明交通标识检测精度得到较大的提升,可以在复杂的环境条件下精准地对交通标识进行检测,并且检测具有较强的实时性以及较高的实用价值,符合交通标识检测对算法精度的要求。 展开更多
关键词 深度强化学习 交通标识检测 算法
在线阅读 下载PDF
基于改进Mask R-CNN的低空遥感实例分割算法
14
作者 李冰锋 王光耀 崔立志 《兵器装备工程学报》 北大核心 2025年第2期168-176,共9页
针对遥感领域图像目标繁杂、检测和分割精度不高的问题,提出一种改进Mask R-CNN算法。设计PMResNet-50结构作为主干网络,其中金字塔挤压注意模块可以促进局部和全局通道注意之间的信息交互作用,多层次特征聚合模块可以提高PMResNet-50... 针对遥感领域图像目标繁杂、检测和分割精度不高的问题,提出一种改进Mask R-CNN算法。设计PMResNet-50结构作为主干网络,其中金字塔挤压注意模块可以促进局部和全局通道注意之间的信息交互作用,多层次特征聚合模块可以提高PMResNet-50对输入通道语义信息的高效聚合作用。在RoI Align前引入自校准卷积模块来扩大卷积层的感受野大小并对边界框和掩码框执行校准操作。在分割分支使用掩码预测平衡损失函数,对每个类别的正负样本梯度进行平衡,实现对损失梯度的平滑降低处理。在自建低空遥感数据集和iSAID-Reduce100数据集上进行测试,实验结果表明:改进后的算法在自建数据集上box AP和mask AP分别提升17.9%和15.0%,在iSAID-Reduce100数据集上box AP和mask AP达到49.62%和50.27%,该算法很好地完成了对遥感目标的检测和分割。 展开更多
关键词 深度学习 图像处理 遥感图像 实例分割 改进Mask R-CNN算法 ResNet-50
在线阅读 下载PDF
基于强化学习的人道主义应急物资分配优化研究
15
作者 张建军 杨云丹 周一卓 《上海管理科学》 2025年第2期109-117,共9页
当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策... 当重大突发事件发生后,救援组织如何高效地分配有限的人道主义援助物资,在满足受灾区域物资需求的同时又能降低灾民的痛苦,是一项重要的研究课题。针对这一问题,本文建模了适配的混合非整数线性规划问题MINLP,涉及多期动态最优化分配策略求解。作为当前策略探索问题的两种主流方法之一的强化学习算法,通过与环境的交互获取反馈信号以调整策略从而自适应外部动态变化,扩展性极强,比针对特定状态求解的启发式算法更适合动态物资分配场景,由此采取Dueling DQN算法求解最优策略,规避了以往强化学习用于人道主义物资分配领域中存在的Q值过高估计缺点,更精准地求出受灾区域的动作价值函数。与此同时,本文构建需求随机化假设,这一创新使得模型构造更符合受灾场景实际情况,模型的有效性、真实性得以提升。本文以雅安地震为背景,利用数值算例验证了算法的效能,是首篇代入真实数据源佐证强化学习优化应急物资分配方案的论文:相对于传统的DQN方法,Dueling DQN算法能够降低总成本约5%,这意味着在确保物资供给的同时更有效减少了受灾人群的痛苦,彰显了我国“以人为本”的救援原则,在基于人道主义的应急救援方面具备重要的理论和实践意义。 展开更多
关键词 深度强化学习 人道主义 应急物资分配 Dueling DQN算法
在线阅读 下载PDF
基于多智能体深度强化学习的无人艇集群博弈对抗研究 被引量:3
16
作者 于长东 刘新阳 +2 位作者 陈聪 刘殿勇 梁霄 《水下无人系统学报》 2024年第1期79-86,共8页
基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟... 基于未来现代化海上作战背景,提出了利用多智能体深度强化学习方案来完成无人艇群博弈对抗中的协同围捕任务。首先,根据不同的作战模式和应用场景,提出基于分布式执行的多智能体深度确定性策略梯度算法,并对其原理进行了介绍;其次,模拟具体作战场景平台,设计多智能体网络模型、奖励函数机制以及训练策略。实验结果表明,文中方法可以有效应对敌方无人艇的协同围捕决策问题,在不同作战场景下具有较高的效率,为未来复杂作战场景下无人艇智能决策研究提供理论参考价值。 展开更多
关键词 无人艇集群 多智能体深度确定性策略梯度算法 深度强化学习 智能决策 博弈对抗
在线阅读 下载PDF
基于多智能体深度强化学习的多星观测任务分配方法 被引量:1
17
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能体系统 深度强化学习 多星系统 多智能体深度确定性策略梯度算法 任务规划
在线阅读 下载PDF
一种基于深度强化学习的动态路由算法 被引量:9
18
作者 肖扬 吴家威 +1 位作者 李鉴学 刘军 《信息通信技术与政策》 2020年第9期48-54,共7页
路由是网络基础架构稳定运行的保障,是支撑下一代网络持续发展的关键功能。如今,网络流量的快速增长和服务需求的不断变化使传统路由算法面临严峻的挑战。近年来,深度强化学习在解决复杂连续控制问题上表现出良好的效果。为了解决传统... 路由是网络基础架构稳定运行的保障,是支撑下一代网络持续发展的关键功能。如今,网络流量的快速增长和服务需求的不断变化使传统路由算法面临严峻的挑战。近年来,深度强化学习在解决复杂连续控制问题上表现出良好的效果。为了解决传统路由算法的一系列弊端,将深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)与路由场景相结合,提出一种基于深度强化学习的新型动态路由算法(DDPG4Net);随后,在自行开发的网络模拟器RL4Net上对该算法的效果进行了验证。 展开更多
关键词 深度强化学习 路由算法 网络流量工程
在线阅读 下载PDF
利用深度强化学习的多阶段博弈网络拓扑欺骗防御方法
19
作者 何威振 谭晶磊 +3 位作者 张帅 程国振 张帆 郭云飞 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第12期4422-4431,共10页
针对当前网络拓扑欺骗防御方法仅从空间维度进行决策,没有考虑云原生网络环境下如何进行时空多维度拓扑欺骗防御的问题,该文提出基于深度强化学习的多阶段Flipit博弈网络拓扑欺骗防御方法来混淆云原生网络中的侦察攻击。首先分析了云原... 针对当前网络拓扑欺骗防御方法仅从空间维度进行决策,没有考虑云原生网络环境下如何进行时空多维度拓扑欺骗防御的问题,该文提出基于深度强化学习的多阶段Flipit博弈网络拓扑欺骗防御方法来混淆云原生网络中的侦察攻击。首先分析了云原生网络环境下的拓扑欺骗攻防模型,接着在引入折扣因子和转移概率的基础上,构建了基于Flipit的多阶段博弈网络拓扑欺骗防御模型。在分析博弈攻防策略的前提下,构建了基于深度强化学习的拓扑欺骗生成方法求解多阶段博弈模型的拓扑欺骗防御策略。最后,通过搭建实验环境,验证了所提方法能够有效建模分析云原生网络的拓扑欺骗攻防场景,且所提算法相比于其他算法具有明显的优势。 展开更多
关键词 云原生网络 拓扑欺骗 多阶段Flipit博弈 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于改进深度强化学习的HEV能量分配策略研究 被引量:1
20
作者 吴忠强 马博岩 《计量学报》 CSCD 北大核心 2023年第12期1863-1871,共9页
以并联式混合动力汽车(HEV)为研究对象,建立整车需求功率及动力系统模型,提出一种基于改进深度强化学习(DRL)的能量分配策略。通过改进DRL中的双延迟深度确定性策略梯度(TD3)算法,引入双重回放缓冲区,提出DRB-TD3算法以提升原算法的采... 以并联式混合动力汽车(HEV)为研究对象,建立整车需求功率及动力系统模型,提出一种基于改进深度强化学习(DRL)的能量分配策略。通过改进DRL中的双延迟深度确定性策略梯度(TD3)算法,引入双重回放缓冲区,提出DRB-TD3算法以提升原算法的采样效率。设计了基于规则的约束控制器并嵌入到DRL结构中,以消除不合理的转矩分配。在UDDS行驶工况下,以基于动态规划(DP)的能量分配策略性能作为基准进行仿真实验。实验结果表明,与深度确定性策略梯度(DDPG)算法以及传统TD3算法相比,DRB-TD3算法收敛性能最佳,收敛效率分别提高了61.2%和31.6%;所提出的能量分配策略相比于基于DDPG和基于TD3的能量分配策略,平均燃油消耗分别降低了3.3%和2.3%,燃油经济性达到基于DP的95.2%,效果最佳,且电池荷电状态(SOC)能够保持在一个较好的水平,有助于延长电池的使用寿命。 展开更多
关键词 并联式混合动力汽车 能量分配策略 深度强化学习 TD3算法 荷电状态
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部