期刊文献+
共找到238篇文章
< 1 2 12 >
每页显示 20 50 100
基于深度强化学习的车联网动态卸载成本优化
1
作者 赵珊 贾宗璞 +2 位作者 朱小丽 庞晓艳 谷坤源 《河南理工大学学报(自然科学版)》 北大核心 2025年第6期191-200,共10页
目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用... 目的为解决不完美信道车联网中任务卸载与资源分配的关键问题,降低计算成本,方法结合不完美信道特征对基础的车联网任务卸载环境抽象化,联合优化任务卸载比、功率选择和服务器资源分配,建立所有用户的长期平均成本最小化问题模型。采用基于深度强化学习的动态卸载优化方案,同时考虑求解变量的连续性,提出优化的深度确定性策略梯度算法SP-DDPG(deep deterministic policy gradient with importance sampling and prioritized experience replay)求解问题模型。对比现有的一些深度强化学习方法,研究单一变量影响下SP-DDPG算法的运行表现,分别计算平均卸载成本和任务丢弃数2个重要指标。结果所提算法与所设置的完全任务卸载算法F-DDPG与DDQN算法相比,任务平均卸载成本分别降低了约36.13%和44.02%,任务丢弃数至少下降了4.38%和9.76%;与部分卸载算法DDPG相比,任务平均卸载成本和任务丢弃数分别下降13.34%和3.17%。实验结果取多次运行后的平均值(时延及能耗权衡因子ω=0.5,信道估计精度值ρ=0.95),具有较好可靠性。结论在复杂变化的不稳定车联网环境中,所提优化深度确定性策略梯度算法SP-DDPG,相较几种常规的深度强化学习算法任务计算成本更低,任务处理效果更好。 展开更多
关键词 车联网 部分卸载 资源分配 深度确定性策略梯度 不完美信道
在线阅读 下载PDF
基于改进TD3的RIS-无人机通信系统能效优化
2
作者 王翊 邓毓 +3 位作者 许耀华 蒋芳 江福林 胡艳军 《西安电子科技大学学报》 北大核心 2025年第4期226-234,共9页
考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算... 考虑到可重构智能表面(RIS)辅助的无人机(UAV)通信系统中存在多个移动用户的情况,研究了UAV的飞行能耗对系统能效的影响,通过联合优化UAV轨迹与主动波束赋形以及RIS相移设计以提升系统能效。由于目标函数是非凸的且优化变量耦合,传统算法难以直接求解,提出一种基于双延迟深度确定性策略梯度(TTD3)的高斯分布双延迟深度确定性策略梯度算法(GD-TD3),通过联合优化UAV轨迹与主动波束赋形以及RIS被动波束赋形以提升系统总数据速率和系统长期能效。所提算法通过改进双智能体框架中的原始网络结构,同时对多个用户移动性建模,分别优化了系统中的UAV轨迹以及UAV与RIS的主/被动波束赋形。仿真结果表明,相较于其他算法,GD-TD3算法在系统能效提升方面表现更好,在收敛速度和收敛稳定性方面都有一定提升。 展开更多
关键词 可重构智能表面 无人机通信 轨迹优化 双延迟深度确定性策略梯度算法
在线阅读 下载PDF
基于无人机辅助联邦边缘学习通信系统的安全隐私能效研究
3
作者 卢为党 冯凯 +2 位作者 丁雨 李博 赵楠 《电子与信息学报》 北大核心 2025年第5期1322-1331,共10页
无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机... 无人机(UAV)辅助联邦边缘学习的通信能够有效解决终端设备数据孤岛问题和数据泄露风险。然而,窃听者可能利用联邦边缘学习中的模型更新来恢复终端设备的原始隐私数据,从而对系统的隐私安全构成极大威胁。为了克服这一挑战,该文在无人机辅助联邦边缘学习通信系统提出一种有效的安全聚合和资源优化方案。具体来说,终端设备利用其本地数据进行局部模型训练来更新参数,并将其发送给全局无人机,无人机据此聚合出新的全局模型参数。窃听者试图通过窃听终端设备发送的模型参数信号来恢复终端设备的原始数据。该文通过联合优化终端设备的传输带宽、CPU频率、发送功率以及无人机的CPU频率,最大化安全隐私能效。为了解决该优化问题,该文提出一种演进深度确定性策略梯度(DDPG)算法,通过和系统智能交互,在保证基本时延和能耗需求的情况下获得安全聚合和资源优化方案。最后,通过和基准方案对比,验证了所提方案的有效性。 展开更多
关键词 无人机 联邦边缘学习 能效 资源优化 深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习的停机位分配
4
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
基于深度强化学习的机械臂视觉伺服智能控制
5
作者 袁庆霓 齐建友 虞宏建 《计算机集成制造系统》 北大核心 2025年第3期998-1013,共16页
针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑... 针对视觉伺服控制系统存在伺服精度低、收敛速度慢和缺乏可见性约束等问题,提出一种基于深度强化学习的自适应调整多策略控制器伺服增益方法,用于机械臂智能控制。首先搭建眼在手配置(EIH)的机械臂视觉伺服系统。然后,融合比例控制与滑模控制(SMC)设计基于图像的视觉伺服控制器(SMCC-IBVS);针对控制系统特征丢失的问题,将伺服选择增益的过程构建为马尔可夫决策过程(MDP)模型,在此基础上,设计基于深度确定性策略梯度(DDPG)的自适应伺服增益算法,通过深度强化学习来自适应调整控制器(SMCC-IBVS)伺服增益,减少伺服误差,提高效率和稳定性。最后,仿真和物理实验结果表明,使用DDPG学习调控增益的SMCC-IBVS控制器具有强鲁棒性和快速收敛性,且在很大程度上避免了特征丢失;机械臂轴孔装配实验结果也表明,所提出的视觉伺服系统实用性能较强,针对轴孔最小间隙为0.2mm间隙配合的装配实验成功率可达99%。 展开更多
关键词 视觉伺服 DDPG学习策略 自适应增益 机械臂 混合滑模控制 可见性约束
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
6
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
基于MLP与改进GCN-TD3的交通信号控制建模与仿真
7
作者 黄德启 涂亚婷 +1 位作者 张振华 郭鑫 《系统仿真学报》 北大核心 2025年第10期2568-2577,共10页
针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特... 针对城市交叉口车流量不均、道路容量有限以及现有交通信号控制算法协同性较差问题,提出一种基于图卷积强化学习的交通信号控制算法。利用多层感知器提取被控路口与邻近路口的车辆及相位信息的动态特征,采用图卷积神经网络将车辆动态特征聚合为区域交通的潜在特征,由改进的双延迟深度确定性策略梯度算法进行多次迭代得到控制策略,将控制策略应用于城市路网的交通相位配时中,最大化的提升路网车辆的通行效率。仿真实验表明:该算法能够适应动态变化的复杂路网环境,且在高饱和流量下控制效果明显,能有效提高路网的通行效率,缓解交叉口高峰期拥堵问题。 展开更多
关键词 交通信号控制 图卷积神经网络 强化学习 双延迟深度确定性策略梯度 协同控制
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
8
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于改进DDPG算法的无人船自主避碰决策方法
9
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于深度强化学习的电力系统紧急切机稳控策略生成方法 被引量:3
10
作者 高琴 徐光虎 +3 位作者 夏尚学 杨欢欢 赵青春 黄河 《电力科学与技术学报》 北大核心 2025年第1期39-46,共8页
电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以... 电力系统快速发展的同时也改变着电力系统的结构,使得系统稳定机理变得更加复杂。为解决新能源电力系统存在的功角稳定问题,提出基于深度强化学习的电力系统紧急切机稳控策略生成方法。首先,归纳并提出电力系统紧急控制切机动作策略以及涉及的安全约束,并将电力系统稳控模型转换为马尔科夫决策过程,再采用特征评估与斯皮尔曼(Spearman)等级相关系数方法筛选出最典型的特征数据;随后,为提高稳控策略智能体的训练效率,提出基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的稳控策略训练框架;最后,在IEEE 39节点系统和某实际电网中进行测试验证。研究结果显示,所提方法能够根据系统的运行状态和对故障的响应,自动调整生成切机稳控策略,在决策效果和效率方面都表现出更好的性能。 展开更多
关键词 新能源电力系统 稳控策略 强化学习 深度确定性策略梯度算法 马尔科夫模型
在线阅读 下载PDF
计及氢能多元需求的工业园区综合能源系统经济低碳运行 被引量:2
11
作者 杨家辉 闫庆友 郭红珍 《广东电力》 北大核心 2025年第1期51-62,共12页
针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能... 针对日益增长且多元的氢能需求,提出一种计及氢能多元需求的工业园区综合能源系统经济低碳运行策略。首先探究工业园区中氢能需求的不同来源以及各类氢能需求用量与时间特性的差异,并建立工业园区储能系统模型;其次,构建工业园区综合能源系统双层优化模型,并利用深度确定性策略梯度算法(deep deterministic policy gradient,DDPG)进行求解;最后,选取某地工业园区进行算例分析,比较3种场景下的运行结果。结果表明,在引入代理商调整新能源汽车充能负荷并配置储能系统后,工业园区的购电成本降低了15.8%,综合能源系统运营商的收益提高了6.85%,同时工业园区的碳排放量降低了3.99%。 展开更多
关键词 氢能多元需求 园区综合能源系统 双层优化模型 深度确定性策略梯度算法 新能源汽车
在线阅读 下载PDF
基于深度强化学习算法的氢耦合电-热综合能源系统优化调度 被引量:3
12
作者 梁涛 柴露露 +2 位作者 谭建鑫 井延伟 吕梁年 《电力自动化设备》 北大核心 2025年第1期59-66,共8页
为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度... 为了促进氢能与综合能源系统中其他能源的耦合,提高能源利用灵活性,减少系统碳排放,提出了一种氢耦合电-热综合能源系统(HCEH-IES)的运行优化方法。对HCEH-IES的各设备进行数学建模,并深入阐述深度强化学习算法的基本原理及双延迟深度确定性策略梯度(TD3)算法的流程;将HCEH-IES的不确定性优化调度问题转化为马尔可夫决策过程,并采用TD3算法将优化目标以及约束条件转换为奖励函数进行连续状态空间和动作空间下的动态调度决策,形成合理的能源分配管理方案;采用历史数据对智能体进行训练,并对比深度Q学习网络和深度确定性策略梯度算法获得的调度策略。结果表明,相较于深度Q学习网络和深度确定性策略梯度算法,基于TD3算法的调度策略具有更好的经济性,其结果更接近于CPLEX日前优化调度方法的经济成本且更适用于解决综合能源系统动态优化调度问题,有效地实现了能源灵活利用,提高了综合能源系统的经济性和低碳性。 展开更多
关键词 氢耦合电-热综合能源系统 可再生能源 深度强化学习 双延迟深度确定性策略梯度 能量优化管理 马尔可夫决策过程
在线阅读 下载PDF
考虑可变旋转参数的机器人多轴孔装配强化学习策略 被引量:2
13
作者 鄢智超 周勇 +1 位作者 胡楷雄 李卫东 《计算机集成制造系统》 北大核心 2025年第3期815-827,共13页
针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态... 针对目前机器人多轴孔装配学习策略严重依赖人工示教数据,导致训练效率低和场景适应性差等问题,提出一种考虑可变旋转参数的机器人多轴孔装配强化学习策略。首先,提出一种可变旋转参数的姿态调整模型,据此采集多轴孔接触力学信息与姿态调整动作的对应关系数据,以此作为装配技能的预训练学习数据。进而,提出一种改进深度确定性策略梯度(DDPG)强化学习算法,通过多因素稀疏奖励函数对装配动作进行合适的奖励评价以提高学习效率和成功率。最后,在仿真和实验平台上进行了多轴孔电子元器件装配的案例研究,结果表明,所提方法具有良好的场景适应性,相对经典强化学习方法能有效提高装配的学习效率和成功率,同时明显减小了装配接触力/力矩。 展开更多
关键词 协作机器人 多轴孔装配 姿态调整模型 改进深度确定性策略梯度算法
在线阅读 下载PDF
基于改进DDPG的机械臂6D抓取方法研究 被引量:1
14
作者 张盛 沈捷 +2 位作者 曹恺 戴辉帅 李涛 《计算机工程与应用》 北大核心 2025年第18期317-325,共9页
在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化... 在当前基于深度强化学习的机械臂6D抓取任务中,存在抓取位姿欠佳导致抓取成功率和鲁棒性不足的问题。为了解决此问题,提出一种融合位姿评价机制的改进DDPG算法。该算法在DDPG框架的基础上,引入抓取评估网络对机械臂的抓取位姿进行量化评估。依据评估分数为机械臂抓取的动作分配多级奖励值,以此判断抓取位姿的质量,引导DDPG朝着优化抓取位姿的方向进行学习。通过在仿真和实物环境下进行实验,结果表明该方法可以有效改进机械臂的抓取位姿,提升机械臂的抓取成功率。此外,该方法可以较好地迁移到现实场景中,增强机械臂的泛化性和鲁棒性。 展开更多
关键词 深度确定性策略梯度算法 机械臂 6D抓取 深度强化学习 抓取评估
在线阅读 下载PDF
氢能综合能源系统的自适应最优能量调度研究 被引量:1
15
作者 吴东阳 崔佳 +3 位作者 赵宇航 王仕瀚 吴筱熳 秦博宇 《电工电能新技术》 北大核心 2025年第3期9-16,共8页
氢能综合能源系统已成为一种应对化石燃料枯竭和日益严峻的气候变化问题的有效方案。为增强系统稳定性,提高运行效率,本文提出一种使用深度确定性策略梯度(DDPG)算法的最优能量调度方法。最优调度问题被建模为一个具有动作空间、环境状... 氢能综合能源系统已成为一种应对化石燃料枯竭和日益严峻的气候变化问题的有效方案。为增强系统稳定性,提高运行效率,本文提出一种使用深度确定性策略梯度(DDPG)算法的最优能量调度方法。最优调度问题被建模为一个具有动作空间、环境状态和动作值函数的马尔科夫决策过程(MDP)问题。基于策略梯度和神经网络,通过对动作-评价网络的训练和策略迭代,提出了基于深度确定性策略梯度的最优能源调度方法,可根据氢能综合能源系统的动态响应进行自适应优化。最后结合算例验证了所提方法的有效性。 展开更多
关键词 氢能综合能源系统 深度确定性策略梯度 马尔科夫决策过程 自适应最优能量调度
在线阅读 下载PDF
基于改进深度强化学习算法的自动电压调节器控制 被引量:1
16
作者 阮柏松 刘利 +3 位作者 顾阳 刘琦 王涵 赵晶晶 《电力系统及其自动化学报》 北大核心 2025年第6期150-158,共9页
为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient wi... 为适应大容量同步发电机组并网点母线电压波动增加对自动电压调节器(automatic voltage regulator,AVR)系统响应能力的更高要求,提出一种基于含探索网络的双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient with Explorer network,TD3EN)算法的同步发电机励磁电压控制方法。首先,通过传递函数对同步发电机励磁调压子系统进行建模;然后建立TD3EN算法探索网络、动作网络和评价网络,并设置相应参数;接着利用TD3EN算法训练智能体,通过探索网络探索动作空间,并根据评价网络更新动作网络参数,使其为AVR提供控制信号;将训练完成的智能体接入AVR系统,实现对发电机机端电压的控制。仿真结果表明,所提方法提高了AVR系统响应调节指令和应对电压暂降的能力。 展开更多
关键词 双延迟深度确定性策略梯度算法 探索网络 深度强化学习 同步发电机 自动电压调节器
在线阅读 下载PDF
面向无人机协同定位的机载深度计算编译优化
17
作者 熊康 刘思聪 +3 位作者 王宏涛 高元 郭斌 於志文 《计算机科学与探索》 北大核心 2025年第1期141-157,共17页
随着无人机技术快速发展,在定位信号缺失的情况下进行无人机定位成为一个研究难题。而近几年图神经网络的出现与发展,为解决这一难题提供了一种新的解决思路。然而在资源受限的无人机端侧部署图神经网络面临着无人机算储资源受限及实时... 随着无人机技术快速发展,在定位信号缺失的情况下进行无人机定位成为一个研究难题。而近几年图神经网络的出现与发展,为解决这一难题提供了一种新的解决思路。然而在资源受限的无人机端侧部署图神经网络面临着无人机算储资源受限及实时性难以满足等挑战。提出面向无人机协同定位的机载深度计算编译优化方法。采用了一种轻量化的时间图卷积神经网络模型,该时间图卷积网络由图卷积网络和门控递归单元组成,将无人机群的空间依赖性和无人机位置变化的时间依赖性同时加以考虑,对无人机群位置进行精确的预测;针对该模型在时间图卷积网络上的冗余特性,提出了基于逆向Cuthill-McKee图重排和基于双深度确定性策略梯度的全局自适应剪枝算法。在保证无人机群坐标精确预测的同时,不仅能提高数据在主存的空间局部性,加速模型的运算速度,而且能够对模型进行自适应的非结构化剪枝,降低模型的存储复杂度。实验结果表明,相对于已有的时间图卷积神经网络模型,编译优化后的轻量化时间图卷积神经网络模型在保留78.8%准确率的同时,模型计算时间降低37.9%,模型的平均剪枝率达到90.3%。 展开更多
关键词 时间图卷积网络 协同定位 通道剪枝 图重排算法 深度确定性策略梯度
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法 被引量:1
18
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
基于DDPG-LQR的高超声速飞行器时间协同再入制导
19
作者 宋志飞 吉月辉 +2 位作者 宋雨 刘俊杰 高强 《导弹与航天运载技术(中英文)》 北大核心 2025年第1期57-64,共8页
针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的... 针对多高超声速飞行器协同作战的特点,提出一种基于深度策略性梯度和线性二次型调节器(Deep Deterministic Policy Gradient-Linear Quadratic Regulator,DDPG-LQR)的时间协同再入制导方案。首先,采用序列凸优化方法生成满足多个约束的时间协同再入轨迹及其相应的稳态控制量,并且采用Radau伪谱法离散运动学方程,以提高轨迹优化离散精度。其次,采用线性二次型调节器(Linear Quadratic Regulator,LQR)跟踪时间协同再入轨迹。为了提高协同制导精度和制导效果,采用深度策略性梯度(Deep Deterministic Policy Gradient,DDPG)在线优化LQR的权重矩阵系数。在DDPG算法中,通过引入合适的奖励函数来提高算法的优化性能。仿真结果表明,在初始状态误差和不确定性的情况下,通过与传统的LQR控制器相比,本文所提出的协同制导方案具有更好的协同制导精度和制导效果。 展开更多
关键词 多高超声速飞行器 协同制导 序列凸优化 深度策略性梯度 线性二次型调节器
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
20
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部