期刊文献+
共找到183篇文章
< 1 2 10 >
每页显示 20 50 100
基于DRL的大规模定制装配车间调度研究
1
作者 屈新怀 张慧慧 +1 位作者 丁必荣 孟冠军 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期878-883,共6页
针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模... 针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模定制装配车间作业调度优化模型,基于调度模型建立马尔科夫决策过程,合理定义状态、动作和奖励函数;将调度模型优化问题与DRL方法相结合,并采用改进的D3QN算法进行模型求解;最后进行仿真实验验证。结果表明,文章所提方法能有效减少产品组件更换次数和降低订单提前/拖期惩罚。 展开更多
关键词 大规模定制 装配车间 深度强化学习(drl) 车间作业调度 调度优化模型
在线阅读 下载PDF
一种基于DRL的分布式装备体系优选方法
2
作者 王子怡 张凯 +1 位作者 钱殿伟 刘玉贞 《系统仿真学报》 北大核心 2025年第6期1565-1573,共9页
针对传统算法在大规模场景中求解速度不足且适应性较差的问题,基于DRL对大规模分布式装备体系优选问题进行智能化求解。根据分布式装备体系作战的特点,利用复杂网络对其进行图形式建模,并基于注意力机制对装备间的连边关系进行表征,构... 针对传统算法在大规模场景中求解速度不足且适应性较差的问题,基于DRL对大规模分布式装备体系优选问题进行智能化求解。根据分布式装备体系作战的特点,利用复杂网络对其进行图形式建模,并基于注意力机制对装备间的连边关系进行表征,构建分布式装备体系数字仿真环境。仿真结果表明:与遗传进化算法相比,该模型在求解时间、适应性等方面优势明显,有效提高了大规模分布式装备体系优选决策模型的性能。 展开更多
关键词 drl 图神经网络 注意力机制 复杂网络 分布式装备体系
在线阅读 下载PDF
基于DRL和自由步态的六足机器人运动规划研究 被引量:1
3
作者 王鑫鹏 傅汇乔 +3 位作者 邓归洲 唐开强 陈春林 留沧海 《系统仿真学报》 CAS CSCD 北大核心 2024年第2期373-384,共12页
为提高六足机器人在非结构环境下的通过率和运动性能,提出一种基于DRL和自由步态规划器的多接触运动规划算法。自由步态规划器获取目标状态下可达落足点从而输出最优步态序列;利用DRL训练得到六足机器人在随机生成的梅花桩环境中的质心... 为提高六足机器人在非结构环境下的通过率和运动性能,提出一种基于DRL和自由步态规划器的多接触运动规划算法。自由步态规划器获取目标状态下可达落足点从而输出最优步态序列;利用DRL训练得到六足机器人在随机生成的梅花桩环境中的质心运动策略。为了保证机器人在运动过程中相邻状态之间的可达性,利用状态转移可行性模型对状态转移可行性进行判定,实现六足机器人在不同宽度沟壑梅花桩环境下的落脚点规划。仿真与样机实验表明:多接触运动规划算法能够让机器人快速平稳地从起点到达目标区域,并自动调整步态模式以应对不同环境下随机分布的梅花桩。 展开更多
关键词 六足机器人 自由步态 深度强化学习 多接触运动规划 非结构环境
在线阅读 下载PDF
基于DRL的边缘监控任务卸载与资源分配算法
4
作者 李超 李贾宝 +2 位作者 丁才昌 叶志伟 左方威 《系统仿真学报》 CAS CSCD 北大核心 2024年第9期2113-2126,共14页
为解决边缘计算环境下密集型监控任务资源受限的问题,提出一种基于DRL的监控任务卸载与资源分配算法。以监控任务时延和识别精度为优化目标,将监控系统中的任务卸载、无线信道分配和图像压缩率的联合决策目标优化求解建模为马尔可夫决... 为解决边缘计算环境下密集型监控任务资源受限的问题,提出一种基于DRL的监控任务卸载与资源分配算法。以监控任务时延和识别精度为优化目标,将监控系统中的任务卸载、无线信道分配和图像压缩率的联合决策目标优化求解建模为马尔可夫决策过程;针对无线信道动态性和监控任务随机性引起的训练样本波动性较大,导致算法收敛速度慢和不稳定,采用Transformer注意力机制对多时隙序列的信道状态和监控任务信息进行联合编码。编码后的状态信息能够捕捉多时隙状态序列之间的依赖关系,提升网络状态的表征能力,并以此提高算法鲁棒性。实验结果表明:与传统强化学习算法和启发式算法相比,该算法在降低任务计算时延的同时能够有效提高识别精度。 展开更多
关键词 监控任务 移动边缘计算 深度强化学习 任务卸载 资源分配 注意力机制
在线阅读 下载PDF
基于深度强化学习的IRS辅助认知无线电系统波束成形算法 被引量:1
5
作者 李国权 程涛 +2 位作者 郭永存 庞宇 林金朝 《电子与信息学报》 北大核心 2025年第3期657-665,共9页
为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模... 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。 展开更多
关键词 智能反射面 认知无线电 深度强化学习 波束成形
在线阅读 下载PDF
基于深度强化学习的四足机器人单腿越障轨迹规划
6
作者 李敏 张森 +5 位作者 曾祥光 王刚 张童伟 谢地杰 任文哲 张滔 《系统仿真学报》 北大核心 2025年第4期895-909,共15页
针对四足机器人在越障行走过程中存在关节振动、能耗高等问题,提出了一种基于深度强化学习SAC算法的四足机器人越障轨迹规划方法。基于机器人运动学和蒙特卡罗法分析了四足机器人单腿足端的运动空间;规划了一种复合七次多项式四足机器... 针对四足机器人在越障行走过程中存在关节振动、能耗高等问题,提出了一种基于深度强化学习SAC算法的四足机器人越障轨迹规划方法。基于机器人运动学和蒙特卡罗法分析了四足机器人单腿足端的运动空间;规划了一种复合七次多项式四足机器人越障运动轨迹;利用SAC算法训练并得到了四足机器人单腿在不同障碍物环境下的低能耗越障策略。仿真结果表明:复合七次多项式轨迹规划能有效减少四足机器人腿部在越障时产生的关节振动及足端接触力,在经过SAC算法训练后,机器人能够得到理想的轨迹规划参数,实现低能耗越障稳定行走。 展开更多
关键词 四足机器人 轨迹规划 深度强化学习 越障行走 关节能耗
在线阅读 下载PDF
联合局部线性嵌入与深度强化学习的RIS-MISO下行和速率优化
7
作者 孙俊 杨俊龙 +2 位作者 杨青青 胡明志 吴紫仪 《电子与信息学报》 北大核心 2025年第7期2117-2126,共10页
智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临... 智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临训练开销大的挑战。针对此问题,该文提出一种基于局部线性嵌入(LLE)和软动作评论(SAC)的联合优化算法,通过随机搜索算法和LLE对信道状态进行降维,并将低维状态作为SAC算法的输入,联合优化基站波束成形与RIS相位偏移,最大化MISO系统的下行和速率。仿真结果表明,在用户数为40的场景下,所提算法在维持与SAC相当的和速率性能的同时,训练时间减少了18.3%,计算资源消耗降低了64.8%。且随着用户规模的扩大,算法的训练开销进一步下降,充分验证了其有效性。 展开更多
关键词 智能反射面 局部线性嵌入 深度强化学习 和速率 训练开销
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
8
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
堆叠覆盖环境下的深度强化学习机械臂避障抓取方法
9
作者 禹鑫燚 周晨 +2 位作者 俞俊鑫 曹铭洲 欧林林 《高技术通讯》 北大核心 2025年第3期284-296,共13页
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo... 堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。 展开更多
关键词 堆叠覆盖环境 避障抓取 图像编码器 深度强化学习 二次行为克隆
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
10
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
基于深度强化学习的低轨卫星多波束子载波动态分配算法
11
作者 王华华 黄梁 +1 位作者 陈甲杰 方杰宁 《计算机应用》 北大核心 2025年第2期571-577,共7页
针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最... 针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最小化用户丢包率为目标,动态调整用户调度情况并动态分配整个卫星通信系统的资源以适应环境的变化。通过时隙划分离散化LEO卫星的动态特性模型,并根据LEO卫星资源分配场景的建模提出一种基于深度强化学习(DRL)的资源分配策略。通过调整卫星调度的排队情况,增加大时延用户的调度机会,即调节单颗LEO卫星各个波束中的资源块以对应用户的资格性,从而在保证一定公平性的同时,降低用户丢包率。仿真实验结果表明,在满足总功率约束的条件下,所提出的基于深度强化学习的资源分配算法(DRL-RA)中的用户传输公平性和系统吞吐量比较稳定,且DRL-RA中时延较大的用户因优先级提升而获得了更多的调度机会,而DRL-RA的数据丢包率相较于比例公平算法和最大负载/干扰(Max C/I)算法分别降低了13.9%和15.6%。可见,所提算法有效解决了数据传输过程中丢包的问题。 展开更多
关键词 低轨卫星 时隙划分 资源分配 深度强化学习 优先级调整
在线阅读 下载PDF
深度强化学习求解多目标旅行商问题的研究综述 被引量:1
12
作者 李成健 宋姝谊 +1 位作者 粟宇 陈智斌 《计算机工程与应用》 北大核心 2025年第12期28-44,共17页
多目标旅行商问题(MOTSP)是一个具有显著应用价值的组合优化问题(COP),在物流配送、生产调度和网络通信等领域广泛存在。MOTSP不仅需要在多个目标之间寻求平衡,还要求找到不同的帕累托解集,这些解集代表了MOTSP在不同目标之间的全局或... 多目标旅行商问题(MOTSP)是一个具有显著应用价值的组合优化问题(COP),在物流配送、生产调度和网络通信等领域广泛存在。MOTSP不仅需要在多个目标之间寻求平衡,还要求找到不同的帕累托解集,这些解集代表了MOTSP在不同目标之间的全局或局部最优解。传统的多目标优化算法在解决MOTSP时,通常面临计算复杂度高和求解效率低的挑战,尤其是在均衡决策空间和目标空间多样性时,难以有效找到多样化的帕累托最优解。近年来,深度强化学习(DRL)在处理复杂优化问题上展现了巨大的潜力,为解决MOTSP及其帕累托解集的多样化问题提供了一种新的方法。介绍了MOTSP的基本概念和求解方法;讨论了强化学习(RL)中的优化策略和深度学习(DL)的神经网络模型;总结了利用DRL求解MOTSP的理论方法,分析了各代表性模型的优化效果与时效性,突出不同DRL模型在大规模MOTSP问题中的性能表现,并探讨了其局限性、改进方向和适用场景,同时提出了应对局部最优问题的策略。最后,归纳了MOTSP的四大应用研究领域,并指出了MOTSP的未来研究方向。 展开更多
关键词 深度强化学习(drl) 多目标旅行商问题(MOTSP) 帕累托最优解 优化策略 神经网络模型
在线阅读 下载PDF
基于Transformer的状态−动作−奖赏预测表征学习 被引量:1
13
作者 刘民颂 朱圆恒 赵冬斌 《自动化学报》 北大核心 2025年第1期117-132,共16页
为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSA... 为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSAR提出一种基于Transformer的融合状态−动作−奖赏信息的序列预测任务.该预测任务采用随机掩码技术对序列数据进行预处理,通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息,同时学习状态与动作表征.为进一步强化状态和动作表征与强化学习(Reinforcement learning,RL)策略的相关性,TSAR引入动作预测学习和奖赏预测学习作为附加的学习约束以指导状态和动作表征学习.TSAR同时将状态表征和动作表征显式地纳入到强化学习策略的优化中,显著提高了表征对策略学习的促进作用.实验结果表明,在DMControl的9个具有挑战性的困难环境中,TSAR的性能和样本效率超越了现有最先进的方法. 展开更多
关键词 深度强化学习 表征学习 自监督对比学习 TRANSFORMER
在线阅读 下载PDF
基于深度强化学习的压制火炮精度控制技术
14
作者 高松山 孙河洋 +3 位作者 张柱军 杨恒 董望 徐翔 《火力与指挥控制》 北大核心 2025年第7期141-147,共7页
针对传统压制火炮射击精度不高带来的毁伤效能低、试射时间长、战场生存能力差等问题,采用确定性深度策略梯度学习方法,建立压制火炮射击精度智能控制模型,实现对射击幅员内不同数量、任意位置分布的目标进行瞄准点及用弹量的高效预测;... 针对传统压制火炮射击精度不高带来的毁伤效能低、试射时间长、战场生存能力差等问题,采用确定性深度策略梯度学习方法,建立压制火炮射击精度智能控制模型,实现对射击幅员内不同数量、任意位置分布的目标进行瞄准点及用弹量的高效预测;并通过引入射弹散布的随机误差,提升智能预测策略的鲁棒性。通过对预测点进行仿真试验,验证了压制火炮射击精度智能控制方法的有效性。 展开更多
关键词 射击精度 瞄准点 压制火炮 确定性深度策略梯度学习 深度强化学习
在线阅读 下载PDF
基于深度强化学习的AGV行人避让策略研究
15
作者 王贺 许佳宁 闫广宇 《系统仿真学报》 北大核心 2025年第3期595-606,共12页
为控制自动导引车(AGV)在智能工厂环境中避障时能够保障行人的安全舒适,提出一种基于深度强化学习的AGV端到端避障方法。引入YOLOv8模块提取行人位姿信息,并设计了基于视觉的状态空间;根据个人空间理论设计强化学习的奖惩机制,对AGV进... 为控制自动导引车(AGV)在智能工厂环境中避障时能够保障行人的安全舒适,提出一种基于深度强化学习的AGV端到端避障方法。引入YOLOv8模块提取行人位姿信息,并设计了基于视觉的状态空间;根据个人空间理论设计强化学习的奖惩机制,对AGV进入行人舒适空间和发生碰撞等行为进行惩罚;搭建了虚拟仿真系统,使用PPO并结合LSTM网络层完成了避障策略的训练并进行仿真实验验证。仿真结果表明:该避障策略在不建立环境地图、视觉输入的条件下,能够控制AGV在避障过程中与行人保持舒适的社交距离。 展开更多
关键词 深度强化学习 自动导引车 YOLOv8 近端策略优化 避障 个人空间理论 端到端
在线阅读 下载PDF
基于强化学习的导弹突防决策建模研究
16
作者 张斌 雷永林 +4 位作者 李群 高远 陈永 朱佳俊 鲍琛龙 《系统仿真学报》 北大核心 2025年第3期763-774,共12页
突防能力是导弹等装备的关键评价指标,针对传统基于知识工程的突防决策方法难以自适应演进的不足,提出了基于作战仿真和深度强化学习结合的智能突防决策建模方法。搭建了基于WESS的导弹智能决策训练环境;以导弹机动突防决策建模为例进... 突防能力是导弹等装备的关键评价指标,针对传统基于知识工程的突防决策方法难以自适应演进的不足,提出了基于作战仿真和深度强化学习结合的智能突防决策建模方法。搭建了基于WESS的导弹智能决策训练环境;以导弹机动突防决策建模为例进行了应用研究,建立了机动突防决策网络模型;基于离散SAC算法进行了决策模型的强化学习训练,并开展智能化测试对比。初步试验结果表明:基于机器学习的智能决策模型具有更好的突防效果。 展开更多
关键词 导弹突防 智能决策 深度强化学习 作战仿真 WESS仿真系统
在线阅读 下载PDF
DRL燃烧器设计研究 被引量:4
17
作者 王爱华 李红军 蔡九菊 《冶金能源》 北大核心 2003年第1期31-33,60,共4页
简要回顾了国内外高效蓄热式燃烧技术研究现状 ,针对我国工业炉窑煤气热值不高的实际情况 ,提出一种新型的高效蓄热式低NOx 燃烧器DRL设计指导思想 ,实行空气、煤气双预热燃烧方式 ,采用烟气掺混外循环和流体射流回流相结合的手段 ,实现... 简要回顾了国内外高效蓄热式燃烧技术研究现状 ,针对我国工业炉窑煤气热值不高的实际情况 ,提出一种新型的高效蓄热式低NOx 燃烧器DRL设计指导思想 ,实行空气、煤气双预热燃烧方式 ,采用烟气掺混外循环和流体射流回流相结合的手段 ,实现低NOx 排放量燃烧 。 展开更多
关键词 drl燃烧器 设计研究 蓄热室 双预混 掺混
在线阅读 下载PDF
舰船防空反导的目标分配方法研究
18
作者 费帅迪 蔡长龙 +2 位作者 刘飞 陈明晖 刘晓明 《系统仿真学报》 北大核心 2025年第2期508-516,共9页
为了解决动态武器目标分配问题中遇到的状态信息多类型、时间序列相关的问题,提出一种基于改进的深度强化学习算法的动态武器目标分配方法。构建了目标导弹-拦截单元的多输入分配模型;设计一个多输入的状态空间,并结合问题模型建立马尔... 为了解决动态武器目标分配问题中遇到的状态信息多类型、时间序列相关的问题,提出一种基于改进的深度强化学习算法的动态武器目标分配方法。构建了目标导弹-拦截单元的多输入分配模型;设计一个多输入的状态空间,并结合问题模型建立马尔可夫决策过程;设计一个结合多输入信息处理和门控循环网络的特征提取网络,提高对状态信息的提取能力,保留所需要的状态信息并遗忘不重要的状态信息;在策略网络中引入多头注意力机制,提高模型的表现能力和收敛速度。实验结果表明:该动态武器目标分配方法有较好的收敛速度和拦截收益。 展开更多
关键词 防空反导 目标分配 武器目标分配 深度强化学习 注意力机制 Advantage Actor-Critic
在线阅读 下载PDF
联合任务卸载和资源优化的车辆边缘计算方案
19
作者 薛天宇 李爱萍 段利国 《计算机应用》 北大核心 2025年第6期1766-1775,共10页
针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑... 针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑边缘内和边缘间干扰,提出一种车辆到基础设施(V2I)的传输模型,该模型通过引入非正交多址接入(NOMA)技术使边缘节点不仅无需依赖链路状态信息,还可以提升信道容量;其次,为了提高系统的性能和效率,设计一种多智能体双延迟深度确定性(MATD3)算法用于制定任务卸载策略,这些策略可通过与环境的交互学习进行动态调整;再次,联合考虑2种策略的协同作用,并制定将最大化任务服务比率作为目标的优化方案,从而满足不断提升的用户体验质量需求;最后,对真实车辆轨迹数据集进行仿真实验。结果表明,相较于当前具有代表性的3种方案(分别以随机卸载(RO)算法、D4PG(Distributed Distributional Deep Deterministic Policy Gradient)算法和MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法为任务卸载算法的方案)在3类场景下(普通场景、任务密集型场景和时延敏感型场景),所提方案的平均服务比率分别提高了20%、10%和29%以上,验证了该方案的优势和有效性。 展开更多
关键词 车辆边缘计算 非正交多址接入 深度强化学习 任务卸载 资源分配
在线阅读 下载PDF
面向通信感知一体化的无人机集群上行链路物理层安全传输
20
作者 东润泽 王布宏 +2 位作者 张杰勇 翁江 方声忠 《信号处理》 北大核心 2025年第7期1143-1152,共10页
作为第六代(the Sixth Generation,6G)通信网络的关键技术之一,通信感知一体化(Integrated Sensing and Communication,ISAC)通过共享硬件架构与信号处理机制,在完成无线通信的同时实现对环境的感知,提高频谱效率,降低硬件成本。同时,... 作为第六代(the Sixth Generation,6G)通信网络的关键技术之一,通信感知一体化(Integrated Sensing and Communication,ISAC)通过共享硬件架构与信号处理机制,在完成无线通信的同时实现对环境的感知,提高频谱效率,降低硬件成本。同时,无人机(Unmanned Aerial Vehicle,UAV)作为三维空间智能节点,凭借其机动灵活、覆盖广、成本低的优势,在军事侦察、物流配送、灾害救援等领域具有广泛应用。有必要研究融入UAV的ISAC网络以提升频谱效率和低空资源利用率。此外,无线通信的广播特性对ISAC网络敏感信息的传输带来了严重挑战,亟需基于物理层安全技术提升信息传输的安全性能。该文考虑ISAC场景下UAV集群的上行链路物理层安全传输问题,其中一个地面ISAC基站向UAV集群传输保密信息,同时对多个地面目标进行感知。UAV集群附近存在多个窃听UAV对保密信息进行窃听。为提升地面基站执行ISAC任务时的物理层安全性能,对其发射波束形成以及UAV集群的轨迹进行联合优化,并提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)的算法完成对该优化问题的求解。首先提出感知性能约束下总的平均保密速率最大化问题并将其归结为马尔可夫决策过程(Markov Decision Process,MDP),随后通过精心设计的动作网络与策略网络实现优化变量的联合优化,最终提升了所考虑ISAC网络的物理层安全性能。仿真实验表明,与基准算法相比,本文所提方法能够实现185.3%的平均保密速率提升,并验证了所提方法进行轨迹规划及波束形成设计的有效性。 展开更多
关键词 UAV集群 通信感知一体化 物理层安全 深度强化学习 波束形成
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部