期刊文献+
共找到143篇文章
< 1 2 8 >
每页显示 20 50 100
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
1
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(DDQN)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(drl) sparse returns
在线阅读 下载PDF
Hierarchical reinforcement learning guidance with threat avoidance 被引量:1
2
作者 LI Bohao WU Yunjie LI Guofei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第5期1173-1185,共13页
The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchic... The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchical deep deterministic policy gradient(DDPG)algorithm.The reward functions are constructed to minimize the line-of-sight(LOS)angle rate and avoid the threat caused by the opposed obstacles.To attenuate the chattering of the acceleration,a hierarchical reinforcement learning structure and an improved reward function with action penalty are put forward.The simulation results validate that the missile under the proposed method can hit the target successfully and keep away from the threatened areas effectively. 展开更多
关键词 guidance law deep reinforcement learning(drl) threat avoidance hierarchical reinforcement learning
在线阅读 下载PDF
基于DRL的大规模定制装配车间调度研究
3
作者 屈新怀 张慧慧 +1 位作者 丁必荣 孟冠军 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期878-883,共6页
针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模... 针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模定制装配车间作业调度优化模型,基于调度模型建立马尔科夫决策过程,合理定义状态、动作和奖励函数;将调度模型优化问题与DRL方法相结合,并采用改进的D3QN算法进行模型求解;最后进行仿真实验验证。结果表明,文章所提方法能有效减少产品组件更换次数和降低订单提前/拖期惩罚。 展开更多
关键词 大规模定制 装配车间 深度强化学习(drl) 车间作业调度 调度优化模型
在线阅读 下载PDF
A learning-based flexible autonomous motion control method for UAV in dynamic unknown environments 被引量:3
4
作者 WAN Kaifang LI Bo +2 位作者 GAO Xiaoguang HU Zijian YANG Zhipeng 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2021年第6期1490-1508,共19页
This paper presents a deep reinforcement learning(DRL)-based motion control method to provide unmanned aerial vehicles(UAVs)with additional flexibility while flying across dynamic unknown environments autonomously.Thi... This paper presents a deep reinforcement learning(DRL)-based motion control method to provide unmanned aerial vehicles(UAVs)with additional flexibility while flying across dynamic unknown environments autonomously.This method is applicable in both military and civilian fields such as penetration and rescue.The autonomous motion control problem is addressed through motion planning,action interpretation,trajectory tracking,and vehicle movement within the DRL framework.Novel DRL algorithms are presented by combining two difference-amplifying approaches with traditional DRL methods and are used for solving the motion planning problem.An improved Lyapunov guidance vector field(LGVF)method is used to handle the trajectory-tracking problem and provide guidance control commands for the UAV.In contrast to conventional motion-control approaches,the proposed methods directly map the sensorbased detections and measurements into control signals for the inner loop of the UAV,i.e.,an end-to-end control.The training experiment results show that the novel DRL algorithms provide more than a 20%performance improvement over the state-ofthe-art DRL algorithms.The testing experiment results demonstrate that the controller based on the novel DRL and LGVF,which is only trained once in a static environment,enables the UAV to fly autonomously in various dynamic unknown environments.Thus,the proposed technique provides strong flexibility for the controller. 展开更多
关键词 autonomous motion control(AMC) deep reinforcement learning(drl) difference amplify reward shaping
在线阅读 下载PDF
基于深度强化学习的IRS辅助认知无线电系统波束成形算法 被引量:1
5
作者 李国权 程涛 +2 位作者 郭永存 庞宇 林金朝 《电子与信息学报》 北大核心 2025年第3期657-665,共9页
为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模... 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。 展开更多
关键词 智能反射面 认知无线电 深度强化学习 波束成形
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
6
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
堆叠覆盖环境下的深度强化学习机械臂避障抓取方法
7
作者 禹鑫燚 周晨 +2 位作者 俞俊鑫 曹铭洲 欧林林 《高技术通讯》 北大核心 2025年第3期284-296,共13页
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo... 堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。 展开更多
关键词 堆叠覆盖环境 避障抓取 图像编码器 深度强化学习 二次行为克隆
在线阅读 下载PDF
联合局部线性嵌入与深度强化学习的RIS-MISO下行和速率优化
8
作者 孙俊 杨俊龙 +2 位作者 杨青青 胡明志 吴紫仪 《电子与信息学报》 北大核心 2025年第7期2117-2126,共10页
智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临... 智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临训练开销大的挑战。针对此问题,该文提出一种基于局部线性嵌入(LLE)和软动作评论(SAC)的联合优化算法,通过随机搜索算法和LLE对信道状态进行降维,并将低维状态作为SAC算法的输入,联合优化基站波束成形与RIS相位偏移,最大化MISO系统的下行和速率。仿真结果表明,在用户数为40的场景下,所提算法在维持与SAC相当的和速率性能的同时,训练时间减少了18.3%,计算资源消耗降低了64.8%。且随着用户规模的扩大,算法的训练开销进一步下降,充分验证了其有效性。 展开更多
关键词 智能反射面 局部线性嵌入 深度强化学习 和速率 训练开销
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
9
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
基于深度强化学习的低轨卫星多波束子载波动态分配算法
10
作者 王华华 黄梁 +1 位作者 陈甲杰 方杰宁 《计算机应用》 北大核心 2025年第2期571-577,共7页
针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最... 针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最小化用户丢包率为目标,动态调整用户调度情况并动态分配整个卫星通信系统的资源以适应环境的变化。通过时隙划分离散化LEO卫星的动态特性模型,并根据LEO卫星资源分配场景的建模提出一种基于深度强化学习(DRL)的资源分配策略。通过调整卫星调度的排队情况,增加大时延用户的调度机会,即调节单颗LEO卫星各个波束中的资源块以对应用户的资格性,从而在保证一定公平性的同时,降低用户丢包率。仿真实验结果表明,在满足总功率约束的条件下,所提出的基于深度强化学习的资源分配算法(DRL-RA)中的用户传输公平性和系统吞吐量比较稳定,且DRL-RA中时延较大的用户因优先级提升而获得了更多的调度机会,而DRL-RA的数据丢包率相较于比例公平算法和最大负载/干扰(Max C/I)算法分别降低了13.9%和15.6%。可见,所提算法有效解决了数据传输过程中丢包的问题。 展开更多
关键词 低轨卫星 时隙划分 资源分配 深度强化学习 优先级调整
在线阅读 下载PDF
基于Transformer的状态−动作−奖赏预测表征学习 被引量:1
11
作者 刘民颂 朱圆恒 赵冬斌 《自动化学报》 北大核心 2025年第1期117-132,共16页
为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSA... 为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSAR提出一种基于Transformer的融合状态−动作−奖赏信息的序列预测任务.该预测任务采用随机掩码技术对序列数据进行预处理,通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息,同时学习状态与动作表征.为进一步强化状态和动作表征与强化学习(Reinforcement learning,RL)策略的相关性,TSAR引入动作预测学习和奖赏预测学习作为附加的学习约束以指导状态和动作表征学习.TSAR同时将状态表征和动作表征显式地纳入到强化学习策略的优化中,显著提高了表征对策略学习的促进作用.实验结果表明,在DMControl的9个具有挑战性的困难环境中,TSAR的性能和样本效率超越了现有最先进的方法. 展开更多
关键词 深度强化学习 表征学习 自监督对比学习 TRANSFORMER
在线阅读 下载PDF
深度强化学习求解多目标旅行商问题的研究综述 被引量:1
12
作者 李成健 宋姝谊 +1 位作者 粟宇 陈智斌 《计算机工程与应用》 北大核心 2025年第12期28-44,共17页
多目标旅行商问题(MOTSP)是一个具有显著应用价值的组合优化问题(COP),在物流配送、生产调度和网络通信等领域广泛存在。MOTSP不仅需要在多个目标之间寻求平衡,还要求找到不同的帕累托解集,这些解集代表了MOTSP在不同目标之间的全局或... 多目标旅行商问题(MOTSP)是一个具有显著应用价值的组合优化问题(COP),在物流配送、生产调度和网络通信等领域广泛存在。MOTSP不仅需要在多个目标之间寻求平衡,还要求找到不同的帕累托解集,这些解集代表了MOTSP在不同目标之间的全局或局部最优解。传统的多目标优化算法在解决MOTSP时,通常面临计算复杂度高和求解效率低的挑战,尤其是在均衡决策空间和目标空间多样性时,难以有效找到多样化的帕累托最优解。近年来,深度强化学习(DRL)在处理复杂优化问题上展现了巨大的潜力,为解决MOTSP及其帕累托解集的多样化问题提供了一种新的方法。介绍了MOTSP的基本概念和求解方法;讨论了强化学习(RL)中的优化策略和深度学习(DL)的神经网络模型;总结了利用DRL求解MOTSP的理论方法,分析了各代表性模型的优化效果与时效性,突出不同DRL模型在大规模MOTSP问题中的性能表现,并探讨了其局限性、改进方向和适用场景,同时提出了应对局部最优问题的策略。最后,归纳了MOTSP的四大应用研究领域,并指出了MOTSP的未来研究方向。 展开更多
关键词 深度强化学习(drl) 多目标旅行商问题(MOTSP) 帕累托最优解 优化策略 神经网络模型
在线阅读 下载PDF
联合任务卸载和资源优化的车辆边缘计算方案
13
作者 薛天宇 李爱萍 段利国 《计算机应用》 北大核心 2025年第6期1766-1775,共10页
针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑... 针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑边缘内和边缘间干扰,提出一种车辆到基础设施(V2I)的传输模型,该模型通过引入非正交多址接入(NOMA)技术使边缘节点不仅无需依赖链路状态信息,还可以提升信道容量;其次,为了提高系统的性能和效率,设计一种多智能体双延迟深度确定性(MATD3)算法用于制定任务卸载策略,这些策略可通过与环境的交互学习进行动态调整;再次,联合考虑2种策略的协同作用,并制定将最大化任务服务比率作为目标的优化方案,从而满足不断提升的用户体验质量需求;最后,对真实车辆轨迹数据集进行仿真实验。结果表明,相较于当前具有代表性的3种方案(分别以随机卸载(RO)算法、D4PG(Distributed Distributional Deep Deterministic Policy Gradient)算法和MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法为任务卸载算法的方案)在3类场景下(普通场景、任务密集型场景和时延敏感型场景),所提方案的平均服务比率分别提高了20%、10%和29%以上,验证了该方案的优势和有效性。 展开更多
关键词 车辆边缘计算 非正交多址接入 深度强化学习 任务卸载 资源分配
在线阅读 下载PDF
面向通信感知一体化的无人机集群上行链路物理层安全传输
14
作者 东润泽 王布宏 +2 位作者 张杰勇 翁江 方声忠 《信号处理》 北大核心 2025年第7期1143-1152,共10页
作为第六代(the Sixth Generation,6G)通信网络的关键技术之一,通信感知一体化(Integrated Sensing and Communication,ISAC)通过共享硬件架构与信号处理机制,在完成无线通信的同时实现对环境的感知,提高频谱效率,降低硬件成本。同时,... 作为第六代(the Sixth Generation,6G)通信网络的关键技术之一,通信感知一体化(Integrated Sensing and Communication,ISAC)通过共享硬件架构与信号处理机制,在完成无线通信的同时实现对环境的感知,提高频谱效率,降低硬件成本。同时,无人机(Unmanned Aerial Vehicle,UAV)作为三维空间智能节点,凭借其机动灵活、覆盖广、成本低的优势,在军事侦察、物流配送、灾害救援等领域具有广泛应用。有必要研究融入UAV的ISAC网络以提升频谱效率和低空资源利用率。此外,无线通信的广播特性对ISAC网络敏感信息的传输带来了严重挑战,亟需基于物理层安全技术提升信息传输的安全性能。该文考虑ISAC场景下UAV集群的上行链路物理层安全传输问题,其中一个地面ISAC基站向UAV集群传输保密信息,同时对多个地面目标进行感知。UAV集群附近存在多个窃听UAV对保密信息进行窃听。为提升地面基站执行ISAC任务时的物理层安全性能,对其发射波束形成以及UAV集群的轨迹进行联合优化,并提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)的算法完成对该优化问题的求解。首先提出感知性能约束下总的平均保密速率最大化问题并将其归结为马尔可夫决策过程(Markov Decision Process,MDP),随后通过精心设计的动作网络与策略网络实现优化变量的联合优化,最终提升了所考虑ISAC网络的物理层安全性能。仿真实验表明,与基准算法相比,本文所提方法能够实现185.3%的平均保密速率提升,并验证了所提方法进行轨迹规划及波束形成设计的有效性。 展开更多
关键词 UAV集群 通信感知一体化 物理层安全 深度强化学习 波束形成
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题
15
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
面向物联网的云边端协同计算中任务卸载与资源分配算法研究 被引量:3
16
作者 施建锋 陈忻阳 李宝龙 《电子与信息学报》 北大核心 2025年第2期458-469,共12页
为满足远郊和灾区物联网(IoT)设备的时延与能耗需求,该文构建了由IoT终端、低地球轨道(LEO)卫星和云计算中心组成的新型动态卫星物联网模型。在时延、能耗等实际约束条件下,将系统时延与能耗加权和视为系统开销,构造了最小化系统开销的... 为满足远郊和灾区物联网(IoT)设备的时延与能耗需求,该文构建了由IoT终端、低地球轨道(LEO)卫星和云计算中心组成的新型动态卫星物联网模型。在时延、能耗等实际约束条件下,将系统时延与能耗加权和视为系统开销,构造了最小化系统开销的任务卸载、功率和计算资源联合分配问题。针对动态任务到达场景,提出一种模型辅助的自适应深度强化学习(MADRL)算法,实现任务卸载决策、通信资源和计算资源的联合配置。该算法将问题分为两部分解决,第1部分通过模型辅助、二分搜索算法和梯度下降法优化了通信资源与计算资源;第2部分通过自适应深度强化学习算法训练出Q网络以适应随机任务的到达,进行卸载决策优化。该算法实现了有效的资源分配和可靠及时的任务卸载决策,且在降低系统开销方面表现出优异的效果。仿真结果表明,引入卫星的移动性,使得系统开销降低了41%。引入星间协作技术,使系统开销降低了22.1%。此外,该文所提算法收敛性能好。与基准算法相比,该算法的系统开销降低了3%,在不同环境下的性能表现都是最优。 展开更多
关键词 云边端协同计算 卫星物联网 深度强化学习 任务卸载 资源分配
在线阅读 下载PDF
IRS增强的UAV机会接入宽带CR系统资源分配与安全优化
17
作者 赵国兴 刘富辉 +2 位作者 晏子祥 吴伟 田峰 《南京邮电大学学报(自然科学版)》 北大核心 2025年第3期38-47,共10页
提出了一种智能反射面(Intelligent Reflecting Surface,IRS)增强的无人机(Unmanned Aerial Vehicle,UAV)机会接入宽带认知无线电(Cognitive Radio,CR)系统,以提升系统频谱效率并确保物理层安全(Physical Layer Security,PLS)。通过联... 提出了一种智能反射面(Intelligent Reflecting Surface,IRS)增强的无人机(Unmanned Aerial Vehicle,UAV)机会接入宽带认知无线电(Cognitive Radio,CR)系统,以提升系统频谱效率并确保物理层安全(Physical Layer Security,PLS)。通过联合优化UAV的波束赋形和飞行轨迹、IRS的反射系数、用户和IRS的关联选择、子载波选择及感知时间,在满足主用户可容忍最大干扰和次级用户最小安全速率需求的前提下,最大化次级网络的和安全速率。由于包含整数规划约束、非线性约束以及优化变量之间的相互耦合,因此导致问题高度非凸。为此,采用了深度强化学习(Deep Rein‑forcement Learning,DRL)算法,包括决斗双重深度Q网络(Dueling Double Deep Q Network,D3QN)算法和软性演员-评论家(Soft Actor‑Critic,SAC)算法。该方法能够高效处理复杂的混合变量优化问题,以提高算法的稳定性和收敛速度,确保在动态环境中获得更优的资源分配和通信安全性能。仿真结果表明,所提方法在通信安全和频谱效率方面显著优于基准方案。IRS、UAV和CR技术的引入显著提升了系统的频谱利用率和用户的安全速率。此外,所提方法在动态环境中展现了较高的稳定性和快速的收敛速度。 展开更多
关键词 智能反射面 增强无人机 机会接入 认知无线电 物理层安全 深度强化学习算法
在线阅读 下载PDF
面向卫星在轨处理的强化学习任务调度算法
18
作者 孟麟芝 孙小涓 +3 位作者 胡玉新 高斌 孙国庆 牟文浩 《系统工程与电子技术》 北大核心 2025年第6期1917-1929,共13页
随着卫星对地观测进入多卫星、高分辨率、实时响应、全球观测的时代,卫星在轨数据处理已成为提高遥感数据处理实时性的主流手段之一。在卫星资源受限、数传链路信道资源受限、随遇观测任务具有不可预测性的场景下,进行数据处理任务实时... 随着卫星对地观测进入多卫星、高分辨率、实时响应、全球观测的时代,卫星在轨数据处理已成为提高遥感数据处理实时性的主流手段之一。在卫星资源受限、数传链路信道资源受限、随遇观测任务具有不可预测性的场景下,进行数据处理任务实时调度具有较大挑战。首先,构建以最大化系统平均数据处理吞吐率为目标的优化问题模型。然后,提出一种在线的结合深度强化学习(deep reinforcement learning,DRL)的任务调度算法,采用DRL算法能够实时计算任务调度策略,选取拉格朗日对偶优化算法能够准确计算最优资源分配量。最后,通过仿真实验对算法有效性和数据处理吞吐率进行评价,结果表明算法能够收敛并接近最优解,相比于已有算法将数据处理吞吐率提高了约8%,且在卫星数据到达速率及卫星计算节点数量增大时具有一定扩展性。所提算法能够在最大化系统平均数据处理吞吐率的同时,保障高动态环境下任务队列长度及平均能耗稳定收敛。 展开更多
关键词 卫星在轨处理 任务调度 资源分配 深度强化学习 李雅普诺夫优化
在线阅读 下载PDF
DQN与规则结合的智能船舶动态自主避障决策
19
作者 郑康洁 张新宇 +1 位作者 王伟菘 刘震生 《系统工程与电子技术》 北大核心 2025年第6期1994-2001,共8页
针对智能船舶避碰决策面临反复训练、难以灵活适应多样化会遇场景等问题。提出一种深度Q-网络(deep Q-network,DQN)与规则结合的智能船舶动态自主避障决策算法,设计融合规则评估的部分可观测自主避障模型,并结合深度强化学习对深度网络... 针对智能船舶避碰决策面临反复训练、难以灵活适应多样化会遇场景等问题。提出一种深度Q-网络(deep Q-network,DQN)与规则结合的智能船舶动态自主避障决策算法,设计融合规则评估的部分可观测自主避障模型,并结合深度强化学习对深度网络进行改进和训练。通过选择随机起点和终点的训练方式,算法使智能船舶在无需反复训练的情况下,能在动态和静态场景相结合的环境中实现自主避碰。仿真实验验证了算法无需重复训练即可实现自主避碰决策,降低训练成本,具有一定的泛化能力和鲁棒性,可为智能船舶在复杂航行环境中的自主避碰提供解决方案。 展开更多
关键词 动态自主避障 智能船舶 免重复训练 深度强化学习
在线阅读 下载PDF
基于深度强化学习的带约束车辆路径分层优化研究
20
作者 唐开强 傅汇乔 +2 位作者 刘佳生 邓归洲 陈春林 《系统工程与电子技术》 北大核心 2025年第3期827-841,共15页
针对带容量约束的车辆路径问题(capacitated vehicle routing problem,CVRP),提出一种利用层次结构对容量约束进行解耦的方法,将复杂的CVRP拆分为约束规划和路径规划,并分别进行深度强化学习(deep reinforcement learning,DRL)优化求解... 针对带容量约束的车辆路径问题(capacitated vehicle routing problem,CVRP),提出一种利用层次结构对容量约束进行解耦的方法,将复杂的CVRP拆分为约束规划和路径规划,并分别进行深度强化学习(deep reinforcement learning,DRL)优化求解。首先,上层基于注意力模型和采样机制对配送任务进行分配,规划出满足容量约束的子回路集。其次,下层采用预训练的无约束的注意力机制模型,对子回路集进行路径规划。最后,通过Reinforce算法反馈训练和迭代优化上层的网络参数。实验结果表明,该方法对不同规模的CVRP和异构CVRP任务具有泛化性,性能优于最先进的DRL方法;并且与其他启发式方法相比,在批量运算任务中,求解速度提升10倍以上,且保持具有竞争力的解。 展开更多
关键词 深度强化学习 车辆路径问题 注意力模型 分层优化
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部