期刊文献+
共找到298篇文章
< 1 2 15 >
每页显示 20 50 100
基于DRL的大规模定制装配车间调度研究
1
作者 屈新怀 张慧慧 +1 位作者 丁必荣 孟冠军 《合肥工业大学学报(自然科学版)》 北大核心 2025年第7期878-883,共6页
针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模... 针对大规模定制装配车间中订单的随机性和偶然性问题,文章提出一种基于深度强化学习(deep reinforcement learning,DRL)的大规模定制装配车间作业调度优化方法。建立以最小化产品组件更换次数和最小化订单提前/拖期惩罚为目标的大规模定制装配车间作业调度优化模型,基于调度模型建立马尔科夫决策过程,合理定义状态、动作和奖励函数;将调度模型优化问题与DRL方法相结合,并采用改进的D3QN算法进行模型求解;最后进行仿真实验验证。结果表明,文章所提方法能有效减少产品组件更换次数和降低订单提前/拖期惩罚。 展开更多
关键词 大规模定制 装配车间 深度强化学习(drl) 车间作业调度 调度优化模型
在线阅读 下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
2
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(DDQN)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(drl) sparse returns
在线阅读 下载PDF
Hierarchical reinforcement learning guidance with threat avoidance 被引量:1
3
作者 LI Bohao WU Yunjie LI Guofei 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第5期1173-1185,共13页
The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchic... The guidance strategy is an extremely critical factor in determining the striking effect of the missile operation.A novel guidance law is presented by exploiting the deep reinforcement learning(DRL)with the hierarchical deep deterministic policy gradient(DDPG)algorithm.The reward functions are constructed to minimize the line-of-sight(LOS)angle rate and avoid the threat caused by the opposed obstacles.To attenuate the chattering of the acceleration,a hierarchical reinforcement learning structure and an improved reward function with action penalty are put forward.The simulation results validate that the missile under the proposed method can hit the target successfully and keep away from the threatened areas effectively. 展开更多
关键词 guidance law deep reinforcement learning(drl) threat avoidance hierarchical reinforcement learning
在线阅读 下载PDF
深度强化学习求解动态柔性作业车间调度问题 被引量:1
4
作者 杨丹 舒先涛 +3 位作者 余震 鲁光涛 纪松霖 王家兵 《现代制造工程》 北大核心 2025年第2期10-16,共7页
随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车... 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。 展开更多
关键词 深度强化学习 D3QN算法 工件随机抵达 柔性作业车间调度 动态调度
在线阅读 下载PDF
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
5
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 DQN算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于深度强化学习的IRS辅助认知无线电系统波束成形算法 被引量:1
6
作者 李国权 程涛 +2 位作者 郭永存 庞宇 林金朝 《电子与信息学报》 北大核心 2025年第3期657-665,共9页
为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模... 为进一步提升多用户无线通信系统的频谱利用率,该文提出了一种基于深度强化学习的智能反射面(IRS)辅助认知无线电网络次用户和速率最大化算法。首先在考虑次基站最大发射功率约束、次基站对主用户的干扰容限约束以及IRS相移矩阵单位模量约束的情况下,建立一个联合优化次基站波束成形和IRS相移矩阵的资源分配模型;然后提出了一种基于深度确定性策略梯度的主被动波束成形算法,联合进行变量优化以最大化次用户和速率。仿真结果表明,所提算法相对于传统优化算法在和速率性能接近的情况下具有更低的时间复杂度。 展开更多
关键词 智能反射面 认知无线电 深度强化学习 波束成形
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
7
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
一种进化梯度引导的强化学习算法
8
作者 许斌 练元洪 +2 位作者 卞鸿根 刘丹 亓晋 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期99-105,共7页
进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能... 进化算法(Evolutionary Algorithm,EA)和深度强化学习(Deep Reinforcement Learning,DRL)的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法(Evolutionary Gradient Guided Reinforcement Learning,EGG⁃RL)。在连续控制任务方面的实验表明,EGG⁃RL的性能表现优于其他方法。 展开更多
关键词 CEM⁃RL 深度强化学习 进化算法 历史梯度
在线阅读 下载PDF
堆叠覆盖环境下的深度强化学习机械臂避障抓取方法
9
作者 禹鑫燚 周晨 +2 位作者 俞俊鑫 曹铭洲 欧林林 《高技术通讯》 北大核心 2025年第3期284-296,共13页
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo... 堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。 展开更多
关键词 堆叠覆盖环境 避障抓取 图像编码器 深度强化学习 二次行为克隆
在线阅读 下载PDF
联合局部线性嵌入与深度强化学习的RIS-MISO下行和速率优化
10
作者 孙俊 杨俊龙 +2 位作者 杨青青 胡明志 吴紫仪 《电子与信息学报》 北大核心 2025年第7期2117-2126,共10页
智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临... 智能反射面(RIS)因其能调节电磁波的相位和幅度,被视为下一代无线通信的关键技术而被广泛研究。在RIS辅助多输入单输出(MISO)的通信系统中,信道状态维度随用户数量的增加呈平方级增长,导致深度强化学习(DRL)智能体在高维状态空间下面临训练开销大的挑战。针对此问题,该文提出一种基于局部线性嵌入(LLE)和软动作评论(SAC)的联合优化算法,通过随机搜索算法和LLE对信道状态进行降维,并将低维状态作为SAC算法的输入,联合优化基站波束成形与RIS相位偏移,最大化MISO系统的下行和速率。仿真结果表明,在用户数为40的场景下,所提算法在维持与SAC相当的和速率性能的同时,训练时间减少了18.3%,计算资源消耗降低了64.8%。且随着用户规模的扩大,算法的训练开销进一步下降,充分验证了其有效性。 展开更多
关键词 智能反射面 局部线性嵌入 深度强化学习 和速率 训练开销
在线阅读 下载PDF
基于EA-RL算法的分布式能源集群调度方法
11
作者 程小华 王泽夫 +2 位作者 曾君 曾婧瑶 谭豪杰 《华南理工大学学报(自然科学版)》 北大核心 2025年第1期1-9,共9页
目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负... 目前对于分布式能源集群调度的研究大多局限于单一场景,同时也缺少高效、准确的算法。该文针对以上问题提出了一种基于进化算法经验指导的深度强化学习(EA-RL)的分布式能源集群多场景调度方法。分别对分布式能源集群中的电源、储能、负荷进行个体建模,并基于个体调度模型建立了包含辅助调峰调频的多场景分布式能源集群优化调度模型;基于进化强化学习算法框架,提出了一种EA-RL算法,该算法融合了遗传算法(GA)与深度确定性策略梯度(DDPG)算法,以经验序列作为遗传算法个体进行交叉、变异、选择,筛选出优质经验加入DDPG算法经验池对智能体进行指导训练以提高算法的搜索效率和收敛性;根据多场景调度模型构建分布式能源集群多场景调度问题的状态空间和动作空间,再以最小化调度成本、最小化辅助服务调度指令偏差、最小化联络线越限功率以及最小化源荷功率差构建奖励函数,完成强化学习模型的建立;为验证所提算法模型的有效性,基于多场景的仿真算例对调度智能体进行离线训练,形成能够适应电网多场景的调度智能体,通过在线决策的方式进行验证,根据决策结果评估其调度决策能力,并通过与DDPG算法的对比验证算法的有效性,最后对训练完成的智能体进行了连续60d的加入不同程度扰动的在线决策测试,验证智能体的后效性和鲁棒性。 展开更多
关键词 分布式能源集群 深度强化学习 进化强化学习算法 多场景一体化调度
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
12
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
融入SAC算法的光储微网混合储能自驱优级联自抗扰控制
13
作者 周雪松 张宇轩 +3 位作者 马幼捷 王馨悦 陶珑 问虎龙 《电力系统保护与控制》 北大核心 2025年第13期93-104,共12页
母线电压稳定是实现新能源高水平消纳的重要前提。针对光储直流微电网混合储能系统因源荷不确定性扰动导致的母线电压波动问题,提出一种融入深度强化学习柔性动作评价(soft actor-critic, SAC)算法的自驱优级联自抗扰控制策略。首先,设... 母线电压稳定是实现新能源高水平消纳的重要前提。针对光储直流微电网混合储能系统因源荷不确定性扰动导致的母线电压波动问题,提出一种融入深度强化学习柔性动作评价(soft actor-critic, SAC)算法的自驱优级联自抗扰控制策略。首先,设计了级联扩张状态观测器来实时估计和补偿系统中的不确定性扰动,以提升系统的扰动估计精度。其次,针对系统建立了马尔可夫决策模型,并设计了状态奖励与信息熵综合评估的SAC智能体,融入控制器参数优化中。通过其在线学习和经验回放实现了控制参数的自驱优整定,进一步提高了系统的抗扰性和鲁棒性。最后,通过仿真实验对比了3种控制策略在典型工况下的控制性能,验证了所提策略的有效性和优越性。 展开更多
关键词 光储直流微电网 混合储能 自抗扰控制 深度强化学习 SAC算法
在线阅读 下载PDF
基于随机对称搜索的进化强化学习算法
14
作者 邸剑 万雪 姜丽梅 《计算机工程与科学》 北大核心 2025年第5期912-920,共9页
进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网... 进化算法的引入极大地提高了强化学习算法的性能。然而,现有的基于进化强化学习ERL的算法还存在易陷入欺骗性奖励、易收敛到局部最优和稳定性差的问题。为了解决这些问题,提出了一种随机对称搜索策略,直接作用于策略网络参数,在策略网络参数中心的基础上由最优策略网络参数指导全局策略网络参数优化更新,同时辅以梯度优化,引导智能体进行多元探索。在MuJoCo的5个机器人运动连续控制任务中的实验结果表明,提出的算法性能优于以前的进化强化学习算法,且具有更快的收敛速度。 展开更多
关键词 深度强化学习 进化算法 进化强化学习 随机对称搜索
在线阅读 下载PDF
基于深度强化学习的低轨卫星多波束子载波动态分配算法
15
作者 王华华 黄梁 +1 位作者 陈甲杰 方杰宁 《计算机应用》 北大核心 2025年第2期571-577,共7页
针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最... 针对低轨(LEO)卫星在多波束场景下的资源分配问题,由于在实际卫星通信环境中,波束间信号的干扰和噪声等因素复杂多变,常规的子载波动态分配算法无法动态调整参数以适应通信环境的变化。通过结合传统的通信调度算法与强化学习技术,以最小化用户丢包率为目标,动态调整用户调度情况并动态分配整个卫星通信系统的资源以适应环境的变化。通过时隙划分离散化LEO卫星的动态特性模型,并根据LEO卫星资源分配场景的建模提出一种基于深度强化学习(DRL)的资源分配策略。通过调整卫星调度的排队情况,增加大时延用户的调度机会,即调节单颗LEO卫星各个波束中的资源块以对应用户的资格性,从而在保证一定公平性的同时,降低用户丢包率。仿真实验结果表明,在满足总功率约束的条件下,所提出的基于深度强化学习的资源分配算法(DRL-RA)中的用户传输公平性和系统吞吐量比较稳定,且DRL-RA中时延较大的用户因优先级提升而获得了更多的调度机会,而DRL-RA的数据丢包率相较于比例公平算法和最大负载/干扰(Max C/I)算法分别降低了13.9%和15.6%。可见,所提算法有效解决了数据传输过程中丢包的问题。 展开更多
关键词 低轨卫星 时隙划分 资源分配 深度强化学习 优先级调整
在线阅读 下载PDF
基于深度强化学习的停机位分配
16
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(DDPG)
在线阅读 下载PDF
未知环境下基于突变定位SAC算法的移动机器人路径规划
17
作者 胡立坤 韦春有 《计算机应用研究》 北大核心 2025年第2期455-461,共7页
针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信... 针对缺乏完整环境信息的条件下移动机器人局部路径规划算法性能提升及深度强化学习智能体训练速度慢的问题,提出了突变定位算法和改进的soft actor-critic(SAC)算法,并将两者结合为突变定位SAC算法。突变定位算法能够在缺乏完备环境信息的情况下计算子目标点位置,减少移动机器人规划路径的长度。同时,通过引入基于虚拟势场的critic网络改进损失函数和多阶段训练方法,提高SAC智能体的训练速度。实验结果表明,与DDPG、SAC、PER-SAC和HER-TD3相比,突变定位SAC算法在训练时间上分别减少了46.68%、39.50%、20.18%和27.79%。此外,突变定位SAC算法在不同环境下规划路径的长度平均减少了13.71%、10.26%、10.90%和15.89%。 展开更多
关键词 移动机器人 路径规划 深度强化学习算法 SAC算法 激光雷达 未知环境
在线阅读 下载PDF
缓存辅助的移动边缘计算任务卸载与资源分配
18
作者 李致远 陈品润 《计算机工程与设计》 北大核心 2025年第5期1248-1255,共8页
针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,... 针对边缘计算网络环境下的计算任务卸载与资源分配问题,提出一种基于分层强化学习的联合优化缓存、卸载与资源分配(HRLJCORA)算法。以时延和能耗为优化目标,将原优化问题分解为两个子问题,下层利用深度Q-learning网络算法进行缓存决策,上层使用软动作评价算法进行计算任务卸载与资源分配决策。仿真实验结果表明,HRLJCORA算法与现有基线算法相比,有效降低了总开销,相较于联合优化计算任务卸载与资源分配(JORA)算法,卸载决策奖励值提高了13.11%,为用户提供了更优质的服务。 展开更多
关键词 移动边缘计算 缓存辅助 卸载决策 资源分配 分层强化学习 深度Q-learning网络算法 软动作评价算法
在线阅读 下载PDF
基于TD3算法的光伏电站参与电力系统频率控制策略
19
作者 张建华 陶莹 赵思 《郑州大学学报(工学版)》 北大核心 2025年第3期42-49,共8页
针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简... 针对光伏电力输出具有间歇性和随机性对维持电力系统频率稳定构成的挑战,提出了一种基于双延迟深度确定性策略梯度算法的快速频率调节方法,该方法无须依赖特定的机理模型,适用于解决与光伏发电相关的强不确定性问题。首先,构建了一个简化的光伏发电系统模型;其次,基于双延迟深度确定性策略梯度算法设计了一种新型频率控制器;最后,将所提控制策略与传统下垂控制、滑模控制及基于深度确定性策略梯度算法的控制策略进行了比较。结果表明:在分别施加负荷单次阶跃扰动和负荷连续阶跃扰动的两种场景中,基于所提控制策略的频率偏差均明显低于其他3种控制算法,时间乘绝对误差积分准则比性能最差的下垂控制分别减小了41.7%和31.8%,充分验证了所提控制策略在调频过程动态性能和稳态性能方面的优越性。 展开更多
关键词 光伏并网系统 一次调频 深度强化学习 双延迟深度确定性策略梯度算法 控制性能
在线阅读 下载PDF
基于人工势场的防疫机器人改进近端策略优化算法
20
作者 伍锡如 沈可扬 《智能系统学报》 北大核心 2025年第3期689-698,共10页
针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和... 针对防疫机器人在复杂医疗环境中的路径规划与避障效果差、学习效率低的问题,提出一种基于人工势场的改进近端策略优化(proximal policy optimization,PPO)路径规划算法。根据人工势场法(artificial potential field,APF)构建障碍物和目标节点的势场,定义防疫机器人的动作空间与安全运动范围,解决防疫机器人运作中避障效率低的问题。为解决传统PPO算法的奖励稀疏问题,将人工势场因子引入PPO算法的奖励函数,提升算法运行中的奖励反馈效率。改进PPO算法网络模型,增加隐藏层和Previous Actor网络,提高了防疫机器人的灵活性与学习感知能力。最后,在静态和动态仿真环境中对算法进行对比实验,结果表明本算法能更快到达奖励峰值,减少冗余路径,有效完成避障和路径规划决策。 展开更多
关键词 PPO算法 人工势场 路径规划 防疫机器人 深度强化学习 动态环境 安全性 奖励函数
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部