期刊文献+
共找到1,438篇文章
< 1 2 72 >
每页显示 20 50 100
基于改进DDPG算法的无人船自主避碰决策方法
1
作者 关巍 郝淑慧 +1 位作者 崔哲闻 王淼淼 《中国舰船研究》 北大核心 2025年第1期172-180,共9页
[目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收... [目的]针对传统深度确定性策略梯度(DDPG)算法数据利用率低、收敛性差的特点,改进并提出一种新的无人船自主避碰决策方法。[方法]利用优先经验回放(PER)自适应调节经验优先级,降低样本的相关性,并利用长短期记忆(LSTM)网络提高算法的收敛性。基于船舶领域和《国际海上避碰规则》(COLREGs),设置会遇情况判定模型和一组新定义的奖励函数,并考虑了紧迫危险以应对他船不遵守规则的情况。为验证所提方法的有效性,在两船和多船会遇局面下进行仿真实验。[结果]结果表明,改进的DDPG算法相比于传统DDPG算法在收敛速度上提升约28.8%,[结论]训练好的自主避碰模型可以使无人船在遵守COLREGs的同时实现自主决策和导航,为实现更加安全、高效的海上交通智能化决策提供参考。 展开更多
关键词 无人船 深度确定性策略梯度算法 自主避碰决策 优先经验回放 国际海上避碰规则 避碰
在线阅读 下载PDF
基于LSTM-DDPG的再入制导方法
2
作者 闫循良 王宽 +1 位作者 张子剑 王培臣 《系统工程与电子技术》 北大核心 2025年第1期268-279,共12页
针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LST... 针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。 展开更多
关键词 再入滑翔制导 强化学习 深度确定性策略梯度 长短期记忆网络
在线阅读 下载PDF
DoS攻击下基于APF和DDPG算法的无人机安全集群控制
3
作者 林柄权 刘磊 +1 位作者 李华峰 刘晨 《计算机应用》 北大核心 2025年第4期1241-1248,共8页
针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集... 针对拒绝服务(DoS)攻击下无人机(UAV)通信阻塞、运动轨迹不可预测的问题,在人工势场法(APF)和深度确定性策略梯度(DDPG)融合框架下研究DoS攻击期间的多UAV安全集群控制策略。首先,使用Hping3对所有UAV进行DoS攻击检测,以实时确定UAV集群的网络环境;其次,当未检测到攻击时,采用传统的APF进行集群飞行;再次,在检测到攻击后,将被攻击的UAV标记为动态障碍物,而其他UAV切换为DDPG算法生成的控制策略;最后,所提框架实现APF和DDPG的协同配合及优势互补,并通过在Gazebo中进行仿真实验验证DDPG算法的有效性。仿真实验结果表明,Hping3能实时检测出被攻击的UAV,且其他正常UAV切换为DDPG算法后能稳定避开障碍物,从而保障集群安全;在DoS攻击期间,采用切换避障策略的成功率为72.50%,远高于传统APF的31.25%,且切换策略逐渐收敛,表现出较好的稳定性;训练后的DDPG避障策略具有一定泛化性,当环境中出现1~2个未知障碍物时仍能稳定完成任务。 展开更多
关键词 无人机集群 人工势场法 深度确定性策略梯度 切换策略 网络安全
在线阅读 下载PDF
基于角度特征的分布式DDPG无人机追击决策
4
作者 王昱 任田君 +1 位作者 范子琳 孟光磊 《控制理论与应用》 北大核心 2025年第7期1356-1366,共11页
无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以... 无人机执行追击任务过程中态势变化迅速,不灵活的网络更新机制和固化的奖励函数使得现有决策模型难以持续输出正确且高效的策略.针对此问题,提出了一种基于角度特征的分布式深度确定性策略梯度(DDPG)算法.首先,为避免梯度消失或爆炸以稳定模型训练过程,提出先利用梯度上升计算目标值,再使用MSE损失函数训练的Actor网络更新机制;然后,依据双方角度特征划分策略引导区域,通过设置不同的奖励函数权重,构建基于5个DDPG网络的分布式决策模型,利用在不同态势下对奖励函数权重的动态选择和无缝切换提升算法的决策能力.仿真实验表明,相比于DDPG和双延迟深度确定性策略梯度(TD3)算法,所提算法无论追击直线逃逸目标或智能逃逸目标,均具有更高的成功率和决策效率. 展开更多
关键词 追击决策 强化学习 分布式ddpg算法 角度特征
在线阅读 下载PDF
Research on three-dimensional attack area based on improved backtracking and ALPS-GP algorithms of air-to-air missile
5
作者 ZHANG Haodi WANG Yuhui HE Jiale 《Journal of Systems Engineering and Electronics》 2025年第1期292-310,共19页
In the field of calculating the attack area of air-to-air missiles in modern air combat scenarios,the limitations of existing research,including real-time calculation,accuracy efficiency trade-off,and the absence of t... In the field of calculating the attack area of air-to-air missiles in modern air combat scenarios,the limitations of existing research,including real-time calculation,accuracy efficiency trade-off,and the absence of the three-dimensional attack area model,restrict their practical applications.To address these issues,an improved backtracking algorithm is proposed to improve calculation efficiency.A significant reduction in solution time and maintenance of accuracy in the three-dimensional attack area are achieved by using the proposed algorithm.Furthermore,the age-layered population structure genetic programming(ALPS-GP)algorithm is introduced to determine an analytical polynomial model of the three-dimensional attack area,considering real-time requirements.The accuracy of the polynomial model is enhanced through the coefficient correction using an improved gradient descent algorithm.The study reveals a remarkable combination of high accuracy and efficient real-time computation,with a mean error of 91.89 m using the analytical polynomial model of the three-dimensional attack area solved in just 10^(-4)s,thus meeting the requirements of real-time combat scenarios. 展开更多
关键词 air combat three-dimensional attack area improved backtracking algorithm age-layered population structure genetic programming(ALPS-GP) gradient descent algorithm
在线阅读 下载PDF
A UAV collaborative defense scheme driven by DDPG algorithm 被引量:3
6
作者 ZHANG Yaozhong WU Zhuoran +1 位作者 XIONG Zhenkai CHEN Long 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第5期1211-1224,共14页
The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents ... The deep deterministic policy gradient(DDPG)algo-rithm is an off-policy method that combines two mainstream reinforcement learning methods based on value iteration and policy iteration.Using the DDPG algorithm,agents can explore and summarize the environment to achieve autonomous deci-sions in the continuous state space and action space.In this paper,a cooperative defense with DDPG via swarms of unmanned aerial vehicle(UAV)is developed and validated,which has shown promising practical value in the effect of defending.We solve the sparse rewards problem of reinforcement learning pair in a long-term task by building the reward function of UAV swarms and optimizing the learning process of artificial neural network based on the DDPG algorithm to reduce the vibration in the learning process.The experimental results show that the DDPG algorithm can guide the UAVs swarm to perform the defense task efficiently,meeting the requirements of a UAV swarm for non-centralization,autonomy,and promoting the intelligent development of UAVs swarm as well as the decision-making process. 展开更多
关键词 deep deterministic policy gradient(ddpg)algorithm unmanned aerial vehicles(UAVs)swarm task decision making deep reinforcement learning sparse reward problem
在线阅读 下载PDF
基于深度强化学习CLPER-DDPG的车辆纵向速度规划 被引量:1
7
作者 柳鹏 赵克刚 +1 位作者 梁志豪 叶杰 《汽车安全与节能学报》 CAS CSCD 北大核心 2024年第5期702-710,共9页
为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训... 为了解决车辆纵向速度规划任务中规划器不易收敛以及在多场景之间切换时稳定性差的问题,基于多层感知机设计了车辆纵向速度规划器,构建了结合优先经验回放机制和课程学习机制的深度确定性策略梯度算法。该文设计了仿真场景进行模型的训练和测试,并对深度确定性策略梯度(DDPG)、结合优先经验回放机制的深度确定性策略梯度(PER-DDPG)、结合优先经验回放机制和课程学习机制的深度确定性策略梯度(CLPER-DDPG)3种算法进行对比实验,并在园区内的真实道路上进行实车实验。结果表明:相比于DDPG算法,CLPER-DDPG算法使规划器的收敛速度提高了56.45%,距离差均值降低了16.61%,速度差均值降低了15.25%,冲击度均值降低了18.96%。此外,当实验场景的环境气候和传感器硬件等参数发生改变时,模型能保证在安全的情况下完成纵向速度规划任务。 展开更多
关键词 自动驾驶 纵向速度规划 深度确定性策略梯度(ddpg)算法 课程学习机制 优先经验回放机制
在线阅读 下载PDF
基于改进DDPG-PID的芯片共晶键合温度控制 被引量:1
8
作者 刘家池 陈秀梅 邓娅莉 《半导体技术》 CAS 北大核心 2024年第11期973-980,共8页
芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度... 芯片共晶键合对加热过程中的升温速率、保温时间和温度精度要求较高,在使用传统的比例-积分-微分(PID)温度控制方法时,存在响应时间过长、超调量过大、控制温度不够准确等问题。针对共晶加热台的温度控制问题,提出了一种基于改进的深度确定性策略梯度(DDPG)强化学习算法优化PID参数的控制方法,采用分类经验回放的思想,以奖励值大小为标准对经验进行分类存放,根据智能体当前的状态和下一步动作,从相应的经验池中进行采样并训练,并根据PID控制算法的特性设计了合理的奖励函数,改善了强化学习中奖励稀疏的问题,提高了算法的收敛速度与性能。仿真结果表明,与传统PID控制、常规DDPG-PID控制相比,改进DDPG-PID控制缩短了响应时间,降低了超调量,近乎消除了稳态误差,提高了控制性能和系统稳定性。 展开更多
关键词 芯片共晶键合 深度确定性策略梯度(ddpg)算法 强化学习 温度控制 比例-积分-微分(PID)控制
在线阅读 下载PDF
自注意力机制结合DDPG的机器人路径规划研究 被引量:2
9
作者 王凤英 陈莹 +1 位作者 袁帅 杜利明 《计算机工程与应用》 CSCD 北大核心 2024年第19期158-166,共9页
为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能... 为更好解决深度确定性策略梯度算法在路径规划中存在样本利用率低、奖励稀疏、网络模型稳定速度慢等问题,提出了一种改进DDPG的算法。通过对机器人相机传感器获取图片信息加入自注意力机制,利用Dotproduct方法计算图片之间的相关性,能够将较高权重精确聚焦在障碍物信息中。在复杂环境中,由于机器人缺乏经验导致难以获得正反馈的奖励,影响了机器人的探索能力。将DDPG算法与HER结合,提出DDPG-HER算法,有效利用正负反馈使机器人从成功和失败的经历中均可学习到适当奖励。通过Gazebo搭建静态和动态仿真环境进行训练和测试,实验结果表明所提出的算法能显著提高样本利用率,加快网络模型稳定的速度,解决奖励稀疏的问题,使机器人在环境未知的路径规划中能够高效地避开障碍物到达目标点。 展开更多
关键词 深度强化学习 深度确定性策略梯度算法(ddpg) 后见经验算法(HER) 自注意力机制 机器人路径规划
在线阅读 下载PDF
基于DDPG的锅炉NO_(x)排放和屏式过热器超温的多目标优化 被引量:1
10
作者 王赫阳 刘骁 +2 位作者 樊昱晨 刘欣 张超群 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2024年第8期787-797,共11页
锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略... 锅炉空气分级燃烧技术的使用虽降低了NO_(x)排放,但同时造成了炉内高温火焰上移,导致位于炉膛上部的屏式过热器吸热量增加和超温加剧,影响机组的安全运行.因此,锅炉亟需一个可对NO_(x)排放和屏式过热器超温进行协调优化的多目标控制策略.针对目前基于机器学习的锅炉优化模型普遍局限于针对单一锅炉运行目标的优化,提出了基于深度强化学习的锅炉多目标优化模型,包括预测模型和优化模型:预测模型采用深度神经网络构建锅炉运行参数与NO_(x)浓度和屏式过热器温度的非线性映射;优化模型采用深度确定性策略梯度(DDPG)算法训练策略网络,通过优化运行参数实现锅炉的多目标协同控制.对某600MW锅炉的研究结果表明,通过锅炉配风和过热器减温水量等参数的调整,可实现NO_(x)排放和屏式过热器超温率的协同优化,NO_(x)排放平均降低22.6 mg/m^(3),屏式过热器超温率平均降低0.161. 展开更多
关键词 燃煤锅炉 NO_(x)排放 屏式过热器 多目标优化 深度确定性策略梯度
在线阅读 下载PDF
基于轨迹预测和分布式MADDPG的无人机集群追击决策 被引量:1
11
作者 王昱 关智慧 李远鹏 《计算机应用》 CSCD 北大核心 2024年第11期3623-3628,共6页
针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通... 针对复杂任务环境下无人机(UAV)集群追击决策算法灵活性不足、泛化能力差等问题,提出一种基于轨迹预测的分布式多智能体深度确定性策略梯度(TP-DMADDPG)算法。首先,为增强追击任务的真实性,为目标机设计智能化逃逸策略;其次,考虑到因通信中断等原因导致的目标机信息缺失等情况,采用长短时记忆(LSTM)网络实时预测目标机的位置信息,并基于预测信息构建决策模型的状态空间;最后,依据分布式框架和多智能体深度确定性策略梯度(MADDPG)算法设计TP-DMADDPG算法,增强复杂空战进程中集群追击决策的灵活性和泛化能力。仿真实验结果表明,相较于深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)和MADDPG算法,TP-DMADDPG算法将协同决策的成功率提升了至少15个百分点,能够解决不完备信息下追击智能化逃逸目标机的问题。 展开更多
关键词 集群追击 轨迹预测 分布式决策 多智能体 强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
D2D通信增强的蜂窝网络中基于DDPG的资源分配 被引量:1
12
作者 唐睿 庞川林 +2 位作者 张睿智 刘川 岳士博 《计算机应用》 CSCD 北大核心 2024年第5期1562-1569,共8页
针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为... 针对终端直通(D2D)通信增强的蜂窝网络中存在的同频干扰,通过联合调控信道分配和功率控制最大化D2D链路和速率,并同时满足功率约束和蜂窝链路的服务质量(QoS)需求。为有效求解上述资源分配所对应的混合整数非凸规划问题,将原问题转化为马尔可夫决策过程,并提出一种基于深度确定性策略梯度(DDPG)算法的机制。通过离线训练,直接构建了从信道状态信息到最佳资源分配策略的映射关系,而且无需求解任何优化问题,因此可通过在线方式部署。仿真结果表明,相较于遍历搜索机制,所提机制在仅损失9.726%性能的情况下将运算时间降低了4个数量级(99.51%)。 展开更多
关键词 终端直通通信 资源分配 马尔可夫决策过程 深度强化学习 深度确定性策略梯度算法
在线阅读 下载PDF
基于DDPG改进PID算法的堆肥翻堆作业反馈控制
13
作者 王悦辰 王纪章 +1 位作者 茆寒 姚承志 《中国农机化学报》 北大核心 2024年第6期184-190,200,共8页
在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业... 在农业废弃物堆肥发酵过程中物料的含水率会发生变化,导致翻堆作业负荷的变化。而现有的翻堆作业主要通过人工操作,导致机器作业过程中作业效率低,容易产生故障。针对人工操作翻堆机作业时出现调控不精准的问题,通过试验构建翻堆机作业负荷与翻堆物料含水率、翻堆机行走速度关系模型,并结合翻堆机变频调速控制模型,利用DDPG(Deep Deterministic Policy Gradient)改进PID算法对翻堆作业调速系统进行优化控制。经过Simulink仿真结果表明,DDPG改进PID算法相比传统PID算法在超调量上减少6.7%,调节时间减少2.5 s,并且抗扰动与跟随性能均更优。翻堆作业现场测试结果表明:DDPG改进PID算法的控制方式相比传统PID算法超调量要降低4%、调节时间减少2 s,相比人工控制其调节时间减少6 s。 展开更多
关键词 堆肥 翻堆 PID控制 反馈控制 ddpg算法
在线阅读 下载PDF
Space-borne antenna adaptive anti-jamming method based on gradient-genetic algorithm 被引量:2
14
作者 Tao Haihong Liao Guisheng Yu Jiang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2007年第3期469-475,共7页
A novel space-borne antenna adaptive anti-jamming method based on the genetic algorithm (GA), which is combined with gradient-like reproduction operators is presented, to search for the best weight for pattern synth... A novel space-borne antenna adaptive anti-jamming method based on the genetic algorithm (GA), which is combined with gradient-like reproduction operators is presented, to search for the best weight for pattern synthesis in radio frequency (RF). Combined, the GA's the capability of the whole searching is, but not limited by selection of the initial parameter, with the gradient algorithm's advantage of fast searching. The proposed method requires a smaller sized initial population and lower computational complexity. Therefore, it is flexible to implement this method in the real-time systems. By using the proposed algorithm, the designer can efficiently control both main-lobe shaping and side-lobe level. Simulation results based on the spot survey data show that the algorithm proposed is efficient and feasible. 展开更多
关键词 space-borne antenna genetic algorithm (GA) gradient-like ANTI-JAMMING pattern synthesis.
在线阅读 下载PDF
基于改进DDPG的变速抽蓄机组参与系统调频研究 被引量:1
15
作者 劳文洁 史林军 +3 位作者 王伟 杨冬梅 吴峰 林克曼 《太阳能学报》 EI CAS CSCD 北大核心 2024年第3期240-250,共11页
在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频... 在挖掘双馈型抽水蓄能(DFIM-PSH)机组调频能力的基础上,提出一种基于改进深度确定性策略梯度(DDPG)算法的系统频率控制方法。首先,基于所确定的DFIM-PSH机组在发电与抽水工况下的频率控制环节,构建考虑风电接入的含DFIMPSH单区域系统频率控制模型。其次,在考虑机组运行约束的基础上以最小化系统频率偏差及调频出力为目标,引入DDPG算法对各机组的AGC控制指令进行优化。通过在预学习中同时引入随机外部扰动与模型参数变化,提高AGC控制器在具有强不确定性环境中的适应性。最后,在仿真验证DFIM-PSH调频优势的基础上,在不同风电接入及扰动等多场景进行仿真分析,结果表明,所提频率控制方法能有效改善新型电力系统的频率特性且具有强鲁棒性。 展开更多
关键词 抽水蓄能机组 鲁棒性(控制系统) 频率控制 深度确定性策略梯度算法 新型电力系统
在线阅读 下载PDF
基于DDPG的综合化航电系统多分区任务分配优化方法 被引量:2
16
作者 赵长啸 李道俊 +1 位作者 汪鹏辉 田毅 《电讯技术》 北大核心 2024年第1期58-66,共9页
综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学... 综合化航电系统(Integrated Modular Avionics,IMA)通过时空分区机制实现共享资源平台下的多航电功能集成,分区间的任务分配方法的优劣决定着航电系统的整体效能。针对航电任务集合在多分区内的分配调度问题,提出了一种基于深度强化学习的优化方法。构建了航电系统模型与任务模型,以系统资源限制与任务实时性需求为约束,以提高系统资源利用率为优化目标,将任务分配过程描述为序贯决策问题。引入马尔科夫决策模型,建立基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)法的IMA任务分配模型并提出通用分配架构;引入状态归一化、行为噪声等策略训练技巧,提高DDPG算法的学习性能和训练能力。仿真结果表明,提出的优化算法迭代次数达到500次时开始收敛,分析800次之后多分区内驻留任务方案在能满足约束要求的同时,最低处理效率提升20.55%。相较于传统分配方案和AC(Actor-Critic)算法,提出的DDPG算法在收敛能力、优化性能以及稳定性上均有显著优势。 展开更多
关键词 综合模块化航空电子系统(IMA) 任务分配及调度 深度强化学习 ddpg算法
在线阅读 下载PDF
衰减高斯噪声DDPG算法的机械臂轨迹规划
17
作者 周雨溪 赵慧 韩晓峰 《农业装备与车辆工程》 2024年第10期111-118,共8页
针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪... 针对农业采摘机械臂的DDPG算法轨迹规任务中,调查了因高斯噪声标准差取值不当导致的强化学习训练失败问题,提出一种衰减正态噪声的DDPG算法,使高斯标准差σ随训练回合数增加而减小;利用Mujoco物理引擎进行多次仿真训练,验证衰减正态噪声相较于传统正态噪声在轨迹规划任务中的优势。结果表明,改进后的算法在完成采摘机械臂的轨迹规划任务时更为有效,成功解决了存在的问题。 展开更多
关键词 强化学习 ddpg算法 正态噪声 机械臂 轨迹规划
在线阅读 下载PDF
基于MADDPG的多阵面相控阵雷达引导搜索资源优化算法
18
作者 王腾 黄俊松 +2 位作者 王乐庭 张才坤 李枭扬 《计算机工程》 CAS CSCD 北大核心 2024年第11期38-48,共11页
针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最... 针对传统单阵面雷达搜索资源优化算法在复杂多阵面场景下的参数求解困难问题,提出一种基于多智能体深度确定性策略梯度(MADDPG)的多阵面雷达搜索资源优化算法。考虑多阵面相控阵雷达场景约束,结合机载雷达实际搜索任务需求,建立基于最大目标平均积累期望发现概率的多阵面雷达搜索资源优化模型。分别设计多智能体局部及全局观测空间和带折扣因子的复合奖励函数,基于执行者-评论者(Actor-Critic)算法结构,通过各智能体策略网络在线更新各雷达阵面搜索资源分配系数实现上述模型参数的优化求解。仿真结果表明,该算法能够根据空域-目标覆盖情况及各目标威胁权系数迅速作出精确的自主决策,在多阵面相控阵雷达搜索资源优化场景下的表现显著优于传统算法。 展开更多
关键词 多阵面相控阵雷达 雷达搜索资源优化 多智能体深度强化学习 深度确定性策略梯度 集群目标雷达引导搜索
在线阅读 下载PDF
基于深度强化学习的停机位分配
19
作者 向征 吴秋玥 +1 位作者 储同 岳伊杨 《科学技术与工程》 北大核心 2025年第16期6977-6984,共8页
针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间... 针对停机位分配问题展开系统研究,目标是最小化远机位分配数量以及近机位空闲时间,针对其多目标多约束特性,提出以最小远机位分配数量和最小近机位空闲时间为目标的多目标数学模型,该模型考虑了航班进出港实际时间、机型类别及停机位间相互关系等参数。结合深度强化学习方法,特别是深度确定性策略梯度算法(deep deterministic policy gradient,DDPG),对停机位分配过程进行优化。为提升算法的寻优能力与性能,设计了改进后的DDPG算法,融入优先级经验回放和多策略融合探索机制。通过对比实验,表明改进后的算法更优,显著减少了最小远机位分配数量并优化了近机位空闲时间,且收敛更快、全局寻优能力更强,充分证实了其有效性。 展开更多
关键词 停机位分配 深度学习 强化学习 深度确定性策略梯度算法(ddpg)
在线阅读 下载PDF
基于超参数优化和误差修正的STAGN超短期风电功率预测 被引量:1
20
作者 潘超 王超 +1 位作者 孙惠 孟涛 《电力系统保护与控制》 北大核心 2025年第8期117-129,共13页
针对风电功率预测模型的数据关联性与误差修正适应性问题,提出基于超参数优化和误差修正单元切换的超短期风电功率预测方法。首先,构建时空注意力门控网络预测模型,利用改进开普勒算法进行超参数优化。然后,考虑风电场数据与预测误差之... 针对风电功率预测模型的数据关联性与误差修正适应性问题,提出基于超参数优化和误差修正单元切换的超短期风电功率预测方法。首先,构建时空注意力门控网络预测模型,利用改进开普勒算法进行超参数优化。然后,考虑风电场数据与预测误差之间的非线性关联,构建误差修正自适应单元。同时挖掘风速时序变化特征,构建深度学习单元。在此基础上,提出基于风速矩阵梯度的误差修正单元切换策略。最后,将模型应用于实际风场的功率预测并与其他模型对比分析。结果表明,所提方法在预测精度上优于其他方法,且在风速复杂多变的风场仍具有较高预测精度,验证了所提方法的准确性和适用性。 展开更多
关键词 超短期风电功率预测 改进开普勒算法 误差修正 风速矩阵梯度
在线阅读 下载PDF
上一页 1 2 72 下一页 到第
使用帮助 返回顶部