期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
1
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 策略优化算法 强化学习
在线阅读 下载PDF
基于近端策略优化算法的燃料电池混合动力系统综合价值损耗最小能量管理方法 被引量:5
2
作者 李奇 刘鑫 +4 位作者 孟翔 谭逸 杨明泽 张世聪 陈维荣 《中国电机工程学报》 EI CSCD 北大核心 2024年第12期4788-4798,I0015,共12页
为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的... 为了降低市域动车组燃料电池混合动力系统运行燃料经济成本,提升燃料电池耐久性,该文提出一种基于近端策略优化算法的能量管理方法。该方法将混合动力系统能量管理问题建模为马尔可夫决策过程,以综合考虑燃料经济性和燃料电池耐久性的综合价值损耗最小为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法—近端策略优化算法求解,实现负载功率在燃料电池和锂电池间的合理有效分配,最后,采用市域动车组实际运行工况进行实验验证。实验结果表明,在训练工况下,所提方法相较基于等效氢耗最小能量管理方法和基于Q-learning能量管理方法,综合价值损耗分别降低19.71%和5.87%;在未知工况下,综合价值损耗分别降低18.05%和13.52%。结果表明,所提方法能够有效降低综合价值损耗,并具有较好的工况适应性。 展开更多
关键词 燃料电池混合动力系统 深度强化学习 综合价值损耗 策略优化算法 能量管理
在线阅读 下载PDF
基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度 被引量:3
3
作者 王桂兰 张海晓 +1 位作者 刘宏 曾康为 《计算机应用研究》 CSCD 北大核心 2024年第5期1508-1514,共7页
为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添... 为了实现园区综合能源系统(PIES)的低碳化经济运行和多能源互补,解决碳捕集装置耗电与捕碳需求之间的矛盾,以及不确定性源荷实时响应的问题,提出了基于近端策略优化算法含碳捕集的综合能源系统低碳经济调度方法。该方法通过在PIES中添加碳捕集装置,解决了碳捕集装置耗电和捕碳需求之间的矛盾,进而实现了PIES的低碳化运行;通过采用近端策略优化算法对PIES进行动态调度,解决了源荷的不确定性,平衡了各种能源的供给需求,进而降低了系统的运行成本。实验结果表明:该方法实现了不确定性源荷的实时响应,并相比于DDPG(deep deterministic policy gradient)和DQN(deep Q network)方法在低碳化经济运行方面具有有效性及先进性。 展开更多
关键词 园区综合能源系统 碳捕集 不确定性 低碳经济调度 策略优化算法
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
4
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
基于近端策略优化算法的新能源电力系统安全约束经济调度方法 被引量:21
5
作者 杨志学 任洲洋 +3 位作者 孙志媛 刘默斯 姜晶 印月 《电网技术》 EI CSCD 北大核心 2023年第3期988-997,共10页
针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫... 针对高比例新能源接入导致电力系统安全约束经济调度难以高效求解的问题,该文提出了一种基于近端策略优化算法的安全约束经济调度方法。首先,建立了新能源电力系统安全约束经济调度模型。在深度强化学习框架下,定义了该模型的马尔科夫奖励过程。设计了近端策略优化算法的奖励函数机制,引导智能体高效生成满足交流潮流以及N-1安全约束的调度计划。然后,设计了调度模型与近端策略优化算法的融合机制,建立了调度训练样本的生成与提取方法以及价值网络和策略网络的训练机制。最后,采用IEEE 30节点和IEEE 118节点2个标准测试系统,验证了本文提出方法的有效性和适应性。 展开更多
关键词 安全约束经济调度 深度强化学习 策略优化算法 新能源
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:2
6
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 策略优化算法
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:1
7
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 策略优化(PPO)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于近端优化的永磁同步电机温度预测方法 被引量:2
8
作者 岑岗 张晨光 +2 位作者 岑跃峰 马伟锋 赵澄 《汽车技术》 CSCD 北大核心 2021年第3期26-32,共7页
为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Act... 为了精准有效地实现永磁同步电机的温度预测,提出了一种基于近端策略优化(PPO)算法和强化学习(RL)网络的永磁同步电机温度预测模型,即PPO-RL模型,利用PPO算法定义模型训练的损失目标函数,选择Nadam算法作为模型优化器,通过强化学习的Actor-Critic框架最小化损失目标函数,进而完成模型的迭代训练。采用Kaggle公开的永磁同步电机测量数据集进行试验,结果表明,与指数加权移动平均法、循环神经网络和长短期记忆网络相比,PPO-RL模型具有更高的预测精度和可靠性。 展开更多
关键词 永磁同步电机 温度预测 策略优化算法 强化学习
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
9
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 策略优化算法
在线阅读 下载PDF
基于生成对抗网络修正的源网荷储协同优化调度
10
作者 谢桦 李凯 +3 位作者 郄靖彪 张沛 王珍意 路学刚 《中国电机工程学报》 北大核心 2025年第5期1668-1679,I0003,共13页
大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节... 大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节资源的运行特性,构建基于近端策略优化(proximal policy optimization,PPO)算法的源网荷储协同优化调度模型;其次,引入GAN对PPO算法的优势函数进行修正,减少价值函数的方差,提高智能体探索效率;然后,GAN中的判别器结合专家策略指导生成器生成调度策略;最后,判别器与生成器不断对抗寻找纳什均衡点,得到优化调度策略。算例分析表明,设计的源网荷储协同的日内优化调度策略,采用GAN修正的PPO算法,相较于传统的PPO算法缩短了训练过程的收敛时间,在线控制提升了可再生能源消纳能力。 展开更多
关键词 源网荷储协同 生成对抗网络 策略优化算法 优化调度 可再生能源消纳
在线阅读 下载PDF
面向OODA作战流程的防空火力网端对端智能构建算法 被引量:1
11
作者 罗雨雨 丁伟 +4 位作者 明振军 李传浩 王国新 阎艳 王玉茜 《兵工学报》 EI CAS CSCD 北大核心 2024年第12期4231-4245,共15页
针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防... 针对防空战场环境下目标数量多、装备协同难、体系反应拙的问题,提出一种面向侦测-整编-决策-打击(Observe-Orient-Decide-Act,OODA)作战流程的防空火力网端对端智能构建算法。围绕OODA作战流程,构建由情报网、指控网和火力网组成的防空体系框架,并基于此框架着力解决影响战场胜负关键的火力网智能构建;将拦截武器损毁目标建模为马尔可夫决策过程,并给出相应的状态空间、动作空间与奖励策略等;在此基础上,通过对标准端对端近端策略优化算法进行改进,提高模型精度和减少训练时间。以某防空反导联合区域作战场景为例,开展所提算法的评估验证。实验结果表明:所提方法相比于规则和启发式算法能够快速准确地生成防空火力网设计方案,尤其在同等大规模作战场景中的计算效率和作战成本方面具有更突出的优势,为作战体系全流程的杀伤网构建提供了基础。 展开更多
关键词 防空火力网 改进策略优化算法 OODA作战流程 战场态势 训练
在线阅读 下载PDF
信息年龄约束下的无人机数据采集能耗优化路径规划算法 被引量:2
12
作者 高思华 刘宝煜 +3 位作者 惠康华 徐伟峰 李军辉 赵炳阳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第10期4024-4034,共11页
信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过... 信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过快产生非必要能耗,造成数据采集任务失败。针对该问题,该文首先提出信息年龄约束的无人机数据采集能耗优化路径规划问题并进行数学建模;其次,设计一种协同混合近端策略优化(CH-PPO)强化学习算法,同时规划无人机对传感器节点或基站的访问次序、悬停位置和飞行速度,在满足各传感器节点信息年龄约束的同时,最大限度地减少无人机能量消耗。再次,设计一种融合离散和连续策略的损失函数,增强CH-PPO算法动作的合理性,提升其训练效果。仿真实验结果显示,CH-PPO算法在无人机能量消耗以及影响该指标因素的比较中均优于对比的3种强化学习算法,并具有良好的收敛性、稳定性和鲁棒性。 展开更多
关键词 无线传感器网络 信息年龄约束 协同混合策略优化算法 无人机路径规划 深度强化学习
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题
13
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于掩码式PPO算法的航空发动机维修决策研究
14
作者 陈保利 翟运开 +3 位作者 房晓敏 付捧枝 蔚陶 林志龙 《机械设计》 北大核心 2025年第6期101-106,共6页
航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航... 航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航空发动机视情维修策略的决策过程提供优化方案。通过构建航空发动机退化状态仿真模型,掩码式PPO算法根据航空发动机不同的退化程度自适应地确定最佳的维修策略。与传统PPO算法相比,掩码式PPO算法在训练过程中表现出更快的收敛速度,能够更有效地控制发动机整个服役周期内的维修成本,进一步验证了航空发动机视情维修策略与掩码式PPO算法结合是一种提升维修决策水平的有效方法。 展开更多
关键词 策略优化算法 马尔可夫决策过程 深度强化学习 视情维修策略
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:4
15
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 近端优化算法 自适应PID整定 机械臂 多智能体
在线阅读 下载PDF
基于PPO算法优化的IoT环境温度预测研究 被引量:3
16
作者 朱广 霍跃华 +1 位作者 栾庆磊 史艳琼 《传感器与微系统》 CSCD 北大核心 2021年第4期33-36,共4页
针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双... 针对现有物联网(IoT)环境温度预测方法存在的预测精度低以及预测结果存在滞后性的问题,提出了一种基于优化的近端策略优化(PPO)算法和AC(Actor-Critic)网络的IoT环境温度预测模型(PPO-AC)。模型结合AC强化学习网络构建用于温度预测的双网络模型,并采用优化的PPO算法动态选择损失函数。最后,采用Kaggle数据平台提供的IoT环境温度数据集,通过实验验证了该模型的有效性和稳定性。 展开更多
关键词 物联网(IoT) 策略优化(PPO)算法 AC(Actor-Critic)网络 温度预测
在线阅读 下载PDF
面向无人机集群察打场景的PPO算法设计 被引量:1
17
作者 李俊慧 张振华 +2 位作者 边疆 聂天常 车博山 《火力与指挥控制》 CSCD 北大核心 2024年第3期25-34,共10页
无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任... 无人机集群决策问题是智能化战争的重要研究方向。以构建的典型无人机集群侦察打击的任务场景为例,研究复杂不确定条件下的无人机集群任务分配与运动规划问题。针对该问题,从战场环境模型参数化设计与典型集群侦察打击任务角度,阐述任务决策的复杂性与战场环境不确定性。设计通用性较强的状态空间、奖励函数、动作空间和策略网络,其中,为捕捉多元态势信息,设计并处理了多种类型特征作为状态空间,同时设计与察打任务紧密相关的多种类型奖励;动作策略输出采取主谓宾的形式,更好表达复杂操作;策略网络设计了编码器-时序聚合-注意力机制-解码器结构,充分融合特征信息,促进了训练效果。基于近端策略优化算法(proximal policy optimization,PPO)的深度强化学习(deep reinforcement learning,DRL)进行求解。最后,通过仿真环境实验验证了无人机集群在复杂不确定条件下实现察打任务决策的可行性和有效性,展现了集群任务分配与运动规划的智能性。 展开更多
关键词 策略优化算法设计 任务分配 运动规划 侦察打击 决策
在线阅读 下载PDF
基于PPO的异构UUV集群任务分配算法 被引量:2
18
作者 董经纬 姚尧 +2 位作者 冯景祥 李亚哲 尤岳 《舰船科学技术》 北大核心 2024年第12期84-89,共6页
无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,... 无人水下航行器(Unmanned Underwater Vehicle,UUV)集群的任务分配问题是UUV集群形成水下功能的重要问题之一,但是,受限于通信以及探测能力,UUV在水下只能获取有限的信息,不能得到很好的应用。提出一种基于深度强化学习的任务分配算法,针对水下信息缺失、奖励稀少的问题,在近端策略优化算法的基础上加入Curiosity模块,给智能体一种减小环境中不确定性的期望,鼓励UUV探索环境中不可预测的部分,实现UUV集群的最优任务分配。最后的仿真实验表明,相较于传统智能算法,该方法收敛更快,可靠性更强。 展开更多
关键词 任务分配 策略优化算法 集群
在线阅读 下载PDF
基于PPO算法的集群多目标火力规划方法
19
作者 秦湖程 黄炎焱 +1 位作者 陈天德 张寒 《系统工程与电子技术》 EI CSCD 北大核心 2024年第11期3764-3773,共10页
针对高动态战场态势下防御作战场景中的多目标火力规划问题,提出一种基于近端策略优化算法的火力规划方法,以最大化作战效能为目标,从弹药消耗、作战效果、作战成本及作战时间4个方面设计强化学习奖励函数。考虑历史决策序列对当前规划... 针对高动态战场态势下防御作战场景中的多目标火力规划问题,提出一种基于近端策略优化算法的火力规划方法,以最大化作战效能为目标,从弹药消耗、作战效果、作战成本及作战时间4个方面设计强化学习奖励函数。考虑历史决策序列对当前规划的影响,以长短期记忆网络(long short-term memory,LSTM)为核心,基于Actor-Critic框架设计神经网络,使用近端策略优化算法训练网络,利用训练好的强化学习智能体进行序贯决策,根据多个决策阶段的态势实时生成一系列连贯火力规划方案。仿真结果表明,智能体能够实现高动态态势下多目标火力规划,其计算效率相对于其他算法具有更明显的优势。 展开更多
关键词 多目标火力规划 策略优化算法 长短期记忆网络 序贯决策
在线阅读 下载PDF
基于强化学习的舰载机着舰直接升力控制技术 被引量:1
20
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 策略优化算法 直接升力控制 UDP通信
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部