期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
1
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
2
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
时序记忆深度强化学习自抗扰微网稳压控制
3
作者 周雪松 李锦涛 +3 位作者 马幼捷 陶珑 刘文进 雷上诗 《电机与控制学报》 北大核心 2025年第10期138-147,158,共11页
针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型... 针对直流微网内部功率不平衡引发的母线电压不确定性波动问题,提出一种考虑时序记忆的深度强化学习自抗扰控制策略(LSTM-PPO-LADRC)。首先,通过分析微网电压控制问题建立储能变换器的数学模型和符合马尔可夫决策过程的深度强化学习模型;其次,基于长短期记忆循环神经网络(LSTM)分别设计近端策略优化(PPO)算法的动作网络与价值网络结构,详细梳理改进算法的数据驱动与执行过程,并对算法的收敛性进行理论分析;然后,根据所建立的深度强化学习动作空间模型设计适配LSTM-PPO-LADRC的线性扩张状态观测器(LESO),并将预训练好的智能体接入控制系统,实现LESO动态可调参数的自适应决策调整;最后,在仿真平台进行测试,得到多种工况下不同控制策略的动态响应曲线,验证LSTM-PPO-LADRC的可行性与优越性。 展开更多
关键词 直流微网 储能变换器 自抗扰控制 深度强化学习 近端策略优化算法 长短期记忆网络
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
4
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 近端策略优化 优先级 两阶段
在线阅读 下载PDF
基于深度强化学习的离散状态转移算法求解柔性作业车间调度问题 被引量:1
5
作者 朱家政 王聪 +2 位作者 李新凯 董颖超 张宏立 《北京航空航天大学学报》 北大核心 2025年第4期1385-1394,共10页
柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到... 柔性作业车间调度问题(FJSP)作为一种在实际生活中应用广泛的调度问题,对其智能算法具有重要价值。为了解决FJSP,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化的离散状态转移算法(DSTA-PPO)。DSTA-PPO具有3个特点:考虑到FJSP需要同时对工序排序、机器分配同时进行调度安排,结合工序编码和机器编码,设计了一种能够充分表达当前调度问题的状态特征;针对工序排序、机器分配设计了多种基于关键路径的搜索操作;通过强化学习的训练,能够有效地引导智能体选择正确的搜索操作优化当前的调度序列。通过基于不同数据集的仿真实验,验证了算法各环节的有效性,同时在相同算例上以最小化最大完工时间为对比指标与现有算法进行了比较,对比结果表明了所提算法能够在多数算例上以更短的完工时间对算例完成求解,有效地求解了柔性作业车间调度问题。 展开更多
关键词 深度学习 强化学习 离散状态转移算法 近端策略优化算法 柔性作业车间调度
在线阅读 下载PDF
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
6
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 近端策略优化算法 强化学习
在线阅读 下载PDF
基于强化学习的舰载机着舰直接升力控制技术 被引量:2
7
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 近端策略优化算法 直接升力控制 UDP通信
在线阅读 下载PDF
基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略 被引量:1
8
作者 卢昱宏 范培潇 +1 位作者 杨军 李蕊 《电力自动化设备》 北大核心 2025年第10期135-143,共9页
随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚... 随着电动汽车数量的快速增长,其作为有限挂网储能设备参与电网调控的潜力备受关注,但用户行为的随机性与时空移动性给车网互动带来了挑战。为此,提出一种基于近端策略优化算法的含电动汽车孤岛微电网智能频率控制策略。构建包含广义聚合电动汽车充电站的微电网负荷频率控制框架;基于闵可夫斯基求和方式,提出两阶段电动汽车充电站的可调控裕度计算方法;通过重要性采样比率剪切、多步经验回放、小批量优化等方式提升算法训练效率,并通过设计状态与动作空间、奖励函数以及选取合适超参数完成频率控制器的构建。仿真结果表明,所设计的控制器在训练时间和控制效果方面显著优于传统频率控制方法,为微电网的稳定运行提供了有力的技术支持。 展开更多
关键词 电动汽车 孤岛微电网 频率控制 近端策略优化算法 闵可夫斯基求和
在线阅读 下载PDF
基于状态空间扩展的深度强化学习混合流水车间调度
9
作者 汤怀钰 王聪 +2 位作者 张宏立 马萍 董颖超 《组合机床与自动化加工技术》 北大核心 2025年第4期195-200,共6页
针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规... 针对混合流水车间调度问题(hybrid flow shop problem, HFSP),以最小化最大完工时间和最小总能耗为求解目标,提出一种基于状态空间扩展的深度强化学习新方法。将状态特征由传统单一方式转变为多特征状态元组,并通过引入新的动作选择规则来优化加工机器的选择。设计了奖励机制为最大加工时间和能耗的负相关,激励系统在调度过程中尽量减少加工时间和总能耗从而更有效地利用资源。通过将PPORL方法应用于不同数据集进行仿真实验,并与现有算法比较,结果表明,所提方法具有更强的稳定性、探索性和泛化能力,显著提高了调度效率和资源利用率,有效地解决了多目标混合流水车间调度问题。 展开更多
关键词 节能减排 混合流水车间调度 深度强化学习 近端策略优化算法
在线阅读 下载PDF
基于PPO的自适应杂交遗传算法求解旅行商问题
10
作者 黄傲 李敏 +3 位作者 曾祥光 潘云伟 张加衡 彭倍 《计算机科学》 北大核心 2025年第S1期212-217,共6页
旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算... 旅行商问题(Traveling Salesman Problem,TSP)是一个经典的组合优化问题,求解难度较大。传统遗传算法在求解旅行商问题时,参数调节过分依赖经验,同时种群多样性过早减少会导致局部收敛,严重影响算法性能。为此,提出一种自适应杂交遗传算法(Adaptive Hybrid Genetic Algorithm,AHGA),采用深度强化学习对遗传算法的关键参数进行自适应调整。首先,构建了以遗传算法为环境的自适应参数调节模型,采用近端策略优化(Proximal Policy Optimization,PPO)算法来生成控制种群进化的动作策略。其次,在传统遗传算法交叉、变异的基础上增加杂交算子,以提高迭代后期种群的多样性。最后,在不同的TSPLIB公共实例中验证算法的效果和性能。结果表明,该算法明显提高了遗传算法的求解质量和收敛速度,有效避免了遗传算法的局部收敛问题,在解决旅行商问题时优于同类算法。 展开更多
关键词 旅行商问题 遗传算法 近端策略优化 杂交算子 参数自适应
在线阅读 下载PDF
高速公路收费站动态车道配置的在线优化方法
11
作者 马飞虎 陈晓燕 +1 位作者 孙翠羽 田星彤 《交通运输系统工程与信息》 北大核心 2025年第5期333-342,共10页
针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目... 针对高速公路收费站车道配置优化问题,本文提出一种基于强化学习的动态车道配置策略。根据车辆通过收费站的交通行为构建高速公路收费站仿真环境,将复杂的车道配置问题转化为考虑收费站运营成本、用户延误和拥堵惩罚的明确量化指标的目标函数,借助强化学习网络训练,动态优化收费站车道资源配置策略。模型能够实时学习并动态调整车道配置,以应对交通流量和模式的动态变化。实验对比了强化学习优化方法与传统离线优化方法,结果表明,PPO(Proximal Policy Optimization)方法在全程平均排队数上降低了12.45%,在平均通过时间的波动范围上缩小了26.94%,PPO算法在减少排队长度和降低通行时间波动方面具有优势,特别是在高峰时段动态车道配置策略展现出更高的适应性和灵活性,提升了收费站的运营效率。 展开更多
关键词 公路运输 车道配置动态优化 强化学习 高速公路收费站 PPO算法
在线阅读 下载PDF
基于近端策略优化算法的船舶横摇运动控制系统与试验研究
12
作者 邹远停 徐文华 焦甲龙 《振动与冲击》 北大核心 2025年第18期140-145,179,共7页
为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案... 为了实现船舶在零航速下的减摇效果,提出了一种基于近端策略优化算法的减摇鳍控制策略,并在拖曳水池中开展了船模零航速减摇试验。首先,建立了S175船模装置及减摇测试系统,制定了基于强迫横摇装置及水池造波模型的横摇运动控制试验方案;然后,通过近端策略优化算法对船舶减摇运动进行学习训练,根据训练得到的决策奖励值实时生成减摇鳍最优拍动角度方案;最后,基于所建立的船舶横摇运动控制的软硬件测试系统,在水池中开展了规则波和不规则波下的船模横摇减摇试验。结果表明,所建立的减摇系统能够使船舶在各类海况下均具有较好的减摇效果。 展开更多
关键词 船舶横摇 零航速 减摇鳍 减摇试验 近端策略优化算法
在线阅读 下载PDF
基于掩码式PPO算法的航空发动机维修决策研究
13
作者 陈保利 翟运开 +3 位作者 房晓敏 付捧枝 蔚陶 林志龙 《机械设计》 北大核心 2025年第6期101-106,共6页
航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航... 航空发动机在服役期间的性能退化会增大运行风险,需要对其不同程度的退化状态开展视情维修策略研究。基于马尔可夫决策过程,研究了一种先进的深度强化学习算法——掩码式近端策略优化算法(proximal policy optimization,PPO),旨在为航空发动机视情维修策略的决策过程提供优化方案。通过构建航空发动机退化状态仿真模型,掩码式PPO算法根据航空发动机不同的退化程度自适应地确定最佳的维修策略。与传统PPO算法相比,掩码式PPO算法在训练过程中表现出更快的收敛速度,能够更有效地控制发动机整个服役周期内的维修成本,进一步验证了航空发动机视情维修策略与掩码式PPO算法结合是一种提升维修决策水平的有效方法。 展开更多
关键词 近端策略优化算法 马尔可夫决策过程 深度强化学习 视情维修策略
在线阅读 下载PDF
基于PPO算法的CIES低碳优化调度方法 被引量:2
14
作者 陈凡 吴凌霄 +2 位作者 王曼 吕干云 张小莲 《电力工程技术》 北大核心 2024年第6期88-99,共12页
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优... 阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。 展开更多
关键词 园区综合能源系统(CIES) 优化调度 近端策略优化(PPO)算法 阶梯式碳交易机制 惩罚系数 碳排放
在线阅读 下载PDF
基于自注意力PPO算法的智能配电网多设备协同无功优化控制策略 被引量:3
15
作者 张黎元 宋兴旺 +3 位作者 李冰洁 梁睿 刘长德 彭奕洲 《智慧电力》 北大核心 2024年第10期40-48,共9页
针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近... 针对智能配电网无功可调控资源多样化场景下的快速趋优难题,提出了一种基于多头自注意力近端策略优化算法的多设备协同无功优化控制方法。首先,将无功优化问题建模为马尔可夫决策过程;然后,在深度强化学习框架下使用多头自注意力改进近端策略优化(PPO)算法对策略网络进行优化训练,算法采用多头自注意力网络获取配电网的实时状态特征,并通过剪切策略梯度法动态控制策略网络的更新幅度;最后,在改进IEEE69节点系统进行仿真验证。结果表明,所提算法的控制性能优于现有先进强化学习算法。 展开更多
关键词 配电网 分布式光伏 电压无功控制 多头自注意力 近端策略优化算法
在线阅读 下载PDF
山区应急供水装备路径规划系统设计与应用 被引量:1
16
作者 李伟 赵晨淞 +5 位作者 袁寿其 李昊明 曹卫东 周岭 朱勇 季磊磊 《排灌机械工程学报》 CSCD 北大核心 2024年第10期1066-1072,共7页
灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization... 灾后救援保障中,应急供水扮演着至关重要的角色.然而,由于山区地形和地貌条件复杂多变,现场指挥调度尤为关键,关系着救援人员能否迅速展开保障装备进行应急供水作业.文中基于多智能体强化学习(multi-agent proximal policy optimization,MAPPO)算法进行了路径规划系统的设计,并进行了试验仿真验证,根据奖励图结果确认该路径规划系统的可行性,并实现系统运行可视化,证明该路径规划系统可以初步满足山区应急供水装备路径规划需求.在此基础上,结合Mask2Former图像分割模型优化山区应急供水装备路径规划系统,将地物信息输出结果和路径规划结果相结合,有效避免了单一路径规划算法在受到环境影响时结果波动较大的问题,提高了路径规划的鲁棒性和可靠性.将该路径规划系统集成至山区应急供水装备指挥平台,以解决山区应急供水路径规划问题,为山区应急供水装备的实际运行提供了有力支持. 展开更多
关键词 路径规划 应急供水 强化学习 指挥调度 多智能体强化学习算法
在线阅读 下载PDF
信息年龄约束下的无人机数据采集能耗优化路径规划算法 被引量:4
17
作者 高思华 刘宝煜 +3 位作者 惠康华 徐伟峰 李军辉 赵炳阳 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第10期4024-4034,共11页
信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过... 信息年龄(AoI)是评价无线传感器网络(WSN)数据时效性的重要指标,无人机辅助WSN数据采集过程中采用优化飞行轨迹、提升速度等运动策略保障卸载至基站的数据满足各节点AoI限制。然而,不合理的运动策略易导致无人机因飞行距离过长、速度过快产生非必要能耗,造成数据采集任务失败。针对该问题,该文首先提出信息年龄约束的无人机数据采集能耗优化路径规划问题并进行数学建模;其次,设计一种协同混合近端策略优化(CH-PPO)强化学习算法,同时规划无人机对传感器节点或基站的访问次序、悬停位置和飞行速度,在满足各传感器节点信息年龄约束的同时,最大限度地减少无人机能量消耗。再次,设计一种融合离散和连续策略的损失函数,增强CH-PPO算法动作的合理性,提升其训练效果。仿真实验结果显示,CH-PPO算法在无人机能量消耗以及影响该指标因素的比较中均优于对比的3种强化学习算法,并具有良好的收敛性、稳定性和鲁棒性。 展开更多
关键词 无线传感器网络 信息年龄约束 协同混合近端策略优化算法 无人机路径规划 深度强化学习
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
18
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 近端策略优化算法 不规则物体检测 软体机械臂 机械臂抓取
在线阅读 下载PDF
基于强化学习的动目标协同观测任务自主规划方法
19
作者 刘一隆 张聪 +1 位作者 张斯航 陈砺寒 《空间控制技术与应用》 CSCD 北大核心 2024年第3期42-51,共10页
随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较... 随着空间目标的数量逐渐增多、空中目标动态性日趋提升,对目标的观测定位问题变得愈发重要.由于需同时观测的目标多且目标动态性强,而星座观测资源有限,为了更高效地调用星座观测资源,需要动态调整多目标协同观测方案,使各目标均具有较好的定位精度,因此需解决星座协同观测多目标的任务规划问题.建立星座姿态轨道模型、目标飞行模型、目标协同探测及定位模型,提出基于几何精度衰减因子(geometric dilution of precision, GDOP)的目标观测定位误差预估模型及目标观测优先级模型,建立基于强化学习的协同观测任务规划框架,采用多头自注意力机制建立策略网络,以及近端策略优化算法开展任务规划算法训练.仿真验证论文提出的方法相比传统启发式方法提升了多目标观测精度和有效跟踪时间,相比遗传算法具有更快的计算速度. 展开更多
关键词 多目标 协同观测 任务规划 强化学习 自注意力机制 近端策略优化
在线阅读 下载PDF
基于深度强化学习的尾旋改出技术
20
作者 谭健美 王君秋 《航空兵器》 CSCD 北大核心 2024年第1期77-88,共12页
本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,... 本文搭建了飞机仿真环境,基于近端策略优化(PPO)算法建立了尾旋改出算法测试模型,设计了基准版单阶段、基准版双阶段、加深版单阶段、加深版双阶段四种网络结构,用于探究网络结构和改出阶段对尾旋改出效果的影响,设置了鲁棒性测试试验,从时延、误差和高度等方面进行了算法测试和结果分析。 展开更多
关键词 尾旋改出 深度学习 强化学习 近端策略优化 算法测试 飞机
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部