期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
A novel trajectories optimizing method for dynamic soaring based on deep reinforcement learning
1
作者 Wanyong Zou Ni Li +2 位作者 Fengcheng An Kaibo Wang Changyin Dong 《Defence Technology(防务技术)》 2025年第4期99-108,共10页
Dynamic soaring,inspired by the wind-riding flight of birds such as albatrosses,is a biomimetic technique which leverages wind fields to enhance the endurance of unmanned aerial vehicles(UAVs).Achieving a precise soar... Dynamic soaring,inspired by the wind-riding flight of birds such as albatrosses,is a biomimetic technique which leverages wind fields to enhance the endurance of unmanned aerial vehicles(UAVs).Achieving a precise soaring trajectory is crucial for maximizing energy efficiency during flight.Existing nonlinear programming methods are heavily dependent on the choice of initial values which is hard to determine.Therefore,this paper introduces a deep reinforcement learning method based on a differentially flat model for dynamic soaring trajectory planning and optimization.Initially,the gliding trajectory is parameterized using Fourier basis functions,achieving a flexible trajectory representation with a minimal number of hyperparameters.Subsequently,the trajectory optimization problem is formulated as a dynamic interactive process of Markov decision-making.The hyperparameters of the trajectory are optimized using the Proximal Policy Optimization(PPO2)algorithm from deep reinforcement learning(DRL),reducing the strong reliance on initial value settings in the optimization process.Finally,a comparison between the proposed method and the nonlinear programming method reveals that the trajectory generated by the proposed approach is smoother while meeting the same performance requirements.Specifically,the proposed method achieves a 34%reduction in maximum thrust,a 39.4%decrease in maximum thrust difference,and a 33%reduction in maximum airspeed difference. 展开更多
关键词 Dynamic soaring Differential flatness Trajectory optimization proximal policy optimization
在线阅读 下载PDF
Cooperative multi-target hunting by unmanned surface vehicles based on multi-agent reinforcement learning 被引量:2
2
作者 Jiawei Xia Yasong Luo +3 位作者 Zhikun Liu Yalun Zhang Haoran Shi Zhong Liu 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第11期80-94,共15页
To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model wit... To solve the problem of multi-target hunting by an unmanned surface vehicle(USV)fleet,a hunting algorithm based on multi-agent reinforcement learning is proposed.Firstly,the hunting environment and kinematic model without boundary constraints are built,and the criteria for successful target capture are given.Then,the cooperative hunting problem of a USV fleet is modeled as a decentralized partially observable Markov decision process(Dec-POMDP),and a distributed partially observable multitarget hunting Proximal Policy Optimization(DPOMH-PPO)algorithm applicable to USVs is proposed.In addition,an observation model,a reward function and the action space applicable to multi-target hunting tasks are designed.To deal with the dynamic change of observational feature dimension input by partially observable systems,a feature embedding block is proposed.By combining the two feature compression methods of column-wise max pooling(CMP)and column-wise average-pooling(CAP),observational feature encoding is established.Finally,the centralized training and decentralized execution framework is adopted to complete the training of hunting strategy.Each USV in the fleet shares the same policy and perform actions independently.Simulation experiments have verified the effectiveness of the DPOMH-PPO algorithm in the test scenarios with different numbers of USVs.Moreover,the advantages of the proposed model are comprehensively analyzed from the aspects of algorithm performance,migration effect in task scenarios and self-organization capability after being damaged,the potential deployment and application of DPOMH-PPO in the real environment is verified. 展开更多
关键词 Unmanned surface vehicles multi-agent deep reinforcement learning Cooperative hunting Feature embedding proximal policy optimization
在线阅读 下载PDF
基于近端策略优化的两栖无人平台路径规划算法研究 被引量:1
3
作者 左哲 覃卫 +2 位作者 徐梓洋 李寓安 陈泰然 《北京理工大学学报》 EI CAS 北大核心 2025年第1期19-25,共7页
为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通... 为解决水陆两栖无人平台在复杂环境中的路径规划问题,针对传统方法难以应对动态障碍物和多变环境的局限性,提出了一种基于近端策略优化(PPO)的路径规划算法,包含四种感知信息输入方案以及速度强化奖励函数,适应动态和静态环境.该算法通过批次函数正则化、策略熵引入和自适应裁剪因子,显著提升了算法的收敛速度和稳定性.研究中采用了ROS仿真平台,结合Flatland物理引擎和PedSim插件,模拟了包含动态障碍物的多种复杂场景.实验结果表明,采用BEV+V状态空间输入结构和离散动作空间的两栖无人平台,在路径规划中展现出高成功率和低超时率,优于传统方法和其他方案.仿真和对比实验显示采用鸟瞰图与速度组合的状态空间数据结构配合速度强化奖励函数算法提高了性能,收敛速度提高25.58%,路径规划成功率提升25.54%,超时率下降13.73%. 展开更多
关键词 路径规划 两栖 无人平台 近端策略优化(PPO)
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
4
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于生成对抗网络修正的源网荷储协同优化调度
5
作者 谢桦 李凯 +3 位作者 郄靖彪 张沛 王珍意 路学刚 《中国电机工程学报》 北大核心 2025年第5期1668-1679,I0003,共13页
大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节... 大规模风光可再生能源发电并网给电力系统带来强不确定性,使得系统全局优化决策面临挑战,该文提出基于生成对抗网络(generative adversarial networks,GAN)修正的源网荷储协同优化调度策略设计方法。首先,考虑新型电力系统中各类可调节资源的运行特性,构建基于近端策略优化(proximal policy optimization,PPO)算法的源网荷储协同优化调度模型;其次,引入GAN对PPO算法的优势函数进行修正,减少价值函数的方差,提高智能体探索效率;然后,GAN中的判别器结合专家策略指导生成器生成调度策略;最后,判别器与生成器不断对抗寻找纳什均衡点,得到优化调度策略。算例分析表明,设计的源网荷储协同的日内优化调度策略,采用GAN修正的PPO算法,相较于传统的PPO算法缩短了训练过程的收敛时间,在线控制提升了可再生能源消纳能力。 展开更多
关键词 源网荷储协同 生成对抗网络 近端策略优化算法 优化调度 可再生能源消纳
在线阅读 下载PDF
基于分布式双层强化学习的区域综合能源系统多时间尺度优化调度
6
作者 张薇 王浚宇 +1 位作者 杨茂 严干贵 《电工技术学报》 北大核心 2025年第11期3529-3544,共16页
考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIE... 考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIES内部能源的出力、储存和转换构建高维空间的马尔可夫决策过程数学模型;其次基于改进的分布式近端策略优化算法对其进行序贯决策描述,构建内部双层近端策略优化(PPO)的控制模型,局部网络采用“先耦合-再解耦”的求解思路对冷-热力系统和电力系统的设备进行多时间尺度优化决策,最终实现RIES冷-热力系统与电力系统的多时间尺度调度和协同优化运行;最后仿真结果表明,所提模型不仅能克服深度强化学习算法在复杂随机场景下的“维数灾难”问题,实现RIES各能源网络在不同时间尺度下的协同优化管理,还能加快模型的最优决策求解速度,提高系统运行的经济效益。 展开更多
关键词 区域综合能源系统 多时间尺度 分布式双层近端策略优化 深度强化学习 协同优化管理 经济效益
在线阅读 下载PDF
多智能体近端策略优化的动态武器目标分配
7
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能体强化学习 近端策略优化 策略熵 随机噪声
在线阅读 下载PDF
基于深度强化学习算法的分布式光伏-EV互补系统智能调度
8
作者 陈宁 李法社 +3 位作者 王霜 张慧聪 唐存靖 倪梓皓 《高电压技术》 北大核心 2025年第3期1454-1463,共10页
针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量... 针对分布式光伏与电动汽车(electric vehicle,EV)大规模接入电网将对电力系统造成冲击的问题,通过建立分布式光伏-EV互补调度模型,以平抑光伏并网波动、增加EV用户经济性为目标,考虑光伏出力的随机性、负荷功率波动、EV接入时间及电量随机性、实时电价、电池老化成本等因素,提出采用梯度随机扰动的改进型近端策略优化算法(gradient random perturbation-proximal policy optimization algorithm,GRP-PPO)进行求解,通过对模型目标函数的调整,得到基于不同优化目标的2种实时运行策略。通过算例可知,实时调度策略可有效地平抑并网点功率波动,调度效果较传统PPO算法提高了3.48%;策略一以用户的出行需求及平抑并网点功率波动为首要目标,能够保证用户的24h用车需求,同时并网点功率稳定率达到91.84%;策略二以用户经济效益为首要优化目标,全天参与调度的EV收益可达82.6元,可起到鼓励用户参与调度的目的。 展开更多
关键词 分布式光伏 电动汽车 V2G 深度强化学习 实时调度 近端策略优化
在线阅读 下载PDF
数字孪生辅助强化学习的燃气站场巡检任务分配算法
9
作者 连远锋 田天 +1 位作者 陈晓禾 董绍华 《电子与信息学报》 北大核心 2025年第7期2285-2297,共13页
针对燃气站场机器人智能巡检过程中由于突发任务导致的巡检效率下降、任务延迟和能耗增加问题,该文提出基于数字孪生辅助强化学习的燃气站场巡检任务分配算法。首先基于多机器人、差异化任务的执行状况,建立面向能耗、任务延迟的多目标... 针对燃气站场机器人智能巡检过程中由于突发任务导致的巡检效率下降、任务延迟和能耗增加问题,该文提出基于数字孪生辅助强化学习的燃气站场巡检任务分配算法。首先基于多机器人、差异化任务的执行状况,建立面向能耗、任务延迟的多目标联合优化巡检任务分配模型;其次利用李雅普诺夫理论对时间-能耗耦合下的巡检目标进行解耦,简化多目标联合优化问题;最后通过结合数字孪生技术和PPO(Proximal Policy Optimization)算法,对解耦后的优化目标进行求解来构建多机器人巡检任务分配策略。仿真结果表明,与现有方法相比,所提方法具有较高的任务完成率,有效地提高了多机器人系统的巡检效率。 展开更多
关键词 燃气站场 数字孪生 任务分配 李雅普诺夫 PPO
在线阅读 下载PDF
基于大语言模型的个性化作物水肥管理智能决策方法 被引量:1
10
作者 吴华瑞 李静晨 杨雨森 《智慧农业(中英文)》 2025年第1期11-19,共9页
[目的/意义]为解决当前作物管理中个性化需求难以捕捉、决策过程缺乏灵活性难题,本研究提出了一种基于大语言模型的个性化作物生产智能决策方法[方法]通过自然语言对话收集用户在蔬菜作物管理过程中的个性化需求,涵盖产量、人力资源消... [目的/意义]为解决当前作物管理中个性化需求难以捕捉、决策过程缺乏灵活性难题,本研究提出了一种基于大语言模型的个性化作物生产智能决策方法[方法]通过自然语言对话收集用户在蔬菜作物管理过程中的个性化需求,涵盖产量、人力资源消耗和水肥消耗等方面。随后,将作物管理过程建模为多目标优化问题,同时考虑用户个性化偏好和作物产量,并采用强化学习算法来学习作物管理策略。水肥管理策略的训练通过与环境的交互持续更新,学习在不同条件下采取何种行动以实现最优决策,从而实现个性化的作物管理。[结果和讨论]在gym-DSSAT(Gym-Decision Support System for Agrotechnology Transfer)仿真平台上进行的实验,结果表明,所提出的个性化作物生产智能决策方法能够有效地根据用户的个性化偏好调整作物管理策略。[结论]通过精准捕捉用户的个性化需求,该方法在保证作物产量的同时,优化了人力资源与水肥资源的消耗。 展开更多
关键词 作物管理 大语言模型 多目标决策 个性化决策 PPO算法
在线阅读 下载PDF
基于VSG的风光水火储系统频率调节深度强化学习方法
11
作者 刘晓明 刘俊 +3 位作者 姚宏伟 赵誉 聂永欣 任柯政 《电力系统自动化》 北大核心 2025年第9期114-124,共11页
由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现... 由于可再生能源发电固有的不确定性和低惯量特性,随着分布式能源(DER)的快速发展,电力系统正面临显著的系统频率动态恶化。为解决这一问题,使DER能够模拟传统同步发电机运行的虚拟同步发电机(VSG)技术已被开发并得到广泛关注。然而,现有研究主要集中于采用固定参数运行VSG以提供惯量支撑,而很少关注动态调整VSG以利用其快速响应特性来提升电力系统的频率响应性能。因此,文中提出一种基于深度强化学习的频率调节(DRL-FR)方法,该方法可自适应调整一、二次调频及VSG的动态参数。首先,构建频率调节模型,并将新能源电厂建模为可调VSG,将最优频率调节问题建模为马尔可夫决策过程。然后,构建DRL-FR控制器,其动作空间为一、二次调频动态参数,涵盖下垂控制、比例-积分-微分控制、机组参与系数及VSG可调参数。最后,开发了一种结合单调优势重加权模仿学习的近端策略优化算法,可结合历史运行数据及专家经验加速模型训练过程。在改造的IEEE 39节点系统中进行测试,验证了所提DRL-FR方法的有效性。 展开更多
关键词 深度强化学习 虚拟同步发电机 频率调节 模仿学习 近端策略优化
在线阅读 下载PDF
基于改进PPO算法的混合动力汽车能量管理策略
12
作者 马超 孙统 +2 位作者 曹磊 杨坤 胡文静 《河北科技大学学报》 北大核心 2025年第3期237-247,共11页
为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management st... 为了提高功率分流式混合动力汽车(hybrid electric vehicle, HEV)的经济性,建立了HEV整车的纵向动力学模型,并提出了一种基于策略熵优化的改进近端策略优化(proximal policy optimization, PPO)算法的能量管理策略(energy management strategy, EMS)。在一般PPO算法基础上,通过采用经验池机制简化算法框架,只使用1个深度神经网络进行交互训练和更新,以减少策略网络参数同步的复杂性;为了有效探索环境并学习更高效的策略,在损失函数中增加策略熵,以促进智能体在探索与利用之间达到平衡,避免策略过早收敛至局部最优解。结果表明,这种基于单策略网络改进PPO算法的EMS相比于基于双策略网络PPO的EMS,在UDDS工况和NEDC工况下,均能更好地维持电池的荷电状态(state of charge, SOC),同时等效燃油消耗分别降低了8.5%和1.4%,并取得了与基于动态规划(dynamic programming, DP)算法的EMS相近的节能效果。所提改进PPO算法能有效提高HEV的燃油经济性,可为HEV的EMS设计与开发提供参考。 展开更多
关键词 车辆工程 混合动力汽车 能量管理策略 深度强化学习 近端策略优化
在线阅读 下载PDF
基于图神经网络的SDN路由算法优化
13
作者 张晓莉 汤颖琪 宋婉莹 《电讯技术》 北大核心 2025年第1期18-24,共7页
针对现有路由方案不适合学习图形结构信息,对陌生拓扑适应性不佳的问题,提出了一种基于图神经网络的软件定义网络(Software Defined Network,SDN)路由算法G-PPO。引入近端策略优化(Proximal Policy Optimization,PPO)强化学习算法实现... 针对现有路由方案不适合学习图形结构信息,对陌生拓扑适应性不佳的问题,提出了一种基于图神经网络的软件定义网络(Software Defined Network,SDN)路由算法G-PPO。引入近端策略优化(Proximal Policy Optimization,PPO)强化学习算法实现模型训练,利用消息传递神经网络(Massage Passing Neural Network,MPNN)对网络拓扑进行学习,通过调整链路权重完成路由路径的调整。G-PPO将图神经网络对网络拓扑信息的感知能力和深度强化学习的自主学习能力有效结合,提升路由策略的性能。实验结果表明,与相关算法比较,所提算法的平均时延和丢包率、网络链路利用率和吞吐量指标均为最优。在3种不同拓扑上,该算法较其他算法最少提升10.5%吞吐量,最多提升95.6%丢包率,表明所提算法具有更好的适应不同网络拓扑的能力。 展开更多
关键词 软件定义网络 路由优化 图神经网络 深度强化学习 近端策略优化
在线阅读 下载PDF
基于近端策略优化的数据中心任务调度算法
14
作者 徐涛 常怡明 刘才华 《计算机工程与设计》 北大核心 2025年第3期712-718,共7页
针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样... 针对调度算法无法动态适应数据中心状态动态变化和用户需求多样化的问题,提出一种基于近端策略优化的数据中心两阶段任务调度算法。通过设计优先级函数为任务提供优先级,采用近端策略优化方法适应数据中心状态动态变化和用户需求的多样化。在任务选择阶段通过计算任务的优先级,优先调度高优先级任务;在物理服务器选择阶段,智能体根据实时的数据中心状态和用户需求,灵活地调整任务调度决策,实现资源的高效分配。实验结果表明,该算法性能优于现有的启发式算法以及常用强化学习算法。 展开更多
关键词 调度算法 数据中心 任务调度 强化学习 近端策略优化 优先级 两阶段
在线阅读 下载PDF
基于改进近端策略优化算法的AGV路径规划与任务调度 被引量:2
15
作者 祁璇 周通 +2 位作者 王村松 彭孝天 彭浩 《计算机集成制造系统》 北大核心 2025年第3期955-964,共10页
自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(... 自动引导车(AGV)是一种具有高度柔性和灵活性的自动化物料运输设备,可实现路径规划、任务调度和智能分配等功能。目前关于AGV最优路径与调度算法研究仍存在泛化性差、收敛效率低、寻路时间长等问题。因此,提出一种改进近端策略优化算法(PPO)。首先,采用多步长动作选择策略增加AGV移动步长,将AGV动作集由原来的4个方向基础上增加了8个方向,优化最优路径;其次,改进动态奖励值函数,根据AGV当前状态实时调整奖励值大小,提高其学习能力;然后,基于不同改进方法比较其奖励值曲线图,验证算法收敛效率与最优路径距离;最后,采用多任务调度优化算法,设计了一种单AGV多任务调度优化算法,提高运输效率。结果表明:改进后的算法最优路径缩短了28.6%,改进后的算法相比于PPO算法收敛效率提升了78.5%,在处理更为复杂、需要高水平策略的任务时表现更佳,具有更强的泛化能力;将改进后的算法与Q学习、深度Q学习(DQN)算法、软演员-评论家(SAC)算法进行比较,算法效率分别提升了84.4%、83.7%、77.9%;单AGV多任务调度优化后,平均路径缩短了47.6%。 展开更多
关键词 自动导引小车 路径规划 任务调度 近端策略优化算法 强化学习
在线阅读 下载PDF
基于强化学习的舰载机着舰直接升力控制技术 被引量:1
16
作者 柳仁地 江驹 +1 位作者 张哲 刘翔 《北京航空航天大学学报》 北大核心 2025年第6期2165-2175,共11页
针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状... 针对舰载机自动着舰过程中受甲板运动及舰尾流扰动很容易发生触舰危险的问题,提出了基于近端策略优化(PPO)算法的舰载机自动着舰直接升力控制方法。PPO控制器以俯仰角、高度、航迹倾斜角、俯仰角速率、高度误差和航迹倾斜角速率等6个状态变作为输入,以襟翼的舵偏角增量作为输出,实现舰载机在着舰时航迹倾斜角的快速响应。与传统控制器相比,PPO控制器中的Actor-Critic框架大大提高了控制量的计算效率,降低了参数优化的难度。仿真实验基于MATLAB/Simulink中的F/A-18飞机动力学/运动学模型。利用PyCharm平台上构建的深度强化学习训练环境,通过UDP通信实现2个平台之间的数据交互。仿真结果表明:所提方法具有响应速度快、动态误差小的特点,能够将着舰的高度误差稳定在±0.2 m以内,具有较高的控制精度。 展开更多
关键词 舰载机自动着舰 深度强化学习 近端策略优化算法 直接升力控制 UDP通信
在线阅读 下载PDF
近端策略优化的城市环境多智能体协作对抗方法
17
作者 米广铭 张辉 +1 位作者 张菁 卓力 《通信学报》 北大核心 2025年第3期94-108,共15页
城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法... 城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法进行求解;其次,针对多对一的评论网络采用嵌入方法来解决空间维度不同的异构智能体决策评价问题;再次,在近端策略优化的基础上,增加了自适应采样来辅助策略的更新;最后,对演员网络进行权重继承操作以帮助智能体迅速接管相应的任务。实验结果表明,相较于其他方法,所提方法的奖励回报提高了22.67%,收敛速度加快了8.14%,不仅可以满足城市环境下多个智能体协作对抗的决策,还能够兼容多异构智能体的协作对抗。 展开更多
关键词 深度强化学习 多智能体 协作对抗 近端策略优化 城市环境
在线阅读 下载PDF
一种基于深度强化学习的协同制导策略
18
作者 谭明虎 艾文洁 +2 位作者 何昊麟 李浩宇 王靖宇 《宇航学报》 北大核心 2025年第6期1203-1213,共11页
针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同... 针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同打击目标,以解决对制导环境因奖励信号稀疏导致的学习效率低下问题。最后,提出基于多阶段课程学习的智能体平滑动作方法,有效解决强化学习中由独立采样引起的动作抖动问题。仿真实验表明,在随机初始条件范围内,基于深度强化学习制导律生成的协同制导策略可以成功实现对目标的协同攻击。 展开更多
关键词 导弹 协同制导 深度强化学习 多智能体近端策略优化
在线阅读 下载PDF
基于深度强化学习的四旋翼航迹跟踪控制方法
19
作者 伍国华 曾家恒 +2 位作者 王得志 郑龙 邹伟 《系统仿真学报》 北大核心 2025年第5期1169-1187,共19页
受限于模型方程决定的固定结构,传统四旋翼控制器设计难以有效应对模型参数和环境扰动变化带来的控制误差。提出了基于深度强化学习的四旋翼航迹跟踪控制方法,构建了对应的马尔可夫决策模型,并基于PPO框架提出了PPO-SAG(PPO with self a... 受限于模型方程决定的固定结构,传统四旋翼控制器设计难以有效应对模型参数和环境扰动变化带来的控制误差。提出了基于深度强化学习的四旋翼航迹跟踪控制方法,构建了对应的马尔可夫决策模型,并基于PPO框架提出了PPO-SAG(PPO with self adaptive guide)算法。PPO-SAG在学习过程中加入自适应机制,利用PID专家知识进行引导和学习,提高了训练的收敛效果和稳定性。根据问题特点,设计了带有距离约束惩罚和熵策略的目标函数,提出扰动误差信息补充结构和航迹特征选择结构,补充控制误差信息、提取未来航迹关键要素,提高了收敛效果。并利用状态动态标准化、优势函数批标准化及奖励缩放策略,更合理地处理三维空间中的状态表征和奖励优势表达。单种航迹与混合航迹实验表明,所提出的PPO-SAG算法在收敛效果和稳定性上均取得了最好的效果,消融实验说明所提出的改进机制和结构均起到正向作用。所研究的未知扰动下基于深度强化学习的四旋翼航迹跟踪控制问题,为设计更加鲁棒高效的四旋翼控制器提供了解决方案。 展开更多
关键词 深度强化学习 四旋翼航迹跟踪控制 近端策略优化(PPO) 自适应机制 注意力机制
在线阅读 下载PDF
一种元学习和强化学习结合的多飞行器协同制导律
20
作者 王存灿 王晓芳 林海 《兵工学报》 北大核心 2025年第7期199-213,共15页
针对高超声速再入滑翔飞行器在复杂环境中以指定角度同时命中目标的协同制导问题,提出一种基于元学习和强化学习算法的协同制导律。考虑复杂作战环境的干扰,建立协同制导问题的马尔可夫决策模型,以飞行器运动状态和比例导引系数作为状... 针对高超声速再入滑翔飞行器在复杂环境中以指定角度同时命中目标的协同制导问题,提出一种基于元学习和强化学习算法的协同制导律。考虑复杂作战环境的干扰,建立协同制导问题的马尔可夫决策模型,以飞行器运动状态和比例导引系数作为状态空间和动作空间,综合考虑多飞行器攻击目标的相对距离、剩余飞行时间差以及过载情况设计奖励函数。基于元学习理论和强化学习算法将近端策略优化算法与门控循环单元相结合,通过学习相似协同制导任务的共同特征,提高协同制导策略在复杂干扰环境下的命中精度,实现攻击角度和攻击时间约束,同时提升协同制导策略对不同作战场景的适应性。仿真结果表明:该协同制导律能够在复杂战场环境下实现多飞行器以指定攻击角度对目标的同时攻击,并快速适应新的协同制导任务,在协同作战场景发生变化时仍能保持良好性能。 展开更多
关键词 高超声速再入滑翔飞行器 协同制导 元学习 强化学习 近端策略优化
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部