期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
多智能体近端策略优化的动态武器目标分配
1
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能强化学习 策略优化 策略 随机噪声
在线阅读 下载PDF
近端策略优化的城市环境多智能体协作对抗方法
2
作者 米广铭 张辉 +1 位作者 张菁 卓力 《通信学报》 北大核心 2025年第3期94-108,共15页
城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法... 城市环境由于其地理空间的复杂性及动态变化性,往往会令指挥系统变得低效且短视。针对该问题,提出了一种近端策略优化城市环境的多智能体协作对抗方法。首先,在建立完善的城市对抗环境的基础上,使用近端策略优化的演员-评论员网络算法进行求解;其次,针对多对一的评论网络采用嵌入方法来解决空间维度不同的异构智能体决策评价问题;再次,在近端策略优化的基础上,增加了自适应采样来辅助策略的更新;最后,对演员网络进行权重继承操作以帮助智能体迅速接管相应的任务。实验结果表明,相较于其他方法,所提方法的奖励回报提高了22.67%,收敛速度加快了8.14%,不仅可以满足城市环境下多个智能体协作对抗的决策,还能够兼容多异构智能体的协作对抗。 展开更多
关键词 深度强化学习 多智能 协作对抗 策略优化 城市环境
在线阅读 下载PDF
基于多智能体近端策略网络的数据中心双层优化调度 被引量:1
3
作者 杨秀 张相寅 +3 位作者 黄海涛 余文昶 陈永刚 曹俊波 《南方电网技术》 北大核心 2025年第4期107-121,131,共16页
随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中... 随着新一代信息通信技术,如5G、云计算和人工智能的不断演进,世界正迅速迈入数字经济的快车道。针对数据中心中可再生能源和工作负载预测的不确定性,提出了一种基于多智能体近端策略网络的数据中心双层优化调度方法。首先,建立了数据中心双层时空优化调度框架,对数据中心工作负载、IT设备、空调设备进行详细建模;在此基础上,提出数据中心的双层优化调度模型,上层以互联网数据中心(Internet data center,IDC)运营管理商总运营成本最小为目标进行时间维度调度,下层以各IDC运行成本最低为目标进行空间维度调度;然后,介绍多智能体近端策略网络算法原理,设计数据中心双层优化调度模型的状态空间、动作空间和奖励函数。最后,针对算例进行离线训练和在线调度决策,仿真结果表明,所提模型和方法能够有效降低系统成本和能耗,实现工作负载的最佳分配,具有较好的经济性和鲁棒性。 展开更多
关键词 多智能 数据中心 策略优化 时空调度 工作负载分配
在线阅读 下载PDF
基于裁剪近端策略优化算法的软机械臂不规则物体抓取 被引量:2
4
作者 余家宸 杨晔 《计算机应用》 CSCD 北大核心 2024年第11期3629-3638,共10页
为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(... 为应对传统深度强化学习(DRL)算法在处理复杂场景,特别是在不规则物体抓取和软体机械臂应用中算法稳定性和学习率较差的问题,提出一种基于裁剪近端策略优化(CPPO)算法的软体机械臂控制策略。通过引入裁剪函数,该算法优化了近端策略优化(PPO)算法的性能,提升了它在高维状态空间的稳定性和学习效率。首先定义了软体机械臂的状态空间和动作空间,并设计了模仿八爪鱼触手的软体机械臂模型;其次利用Matlab的SoRoSim(Soft Robot Simulation)工具箱进行建模,同时定义了结合连续和稀疏函数的环境奖励函数;最后构建了基于Matlab的仿真平台,通过Python脚本和滤波器对不规则物体图像进行预处理,并利用Redis缓存高效传输处理后的轮廓数据至仿真平台。与TRPO(Trust Region Policy Optimization)和SAC(Soft Actor-Critic)算法的对比实验结果表明,CPPO算法在软体机械臂抓取不规则物体任务中达到了86.3%的成功率,比TRPO算法高出了3.6个百分点。这说明CPPO算法可以应用于软体机械臂控制,可在非结构化环境下为软体机械臂在复杂抓取任务中的应用提供重要参考。 展开更多
关键词 深度强化学习 策略优化算法 不规则物检测 机械臂 机械臂抓取
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
5
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能 奖励函数塑形 策略优化算法
在线阅读 下载PDF
面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法
6
作者 张树培 庞莹 +2 位作者 孙朋举 张玮 王玲德 《重庆理工大学学报(自然科学)》 北大核心 2025年第9期45-52,共8页
针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决... 针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决策场景的分布式部分可观测马尔可夫决策(Dec-POMDP)模型,通过引入门控循环单元(gated recurrent unit,GRU)处理车辆状态的历史信息,解决环境局部观测性导致的策略不稳定问题。在此基础上,设计包含硬性规则约束和动态行为预测的双层安全机制,实时屏蔽危险动作,确保决策输出的安全性。仿真结果表明,SAG-MAPPO在不同密度的匝道协同合流场景下均表现出更快的收敛速度、更高的策略累计奖励和平均速度,验证了其在复杂动态场景下的有效性。 展开更多
关键词 匝道合流 自动驾驶 深度强化学习 多智能策略优化 决策
在线阅读 下载PDF
基于混合近端策略优化的交叉口信号相位与配时优化方法 被引量:12
7
作者 陈喜群 朱奕璋 吕朝锋 《交通运输系统工程与信息》 EI CSCD 北大核心 2023年第1期106-113,共8页
交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相... 交通信号优化控制是从供给侧缓解城市交通拥堵的重要手段,随着交通大数据技术的发展,利用深度强化学习进行信号控制成为重点研究方向。现有控制框架大多属于离散相位选择控制,相位时间通过决策间隔累积得到,可能与智能体探索更优动作相冲突。为此,本文提出基于混合近端策略优化(Hybrid Proximal Policy Optimization,HPPO)的交叉口信号相位与配时优化方法。首先在考虑相位时间实际应用边界条件约束下,将信号控制动作定义为参数化动作;然后通过提取交通流状态信息并输入到双策略网络,自适应生成下一相位及其相位持续时间,并通过执行动作后的交通状态变化,评估获得奖励值,学习相位和相位时间之间的内在联系。搭建仿真平台,以真实交通流数据为输入对新方法进行测试与算法对比。结果表明:新方法与离散控制相比具有更低的决策频率和更优的控制效果,车辆平均行程时间和车道平均排队长度分别降低了27.65%和23.65%。 展开更多
关键词 智能交通 混合动作空间 深度强化学习 混合策略优化 智能设计
在线阅读 下载PDF
基于优势函数输入扰动的多无人艇协同策略优化方法 被引量:1
8
作者 任璐 柯亚男 +2 位作者 柳文章 穆朝絮 孙长银 《自动化学报》 北大核心 2025年第4期824-834,共11页
多无人艇(Multiple unmanned surface vehicles,Multi-USVs)协同导航对于实现高效的海上作业至关重要,而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题.近年来,多智能体强化学习(Multi-agen... 多无人艇(Multiple unmanned surface vehicles,Multi-USVs)协同导航对于实现高效的海上作业至关重要,而如何在开放未知海域处理多艇之间复杂的协作关系、实现多艇自主协同决策是当前亟待解决的难题.近年来,多智能体强化学习(Multi-agent reinforcement learning,MARL)在解决复杂的多体决策问题上展现出巨大的潜力,被广泛应用于多无人艇协同导航任务中.然而,这种基于数据驱动的方法通常存在探索效率低、探索与利用难平衡、易陷入局部最优等问题.因此,在集中训练和分散执行(Centralized training and decentralized execution,CTDE)框架的基础上,考虑从优势函数输入端注入扰动量来提升优势函数的泛化能力,提出一种新的基于优势函数输入扰动的多智能体近端策略优化(Noise-advantage multi-agent proximal policy optimization,NA-MAPPO)方法,从而提升多无人艇协同策略的探索效率.实验结果表明,与现有的基准算法相比,所提方法能够有效提升多无人艇协同导航任务的成功率,缩短策略的训练时间以及任务的完成时间,从而提升多无人艇协同探索效率,避免策略陷入局部最优. 展开更多
关键词 多无人艇协同 策略优化 多智能强化学习 输入扰动
在线阅读 下载PDF
深空探测器多智能体强化学习自主任务规划 被引量:1
9
作者 孙泽翼 王彬 +2 位作者 胡馨月 熊新 金怀平 《深空探测学报(中英文)》 CSCD 北大核心 2024年第3期244-255,共12页
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规... 针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。 展开更多
关键词 多智能强化学习 深空探测自主任务规划 策略优化 小天附着
在线阅读 下载PDF
PPO强化学习的多智能体对话策略学习方法 被引量:1
10
作者 魏鹏飞 曾碧 廖文雄 《小型微型计算机系统》 CSCD 北大核心 2022年第7期1370-1377,共8页
对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易... 对话策略是面向任务的对话系统中的关键组件,给定当前对话状态输出下一个系统动作.近年来,对话策略学习已被广泛地描述为强化学习问题.一种常见的方法是让对话智能体与用户模拟器互动学习.然而,构建一个可靠的用户模拟器并不是一件容易的事,通常与构建一个好的对话代理一样困难.为了避免显式地构建一个用户模拟器,提出了一种PPO强化学习的多智能体对话策略学习方法,将系统端和用户端都构建为智能体.该方法主要通过两个阶段进行策略学习:1)阶段1是模仿学习,采用模仿学习中的行为克隆的方式,对系统策略和用户策略进行预训练;2)阶段2是多智能体强化学习,采用一种数据样本利用率更高以及鲁棒性更好的近端策略优化(PPO)算法,对系统端和用户端的对话策略进行学习.最后,在公开的多域多意图的面向任务的对话语料MultiWOZ上进行了实验,验证了方法的有效性,还分析了在复杂任务中的可伸缩性.此外,将学到的对话策略集成到ConvLab-2平台上进行整体效果评估. 展开更多
关键词 强化学习 多智能 任务对话系统 对话策略学习 模仿学习 策略优化
在线阅读 下载PDF
一种基于深度强化学习的协同制导策略
11
作者 谭明虎 艾文洁 +2 位作者 何昊麟 李浩宇 王靖宇 《宇航学报》 北大核心 2025年第6期1203-1213,共11页
针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同... 针对在速度不可控条件下的多弹协同打击问题,提出了一种基于深度强化学习的多弹协同制导策略生成方法。基于多智能体近端策略优化算法,通过构建连续动作空间的智能协同制导框架,设计了一种启发式重塑的奖励函数来引导多枚导弹有效协同打击目标,以解决对制导环境因奖励信号稀疏导致的学习效率低下问题。最后,提出基于多阶段课程学习的智能体平滑动作方法,有效解决强化学习中由独立采样引起的动作抖动问题。仿真实验表明,在随机初始条件范围内,基于深度强化学习制导律生成的协同制导策略可以成功实现对目标的协同攻击。 展开更多
关键词 导弹 协同制导 深度强化学习 多智能策略优化
在线阅读 下载PDF
基于PPO的自适应PID控制算法研究 被引量:6
12
作者 周志勇 莫非 +2 位作者 赵凯 郝云波 钱宇峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第6期1425-1432,共8页
采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多... 采用MATLAB物理引擎联合Python搭建了一个六轴机械臂,并模拟带有扰动的复杂控制环境,为机械臂训练提供现实中无法提供的试错环境。使用强化学习中近端优化算法(proximal policy optimization,PPO)算法对传统PID控制算法进行改进,引入多智能体思想,根据PID三个参数对控制系统的不同影响及六轴机械臂的特性,将三个参数分别作为不同的智能个体进行训练,实现多智能体自适应调整参数的新型多智能体自适应PID算法。仿真结果表明:该算法的训练收敛性优于MA-DDPG与MA-SAC算法,与传统PID算法的控制效果相比,在遇到扰动及振荡的情况下,能够更有效地抑制振荡,并具有更低的超调量和调整时间,控制过程更为平缓,有效提高了机械臂的控制精度,证明了该算法的鲁棒性及有效性。 展开更多
关键词 强化学习 优化算法 自适应PID整定 机械臂 多智能
在线阅读 下载PDF
基于多智能体强化学习的无人艇集群集结方法 被引量:4
13
作者 夏家伟 刘志坤 +1 位作者 朱旭芳 刘忠 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第12期3365-3376,共12页
为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变... 为解决数量不定的同构水面无人艇(USV)集群以期望队形协同集结的问题,提出一种基于多智能体强化学习(MARL)的分布式集群集结控制方法。针对USV通信感知能力约束,建立集群的动态交互图,通过引入二维网格状态特征编码的方法,构建维度不变的智能体观测空间;采用集中式训练和分布式执行的多智能体近端策略优化(MAPPO)强化学习架构,分别设计策略网络和价值网络的状态空间和动作空间,定义收益函数;构建编队集结仿真环境,经过训练,所提方法能有效收敛。仿真结果表明:所提方法在不同期望队形、不同集群数量和部分智能体失效等场景中,均能成功实现快速集结,其灵活性和鲁棒性得到验证。 展开更多
关键词 无人艇 集群系统 多智能强化学习 深度强化学习 集结方法 策略优化
在线阅读 下载PDF
基于多智能体深度强化学习的无人机路径规划 被引量:10
14
作者 司鹏搏 吴兵 +2 位作者 杨睿哲 李萌 孙艳华 《北京工业大学学报》 CAS CSCD 北大核心 2023年第4期449-458,共10页
为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UA... 为解决多无人机(unmanned aerial vehicle, UAV)在复杂环境下的路径规划问题,提出一个多智能体深度强化学习UAV路径规划框架.该框架首先将路径规划问题建模为部分可观测马尔可夫过程,采用近端策略优化算法将其扩展至多智能体,通过设计UAV的状态观测空间、动作空间及奖赏函数等实现多UAV无障碍路径规划;其次,为适应UAV搭载的有限计算资源条件,进一步提出基于网络剪枝的多智能体近端策略优化(network pruning-based multi-agent proximal policy optimization, NP-MAPPO)算法,提高了训练效率.仿真结果验证了提出的多UAV路径规划框架在各参数配置下的有效性及NP-MAPPO算法在训练时间上的优越性. 展开更多
关键词 无人机(unmanned aerial vehicle UAV) 复杂环境 路径规划 马尔可夫决策过程 多智能策略优化算法(multi-agent proximal policy optimization MAPPO) 网络剪枝(network pruning NP)
在线阅读 下载PDF
基于双层多智能体深度强化学习的移动储能低碳时空优化调度
15
作者 张华瑞 韩冬 +1 位作者 鲁卓欣 严正 《中国电机工程学报》 2025年第20期7974-7986,I0011,共14页
全球气候变化问题日益紧迫,创新的能源调度方式是节能减碳的重要解决方案。移动储能因其时空灵活性能有效推动低碳用能,提高碳交易市场的活跃度。为实现电-碳耦合市场下移动储能的时空优化调度,该文提出一种基于双层多智能体深度强化学... 全球气候变化问题日益紧迫,创新的能源调度方式是节能减碳的重要解决方案。移动储能因其时空灵活性能有效推动低碳用能,提高碳交易市场的活跃度。为实现电-碳耦合市场下移动储能的时空优化调度,该文提出一种基于双层多智能体深度强化学习并考虑电-碳市场耦合的调度方法。首先,构建计及阶梯碳交易成本、空间转移成本、容量衰减成本和充放电套利收益的优化调度模型。其次,将调度问题描述为马尔可夫博弈,并构建双层多智能体深度强化学习框架求解该模型。最后,利用美国加州圣地亚哥地区30个充电站2020—2022年的节点边际电价数据和地址位置信息进行模型训练和算例仿真。结果表明,所提方法的适用性、稳定性与可拓展性,实现移动储能时空调度过程的节能减碳。 展开更多
关键词 移动储能系统 阶梯式碳交易 双层多智能深度强化学习 低碳经济调度 多智能策略优化
在线阅读 下载PDF
强化学习算法在超视距空战辅助决策上的应用研究 被引量:16
16
作者 吴宜珈 赖俊 +2 位作者 陈希亮 曹雷 徐鹏 《航空兵器》 CSCD 北大核心 2021年第2期55-61,共7页
针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近... 针对近端策略优化算法在空战智能决策过程中面临的动作空间过大、难收敛等问题,提出基于option的近端策略分层优化算法,构建了基于强化学习的空战智能决策模型框架,并在超视距空战仿真模型中进行了对抗性实验并可视化。实验结果表明,近端策略分层优化算法能够驱动智能体在对抗过程中产生迂回攻击等战术行为,达到提升传统算法性能和提高空战博弈决策效率的目的。 展开更多
关键词 超视距空战 智能决策 人工智能 强化学习 策略优化算法 分层强化学习
在线阅读 下载PDF
基于强化学习的多园区综合能源系统经济调度 被引量:2
17
作者 王丙文 付明 黄堃 《电测与仪表》 北大核心 2024年第9期32-39,共8页
多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区... 多园区综合能源系统中新能源出力与负荷的波动性以及多种能量之间的耦合关系,给多园区综合能源系统的优化调度带来诸多挑战。为此提出一种基于数据驱动的多智能体近端策略优化(multi-agent proximal policy optimization,MAPPO)多园区综合能源系统经济调度方法。文章综合考虑园区间的能量交易与碳市场交易,以园区日运行成本最小为目标,建立多园区综合能源系统实时优化调度模型;将该优化问题建模为马尔科夫决策过程,并设计状态空间、动作空间以及奖励函数,通过大量历史数据的训练得到多园区综合能源系统优化调度神经网络模型,实现多园区分散式实时优化调度。仿真结果表明:在新能源出力与负荷随机性波动影响下,所提方法能够在降低各园区运行成本的同时减少园区间的信息交互,有助于提高各园区隐私信息的安全性。 展开更多
关键词 多园区综合能源系统 实时经济调度 强化学习 多智能策略优化
在线阅读 下载PDF
信息非完备下多航天器轨道博弈强化学习方法 被引量:6
18
作者 王英杰 袁利 +2 位作者 汤亮 黄煌 耿远卓 《宇航学报》 EI CAS CSCD 北大核心 2023年第10期1522-1533,共12页
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输... 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 展开更多
关键词 航天器 信息非完备 轨道博弈 多智能强化学习 长短期记忆网络 策略优化算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部