-
题名基于混合模仿学习的多智能体追捕决策方法
- 1
-
-
作者
王焱宁
张锋镝
肖登敏
孙中奇
-
机构
北京航天自动控制研究所
宇航智能控制技术全国重点实验室
中船智海创新研究院有限公司
北京理工大学自动化学院
-
出处
《计算机科学》
北大核心
2025年第1期323-330,共8页
-
文摘
针对传统模仿学习方法在处理多样化专家轨迹时的局限性,尤其是难以有效整合质量参差不齐的固定模态专家数据的问题,创新性地融合了多专家轨迹生成对抗模仿学习(Multiple Trajectories Generative Adversarial Imitation Learning, MT-GAIL)方法与时序差分误差行为克隆(Temporal-Difference Error Behavioral Cloning, TD-BC)技术,构建了一种混合模仿学习框架。该框架不仅可以增强模型对复杂多变的专家策略的适应能力,还能够提升模型从低质量数据中提炼有用信息的鲁棒性。框架得到的模型具备直接应用于强化学习的能力,仅需经过细微的调整与优化,即可训练出一个直接可用的、基于专家经验的强化学习模型。在二维动静结合的目标追捕场景中进行了实验验证,该方法展现出良好的性能。结果表明,所提方法可以吸取专家经验,为后续的强化学习训练阶段提供一个起点高、效果佳的初始模型。
-
关键词
智能决策
强化学习
行为克隆
生成对抗模仿学习
-
Keywords
Intelligent decision-making
Reinforcement learning
Behavior cloning
Generative adversarial imitation learning
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-
-
题名面向变构型飞行器的强化学习位置姿态一体化控制方法
被引量:2
- 2
-
-
作者
路坤锋
贾晨辉
黄旭
刘晓东
柳嘉润
王昭磊
-
机构
北京航天自动控制研究所
宇航智能控制技术全国重点实验室
-
出处
《宇航学报》
EI
CAS
CSCD
北大核心
2024年第7期1100-1110,共11页
-
基金
国家自然科学基金(U21B2028)。
-
文摘
针对变构型飞行器在飞行过程中由于构型发生改变导致其质心、气动力、转动惯量和气动力矩以及飞行器的抗扰能力等参数或特性发生变化,对飞行器飞行控制品质产生较大影响的问题,提出一种基于强化学习的变构型飞行器一体化位置姿态控制方法,通过孪生延迟深度确定性策略梯度(TD3)强化学习算法训练神经网络控制律,实现变构型飞行器的一体化位置姿态控制。算法通过数学仿真与飞行试验进行了验证,仿真结果与飞行试验结果表明,该算法所设计的神经网络控制律能够实现变构型飞行器的一体化位置姿态控制,并对于外界干扰具有较强的适应能力。
-
关键词
强化学习
变构型飞行器
位置控制
姿态控制
-
Keywords
Reinforcement learning
Morphing flight vehicle
Position control
Attitude control
-
分类号
V249.1
[航空宇航科学与技术—飞行器设计]
V448.2
[航空宇航科学与技术—飞行器设计]
-
-
题名飞行器集群协同控制技术分析与展望
被引量:6
- 3
-
-
作者
郑卓
路坤锋
王昭磊
姚征
-
机构
北京航天自动控制研究所
宇航智能控制技术全国重点实验室
-
出处
《宇航学报》
EI
CAS
CSCD
北大核心
2023年第4期538-545,共8页
-
基金
国家自然科学基金联合基金重点项目(U21B2028)。
-
文摘
系统分析和展望了飞行器集群协同控制技术,对先进的集群飞行器和协同控制技术进行了总结和对比,并提出了当前该领域面临的5个主要科学问题。在此基础上提出了飞行器集群自主控制体系架构以及射前任务规划、在线态势感知、协同制导控制等8项飞行器集群协同核心关键技术。其中,对每项技术进行了简要概括,阐述了它们之间的关系和对于飞行器集群协同控制的作用。最后,从理论研究、技术突破到工程应用方面,对该领域未来发展做出了展望。
-
关键词
飞行器集群
协同控制
协同决策与规划
协同探测
-
Keywords
Vehicle swarm
Cooperative control
Cooperative planning and decision
Cooperative detection
-
分类号
V448.21
[航空宇航科学与技术—飞行器设计]
-
-
题名神经网络架构轻量化搜索的飞行器控制律自学习方法
- 4
-
-
作者
王昭磊
王露荻
路坤锋
禹春梅
李晓敏
林平
-
机构
宇航智能控制技术全国重点实验室
北京航天自动控制研究所
-
出处
《宇航学报》
EI
CAS
CSCD
北大核心
2024年第5期762-769,共8页
-
基金
国家自然科学基金(U21B2028)。
-
文摘
针对在运用Soft actor-critic(SAC)强化学习算法实现复杂的飞行器控制律自学习过程中,超参数设定高度依赖于人工经验进而造成设计难度大的问题,提出一种基于神经网络架构轻量化搜索策略的飞行器控制律自学习方法。该方法在将神经网络架构设计问题转化为图拓扑生成问题的基础上,结合LSTM循环神经网络的图拓扑生成算法、基于权重共享的深度强化学习参数轻量化训练与评估机制,以及基于策略梯度的图拓扑生成器参数学习算法,给出了一种面向深度强化学习的轻量化自动搜索框架,实现了SAC训练算法中神经网络架构超参数的自动优化,进而完成了控制律的自学习。以三维空间返回着陆控制为例,验证了所提方法的有效性和实用性。
-
关键词
飞行器
控制律自学习
自动机器学习
网络架构搜索
SAC强化学习
-
Keywords
Flight vehicle
Control law self-learning
Automated machine learning
Network architecture search
SAC reinforcement learning
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名知识与数据混合驱动的高速飞行控制方法综述
被引量:6
- 5
-
-
作者
黄旭
柳嘉润
张远
张华明
贾晨辉
刘晓东
-
机构
北京航天自动控制研究所
宇航智能控制技术全国重点实验室
-
出处
《宇航学报》
EI
CAS
CSCD
北大核心
2023年第8期1113-1126,共14页
-
基金
国家自然科学基金(U21B2028)。
-
文摘
针对高速飞行器面临的控制问题,分析了知识与数据混合驱动的控制方法的研究必要性,对混合驱动方法的研究进展进行了综述。首先总结了飞行器发展产生的新技术特征,分别对高速飞行器控制中知识驱动方法和数据驱动方法进行了界定及分析,阐述了两类方法的局限性,引出了知识与数据混合驱动的思想;其次根据数据驱动方法在框架中的重要程度和两类方法的结合形式对近年混合驱动的控制方法进行了分类,将其分为基于数据修正的知识驱动控制框架、基于知识补偿的数据驱动控制框架以及知识与数据并联型控制框架,并对各控制框架的内涵和具体研究进行了详细总结;再者,讨论了当前混合驱动的控制方法在工程应用时的若干关键问题;最后从数据利用和拓扑结构设计等角度对混合驱动的控制方法进行了展望。
-
关键词
高速飞行器
知识驱动
数据驱动
混合控制方法
-
Keywords
High-speed vehicle
Knowledge-based
Data-driven
Cooperating control methods
-
分类号
V249
[航空宇航科学与技术—飞行器设计]
-