期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
航天器轨道追逃博弈多阶段强化学习训练方法 被引量:7
1
作者 袁利 耿远卓 +1 位作者 汤亮 黄煌 《上海航天(中英文)》 CSCD 2022年第4期33-41,共9页
针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星。首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对... 针对航天器轨道追逃博弈问题,提出一种多阶段学习训练赋能方法,使得追踪星在终端时刻抵近逃逸星的特定区域,而逃逸星需要通过轨道机动规避追踪星。首先,构建两星的训练策略集,基于逻辑规则设计追踪星和逃逸星的机动策略,通过实时预测对方的终端位置,设计己方的期望位置和脉冲策略,显式给出追逃策略的解析表达式,用于训练赋能;其次,为提升航天器的训练赋能效率及应对未知环境的博弈能力,提出一种基于强化学习技术多模式、分阶段的学习训练方法,先使追踪星和逃逸星分别应对上述逻辑规则引导下的逃逸星和追踪星,完成预训练;再次,开展二次训练,两星都采用邻近策略优化(PPO)策略进行追逃博弈,在博弈中不断调整网络权值,提升决策能力;最后,在仿真环境中验证提出的训练方法的有效性,经过二次训练后,追踪星和逃逸星可有效应对不同策略驱动下的对手,提升追逃成功率。 展开更多
关键词 轨道追逃 博弈决策 强化学习 训练赋能 多阶段学习
在线阅读 下载PDF
双体卫星对日定向姿态机动控制 被引量:3
2
作者 耿远卓 李传江 +1 位作者 孙延超 马广富 《宇航学报》 EI CAS CSCD 北大核心 2018年第7期740-750,共11页
研究了双体卫星(DFP)对日定向姿态机动控制问题。首先分析双体卫星工作机理,建立载荷舱与平台舱姿态模型,推导磁浮机构线圈和磁钢相对距离的数学表达式。提出基于PD控制的载荷舱对日姿态机动、平台舱姿态跟踪以及两舱避碰等控制策略。... 研究了双体卫星(DFP)对日定向姿态机动控制问题。首先分析双体卫星工作机理,建立载荷舱与平台舱姿态模型,推导磁浮机构线圈和磁钢相对距离的数学表达式。提出基于PD控制的载荷舱对日姿态机动、平台舱姿态跟踪以及两舱避碰等控制策略。在此基础上,为提高平台舱姿态跟踪速度,设计反步控制器对平台舱飞轮的动态特性进行补偿。进一步,为提高两舱协同控制性能,对传统PD控制进行改进,提出基于变增益PD控制的载荷舱姿态机动控制律,将两舱相对姿态信息包含在载荷舱对日姿态机动控制律中,有效降低了两舱碰撞风险,提高了两舱姿态机动速度。仿真结果表明,本文控制算法能有效实现双体卫星对日定向,且能避免两舱碰撞。 展开更多
关键词 双体卫星 对日定向 姿态机动 变增益PD控制 避碰控制
在线阅读 下载PDF
混合空间目标下的多航天器抵近观测任务规划 被引量:2
3
作者 李传江 闫慧达 +2 位作者 郭延宁 耿远卓 叶睿卿 《宇航学报》 EI CAS CSCD 北大核心 2023年第12期1871-1882,共12页
研究了服务航天器对多个空间目标的抵近观测任务规划问题,并考虑了高价值航天器、普通航天器以及失效航天器或空间碎片3类待观测目标。通过构建合理的评价体系,对目标观测的任务方案进行评分。建立了综合观测目标数量、观测目标类型、... 研究了服务航天器对多个空间目标的抵近观测任务规划问题,并考虑了高价值航天器、普通航天器以及失效航天器或空间碎片3类待观测目标。通过构建合理的评价体系,对目标观测的任务方案进行评分。建立了综合观测目标数量、观测目标类型、燃料消耗、单次点火速度增量以及任务时长的多约束优化模型,涉及的优化变量包括目标分配向量、观测次序向量以及观测时刻向量。服务航天器通过一种四脉冲机动策略抵近每个目标。采用进化算法求解规划问题,并提出一种基于动态规划(DP)的局部搜索策略以优化观测时刻,提升优化效率。最后分别给出了针对单一类型和混合类型空间目标的抵近观测任务规划算例,通过与传统进化算法的求解结果对比,说明了所提出的DP搜索策略的优势。 展开更多
关键词 多航天器 抵近观测 混合空间目标 任务规划 动态规划
在线阅读 下载PDF
信息非完备下多航天器轨道博弈强化学习方法 被引量:2
4
作者 王英杰 袁利 +2 位作者 汤亮 黄煌 耿远卓 《宇航学报》 EI CAS CSCD 北大核心 2023年第10期1522-1533,共12页
针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输... 针对信息非完备约束下航天器轨道博弈难以自主决策的问题,基于多智能体强化学习提出一种多航天器轨道博弈决策方法。首先建立轨道博弈动力学和信息非完备约束。其次建立用于训练和决策的神经网络模型,依据分布式系统架构对网络的输入输出结构进行设计,并引入具有记忆功能的长短期记忆网络(LSTM),根据航天器轨道运动在时间、空间连续的属性,补偿位置、速度测量信息的非完备性。然后采用近端策略优化(PPO)算法开展红蓝左右互搏式学习训练。最后通过三组对比训练实验,验证了所提出的方法在信息非完备约束下能够有效增强学习训练过程的稳定性,并提升任务完成率和降低燃料消耗。 展开更多
关键词 航天器 信息非完备 轨道博弈 多智能体强化学习 长短期记忆网络 近端策略优化算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部