软着陆探测是重要的地外天体探测方式,制导、导航与控制(Guidance,Navigation and Control,GNC)是地外天体软着陆成功的关键。首先梳理了国内外月球、火星和小天体等地外天体软着陆任务发展现状;在此基础上,总结了地外天体软着陆任务典...软着陆探测是重要的地外天体探测方式,制导、导航与控制(Guidance,Navigation and Control,GNC)是地外天体软着陆成功的关键。首先梳理了国内外月球、火星和小天体等地外天体软着陆任务发展现状;在此基础上,总结了地外天体软着陆任务典型GNC方案及自主导航与控制技术主要进展;最后,针对未来的地外天体精确定点软着陆任务,提出了需要重点关注和发展的自主导航与控制关键技术,为未来技术发展提供借鉴和参考。展开更多
为解决人形机器人在单一策略模型下同时学习多样化全身运动技能时,不同技能过渡过程中动作完成质量与动作间连贯性难以兼顾的难题,提出了一种单模型多技能高效模仿学习(single model imitation learning for multi-skill efficiency,SMI...为解决人形机器人在单一策略模型下同时学习多样化全身运动技能时,不同技能过渡过程中动作完成质量与动作间连贯性难以兼顾的难题,提出了一种单模型多技能高效模仿学习(single model imitation learning for multi-skill efficiency,SMILE)方法.该方法结合目标条件强化学习与生成对抗模仿学习,实现高效的全身运动策略生成.通过在奖励函数中引入偏好奖励,引导策略兼顾不同技能间的动作特性差异,有效降低策略陷入次优解的风险;通过基于失败次数的优先采样方法,自适应提高策略表现较差样本的采样概率,进一步提升学习多样化技能的效率与性能.仿真结果表明,SMILE方法可使人形机器人掌握包括站立、深蹲、行走、跃坎、俯身详察、捡拾物体等多种类人全身技能,且能够在不同技能之间实现连贯的过渡,成功率达到93.33%.在消融实验中,去除偏好奖励或基于失败次数的优先采样方法后,成功率分别降至53.33%和73.33%,训练效率也明显降低.与基于目标条件强化学习的全身运动策略生成方法相比,SMILE方法缓解了多技能训练过程中原有技能遗忘或性能退化现象.SMILE方法有效缓解了不同技能特性差异导致策略优化存在的冲突,而且兼顾了技能间过渡动作质量与连贯性,为人形机器人多技能模仿学习提供了新思路.展开更多
文摘软着陆探测是重要的地外天体探测方式,制导、导航与控制(Guidance,Navigation and Control,GNC)是地外天体软着陆成功的关键。首先梳理了国内外月球、火星和小天体等地外天体软着陆任务发展现状;在此基础上,总结了地外天体软着陆任务典型GNC方案及自主导航与控制技术主要进展;最后,针对未来的地外天体精确定点软着陆任务,提出了需要重点关注和发展的自主导航与控制关键技术,为未来技术发展提供借鉴和参考。
文摘为解决人形机器人在单一策略模型下同时学习多样化全身运动技能时,不同技能过渡过程中动作完成质量与动作间连贯性难以兼顾的难题,提出了一种单模型多技能高效模仿学习(single model imitation learning for multi-skill efficiency,SMILE)方法.该方法结合目标条件强化学习与生成对抗模仿学习,实现高效的全身运动策略生成.通过在奖励函数中引入偏好奖励,引导策略兼顾不同技能间的动作特性差异,有效降低策略陷入次优解的风险;通过基于失败次数的优先采样方法,自适应提高策略表现较差样本的采样概率,进一步提升学习多样化技能的效率与性能.仿真结果表明,SMILE方法可使人形机器人掌握包括站立、深蹲、行走、跃坎、俯身详察、捡拾物体等多种类人全身技能,且能够在不同技能之间实现连贯的过渡,成功率达到93.33%.在消融实验中,去除偏好奖励或基于失败次数的优先采样方法后,成功率分别降至53.33%和73.33%,训练效率也明显降低.与基于目标条件强化学习的全身运动策略生成方法相比,SMILE方法缓解了多技能训练过程中原有技能遗忘或性能退化现象.SMILE方法有效缓解了不同技能特性差异导致策略优化存在的冲突,而且兼顾了技能间过渡动作质量与连贯性,为人形机器人多技能模仿学习提供了新思路.