期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向长序列自主作业的非对称Actor-Critic强化学习方法
1
作者
任君凯
瞿宇珂
+3 位作者
罗嘉威
倪子淇
卢惠民
叶益聪
《国防科技大学学报》
北大核心
2025年第4期111-122,共12页
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑...
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。
展开更多
关键词
自主作业机器人
强化学习
Actor-Critic
长序列操作
在线阅读
下载PDF
职称材料
题名
面向长序列自主作业的非对称Actor-Critic强化学习方法
1
作者
任君凯
瞿宇珂
罗嘉威
倪子淇
卢惠民
叶益聪
机构
国防科技大学智能科学学院
装备状态感知与敏捷保障全国重点实验室
国防科技大学空天科学学院
出处
《国防科技大学学报》
北大核心
2025年第4期111-122,共12页
基金
国家自然科学基金资助项目(62373201)
国防科技大学自主创新科学基金资助项目(ZK2023-30,24-ZZCX-GZZ-11)。
文摘
长序列自主作业能力已成为制约智能机器人走向实际应用的问题之一。针对机器人在复杂场景中面临的多样化长序列操作技能需求,提出了一种高效鲁棒的非对称Actor-Critic强化学习方法,旨在解决长序列任务学习难度大与奖励函数设计复杂的挑战。通过整合多个Critic网络协同训练单一Actor网络,并引入生成对抗模仿学习为Critic网络生成内在奖励,从而降低长序列任务学习难度。在此基础上,设计两阶段学习方法,利用模仿学习为强化学习提供高质量预训练行为策略,在进一步提高学习效率的同时,增强策略的泛化性能。面向化学实验室长序列自主作业的仿真结果表明,该方法显著提高了机器人长序列操作技能的学习效率与行为策略的鲁棒性。
关键词
自主作业机器人
强化学习
Actor-Critic
长序列操作
Keywords
autonomous manipulation robot
reinforcement learning
Actor-Critic
long-sequence operation
分类号
TP249 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向长序列自主作业的非对称Actor-Critic强化学习方法
任君凯
瞿宇珂
罗嘉威
倪子淇
卢惠民
叶益聪
《国防科技大学学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部