-
题名基于语言类任务的概念化强化学习框架
- 1
-
-
作者
彭少辉
胡杏
支天
-
机构
中国科学院计算技术研究所处理器芯片全国重点实验室
中国科学院大学
中科寒武纪科技股份有限公司
-
出处
《高技术通讯》
CAS
北大核心
2024年第6期555-566,共12页
-
基金
国家自然科学基金(62002338,U20A20227,U22A2028)
中国科学院稳定支持基础研究领域青年团队计划(YSBR-029)资助项目。
-
文摘
语言类强化学习任务可以促进强化学习策略的泛化性,其关键问题是自动化学习观测和语言描述的通用表示。现有方法往往隐式学习联合表示,不可避免地引入训练集中的虚假相关信息,进而损伤策略的泛化性和训练效率。针对这一问题,本文提出了概念化强化学习框架(CRL),其利用概念化这种从实体提取相似性生成抽象表示的认知方式,通过基于注意力机制的概念编码器和限制性损失函数显式地学习概括且抽象的概念化表示作为强化学习策略的输入。本文在常用的语言条件任务和文本游戏任务上验证了CRL的有效性,结果显示概念化表示大幅提升了策略的训练效率(最多70%)和泛化性能(最多30%),并有效提升了策略的可解释性。
-
关键词
深度强化学习(DRL)
语言类强化学习任务
文本游戏
表示学习
互信息优化
-
Keywords
deep reinforcement learning(DRL)
language-assisted reinforcement learning task
text game
representation learning
mutual information
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.1
[自动化与计算机技术—计算机应用技术]
-