期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
深度强化学习的通用插件研究综述
被引量:
2
1
作者
钟欣见
王永华
李明
《河北科技大学学报》
CAS
北大核心
2024年第4期362-372,共11页
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在...
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。
展开更多
关键词
人工智能理论
通用插件
深度强化学习
模型设计
内在奖励
经验回放
自我博弈
在线阅读
下载PDF
职称材料
题名
深度强化学习的通用插件研究综述
被引量:
2
1
作者
钟欣见
王永华
李明
机构
广东工业大学自动化学院
出处
《河北科技大学学报》
CAS
北大核心
2024年第4期362-372,共11页
基金
国家自然科学基金(61971147)
广东省基础与应用基础研究基金(2023A1515011888)。
文摘
深度强化学习的通用插件是一种可附加于大部分原生算法之上,并与其他种类插件兼容的算法类型。根据环境的不同,原生算法加入合适的插件后形成了不同的变体,并在训练速度、稳定性等方面取得了更好的效果。根据各类变体包含的通用插件在训练流程中的共性,将它们分为了6类,包括通用网络模型、内在奖励、经验回放、自我博弈、模仿学习和课程学习。综述了这6类算法中常用的通用插件,介绍了它们的应用场景和在深度强化学习中的主要作用,提出了未来的研究重点:1)提高经验利用效率;2)设计和训练出通用神经网络架构;3)提高算法在稀疏奖励环境的探索效率;4)提高算法在现实中应对各种突发状况的能力。
关键词
人工智能理论
通用插件
深度强化学习
模型设计
内在奖励
经验回放
自我博弈
Keywords
artificial intelligence theory
general plugin
deep reinforcement learning
model design
intrinsic reward
experience replay
self-play
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
深度强化学习的通用插件研究综述
钟欣见
王永华
李明
《河北科技大学学报》
CAS
北大核心
2024
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部