期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于值学习与策略梯度的深度强化学习在核工程领域的适配性分析
1
作者
谭思超
刘震
+5 位作者
刘永超
李桐
梁彪
王博
李江宽
田瑞峰
《原子能科学技术》
EI
CAS
CSCD
北大核心
2024年第S02期382-392,共11页
深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,在解决问题的能力和适用场景上存在差异。核...
深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。
展开更多
关键词
人工智能
深度强化学习
值函数
策略梯度
在线阅读
下载PDF
职称材料
题名
基于值学习与策略梯度的深度强化学习在核工程领域的适配性分析
1
作者
谭思超
刘震
刘永超
李桐
梁彪
王博
李江宽
田瑞峰
机构
哈尔滨工程大学船舶热能动力全国重点实验室
哈尔滨工程大学
黑龙江省核
动力
装置性能与设备
重点
实验室
哈尔滨工程大学
核安全与先进核能技术工信部
重点
实验室
出处
《原子能科学技术》
EI
CAS
CSCD
北大核心
2024年第S02期382-392,共11页
文摘
深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。
关键词
人工智能
深度强化学习
值函数
策略梯度
Keywords
artificial intelligence
deep reinforcement learning
value function
policy gradient
分类号
TL362 [核科学技术—核技术及应用]
TM623 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于值学习与策略梯度的深度强化学习在核工程领域的适配性分析
谭思超
刘震
刘永超
李桐
梁彪
王博
李江宽
田瑞峰
《原子能科学技术》
EI
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部