期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于值学习与策略梯度的深度强化学习在核工程领域的适配性分析
1
作者 谭思超 刘震 +5 位作者 刘永超 李桐 梁彪 王博 李江宽 田瑞峰 《原子能科学技术》 EI CAS CSCD 北大核心 2024年第S02期382-392,共11页
深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,在解决问题的能力和适用场景上存在差异。核... 深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。 展开更多
关键词 人工智能 深度强化学习 值函数 策略梯度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部