-
题名潜在空间中的策略搜索强化学习方法
- 1
-
-
作者
赵婷婷
王莹
孙威
陈亚瑞
王嫄
杨巨成
-
机构
天津科技大学人工智能学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2024年第4期1032-1046,共15页
-
基金
国家自然科学基金(61976156)
天津市企业科技特派员项目(20YDTPJC00560)。
-
文摘
策略搜索是深度强化学习领域中一种能够解决大规模连续状态空间和动作空间问题的高效学习方法,被广泛应用在现实问题中。然而,此类方法通常需要花费大量的学习样本和训练时间,且泛化能力较差,学到的策略模型难以泛化至环境中看似微小的变化。为了解决上述问题,提出了一种基于潜在空间的策略搜索强化学习方法。将学习状态表示的思想拓展到动作表示上,即在动作表示的潜在空间中学习策略,再将动作表示映射到真实动作空间中。通过表示学习模型的引入,摒弃端到端的训练方式,将整个强化学习任务划分成大规模的表示模型部分和小规模的策略模型部分,使用无监督的学习方法来学习表示模型,使用策略搜索强化学习方法学习小规模的策略模型。大规模的表示模型能保留应有的泛化性和表达能力,小规模的策略模型有助于减轻策略学习的负担,从而在一定程度上缓解深度强化学习领域中样本利用率低、学习效率低和动作选择泛化性弱的问题。最后,在智能控制任务CarRacing和Cheetah中验证了引入潜在空间中的状态表示和动作表示的有效性。
-
关键词
无模型强化学习
策略模型
状态表示
动作表示
连续动作空间
策略搜索强化学习方法
-
Keywords
model-free reinforcement learning
policy model
state representations
action representations
continuous action space
policy search reinforcement learning method
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名潜在空间中深度强化学习方法研究综述
- 2
-
-
作者
赵婷婷
孙威
陈亚瑞
王嫄
杨巨成
-
机构
天津科技大学人工智能学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2023年第9期2047-2074,共28页
-
基金
国家自然科学基金(61976156)
天津市企业科技特派员项目(20YDTPJC00560)。
-
文摘
深度强化学习(DRL)是实现通用人工智能的一种有效学习范式,已在一系列实际应用中取得了显著成果。然而,DRL存在泛化性能差、样本效率低等问题。基于深度神经网络的表示学习通过学习环境的底层结构,能够有效缓解上述问题。因此,基于潜在空间的深度强化学习成为该领域的主流方法。系统地综述了基于潜在空间的表示学习在深度强化学习中的研究进展,分析并总结了现有基于潜在空间的深度强化学习的方法,将其分为潜在空间中的状态表示、动作表示以及动力学模型进行详细阐述。其中,潜在空间中的状态表示又被分为基于重构方式的状态表示方法、基于互模拟等价的状态表示方法及其他状态表示方法。最后,列举了现有基于潜在空间的强化学习在游戏领域、智能控制领域、推荐领域及其他领域的成功应用,并浅谈了该领域的未来发展趋势。
-
关键词
强化学习
深度学习
潜在空间
状态表示
动作表示
-
Keywords
reinforcement learning
deep learning
latent space
state representation
action representation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-