期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于高斯过程分类器的连续空间强化学习 被引量:11
1
作者 王雪松 张依阳 程玉虎 《电子学报》 EI CAS CSCD 北大核心 2009年第6期1153-1158,共6页
如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态... 如何将强化学习方法推广到大规模或连续空间,是决定强化学习方法能否得到广泛应用的关键.不同于已有的值函数逼近法,把强化学习构建为一个简单的二分类问题,利用分类算法来得到强化学习中的策略,提出一种基于高斯过程分类器的连续状态和连续动作空间强化学习方法.首先将连续动作空间离散化为确定数目的离散动作,然后利用高斯分类器对系统的连续状态-离散动作对进行正负分类,对判定为正类的离散动作按其概率值进行加权求和,进而得到实际作用于系统的连续动作.小船靠岸问题的仿真结果表明所提方法能够有效解决强化学习的连续空间表示问题. 展开更多
关键词 高斯过程 分类器 连续空间 强化学习 小船靠岸问题
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部