期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Q-学习的非线性控制
1
作者
杨东
殷苌茗
+1 位作者
陈焕文
吴柏森
《长沙电力学院学报(自然科学版)》
2003年第1期35-38,共4页
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算...
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态 动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷.
展开更多
关键词
激励
学习
(
rl
)
马尔科夫决策过程(MDP)
Q-
学习
非线性控制
局部线性控制器
在线阅读
下载PDF
职称材料
题名
基于Q-学习的非线性控制
1
作者
杨东
殷苌茗
陈焕文
吴柏森
机构
长沙电力学院数学与计算机系
出处
《长沙电力学院学报(自然科学版)》
2003年第1期35-38,共4页
基金
国家自然科学基金资助项目(60075019)
文摘
给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态 动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷.
关键词
激励
学习
(
rl
)
马尔科夫决策过程(MDP)
Q-
学习
非线性控制
局部线性控制器
Keywords
reinforcement learning(
rl
)
Markov decision process(MDP)
Q-learning
non-linear control
local linear controller
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Q-学习的非线性控制
杨东
殷苌茗
陈焕文
吴柏森
《长沙电力学院学报(自然科学版)》
2003
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部