期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于模型的层次化强化学习算法
1
作者
郑宇
罗四维
吕子昂
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2006年第5期1-5,共5页
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状...
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.
展开更多
关键词
强化学习
马尔科夫决策过程
探索策略
倒立摆
在线阅读
下载PDF
职称材料
用ClearCase实现软件配置管理
被引量:
1
2
作者
吕子昂
罗四维
《铁路计算机应用》
2002年第3期4-7,共4页
软件配置管理的目标是保证软件质量,提高生产率。首先介绍了软件配置管理的重要性和任务。然后结合作者的开发应用经验着重介绍了软件配置工具ClearCase的基本概念和工作流程,探讨了配置规范以及分支与归并的策略。最后对软件配置管理...
软件配置管理的目标是保证软件质量,提高生产率。首先介绍了软件配置管理的重要性和任务。然后结合作者的开发应用经验着重介绍了软件配置工具ClearCase的基本概念和工作流程,探讨了配置规范以及分支与归并的策略。最后对软件配置管理的现状作了一个简单的分析和评价。
展开更多
关键词
软件配置管理
配置规范
分支
归并
软件开发
CLEARCASE
在线阅读
下载PDF
职称材料
题名
基于模型的层次化强化学习算法
1
作者
郑宇
罗四维
吕子昂
机构
北京交通大学计算机与信息技术学院
出处
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2006年第5期1-5,共5页
基金
国家自然科学基金资助项目(60373029)
文摘
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.
关键词
强化学习
马尔科夫决策过程
探索策略
倒立摆
Keywords
reinforcement learning
markov decision prcoss(MDP)
exploration policy
inverted pendulum
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
用ClearCase实现软件配置管理
被引量:
1
2
作者
吕子昂
罗四维
机构
北方交通大学计算机信息与技术学院
出处
《铁路计算机应用》
2002年第3期4-7,共4页
文摘
软件配置管理的目标是保证软件质量,提高生产率。首先介绍了软件配置管理的重要性和任务。然后结合作者的开发应用经验着重介绍了软件配置工具ClearCase的基本概念和工作流程,探讨了配置规范以及分支与归并的策略。最后对软件配置管理的现状作了一个简单的分析和评价。
关键词
软件配置管理
配置规范
分支
归并
软件开发
CLEARCASE
Keywords
SCM, ClearCase, Config Spec, Branch, merge
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于模型的层次化强化学习算法
郑宇
罗四维
吕子昂
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2006
0
在线阅读
下载PDF
职称材料
2
用ClearCase实现软件配置管理
吕子昂
罗四维
《铁路计算机应用》
2002
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部