期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于模型的层次化强化学习算法
1
作者 郑宇 罗四维 吕子昂 《北京交通大学学报》 EI CAS CSCD 北大核心 2006年第5期1-5,共5页
针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状... 针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证. 展开更多
关键词 强化学习 马尔科夫决策过程 探索策略 倒立摆
在线阅读 下载PDF
用ClearCase实现软件配置管理 被引量:1
2
作者 吕子昂 罗四维 《铁路计算机应用》 2002年第3期4-7,共4页
软件配置管理的目标是保证软件质量,提高生产率。首先介绍了软件配置管理的重要性和任务。然后结合作者的开发应用经验着重介绍了软件配置工具ClearCase的基本概念和工作流程,探讨了配置规范以及分支与归并的策略。最后对软件配置管理... 软件配置管理的目标是保证软件质量,提高生产率。首先介绍了软件配置管理的重要性和任务。然后结合作者的开发应用经验着重介绍了软件配置工具ClearCase的基本概念和工作流程,探讨了配置规范以及分支与归并的策略。最后对软件配置管理的现状作了一个简单的分析和评价。 展开更多
关键词 软件配置管理 配置规范 分支 归并 软件开发 CLEARCASE
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部