期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
强化学习算法中启发式回报函数的设计及其收敛性分析 被引量:13
1
作者 魏英姿 赵明扬 《计算机科学》 CSCD 北大核心 2005年第3期190-193,共4页
(中国科学院沈阳自动化所机器人学重点实验室沈阳110016)
关键词 强化学习算法 启发式回报函数 收敛性 马尔可夫决策过程 机器学习 人工智能
在线阅读 下载PDF
回报函数学习的学徒学习综述 被引量:2
2
作者 金卓军 钱徽 +1 位作者 陈沈轶 朱淼良 《智能系统学报》 2009年第3期208-212,共5页
通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学... 通过研究基于回报函数学习的学徒学习的发展历史和目前的主要工作,概述了基于回报函数学习的学徒学习方法.分别在回报函数为线性和非线性条件下讨论,并且在线性条件下比较了2类方法——基于逆向增强学习(IRL)和最大化边际规划(MMP)的学徒学习.前者有较为快速的近似算法,但对于演示的最优性作了较强的假设;后者形式上更易于扩展,但计算量大.最后,提出了该领域现在还存在的问题和未来的研究方向,如把学徒学习应用于POMDP环境下,用PBVI等近似算法或者通过PCA等降维方法对数据进行学习特征的提取,从而减少高维度带来的大计算量问题. 展开更多
关键词 学徒学习 回报函数 逆向增强学习 最大化边际规划
在线阅读 下载PDF
风险决策中的回报和风险研究 被引量:1
3
作者 刘海澜 林凤 《华东工业大学学报》 1997年第4期48-52,共5页
期望效用理论已广泛应用于风险型决策.本文引进了风险回报函数来表达期望效用,并提出了在合理的假定条件下,风险回报函数形式及其相应的回报和风险的测量.
关键词 效用理论 风险决策 风险回报函数
在线阅读 下载PDF
基于强化学习算法的公交信号优先策略 被引量:4
4
作者 舒波 李大铭 赵新良 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第10期1513-1516,共4页
综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先... 综合分析了影响城市公共交通系统运行的多种因素,提出了一种新型的基于强化学习算法的城市公交信号优先控制策略.该策略利用强化学习算法的试错-改进机制,根据不同交通环境下信号控制策略实施后反馈的结果,迭代优化路口的公交信号优先控制策略,从而使其具备了自学习的能力.基于Paramics的仿真实验表明,该算法能够在保障路口正常交通秩序的同时,显著提高公交车运行效率. 展开更多
关键词 公交系统 交通信号控制 公交信号优先 强化学习 回报函数
在线阅读 下载PDF
基于强化学习的自主移动机器人反应式自救控制 被引量:2
5
作者 王忠巍 曹其新 +1 位作者 栾楠 张蕾 《上海交通大学学报》 EI CAS CSCD 北大核心 2009年第11期1751-1755,共5页
为了解救陷入环境障碍的自主移动机器人,提出了一种基于强化学习的自救脱困控制方法.该方法通过移动机器人与环境的交互作用,能够在线学习实现脱困自救的运动控制策略,并利用机器人自身条件克服环境障碍,避免了实施救援机器人的行动和... 为了解救陷入环境障碍的自主移动机器人,提出了一种基于强化学习的自救脱困控制方法.该方法通过移动机器人与环境的交互作用,能够在线学习实现脱困自救的运动控制策略,并利用机器人自身条件克服环境障碍,避免了实施救援机器人的行动和终止其作业任务所造成的损失.利用工作环境的先验知识指导,设计含有启发信息的强化学习系统回报函数,保证搜索和学习控制策略向正确方向进行,同时提高学习控制器的适应性和鲁棒性.数字仿真证明了通过自学习控制策略实现自救脱困的可行性. 展开更多
关键词 自主移动机器人 反应式控制 Q学习 启发式回报函数
在线阅读 下载PDF
考虑借贷过程的比例再保险最优控制模型 被引量:6
6
作者 杨瑞成 刘坤会 《北方交通大学学报》 CSCD 北大核心 2003年第6期59-62,共4页
在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回... 在一类带分红过程比例再保险模型的基础上,把借贷过程这一因素考虑进去,构造了一新的包括分红过程和借贷过程的比例再保险模型.利用随机分析中的最优控制理论,通过数学分析,针对不同的参数得出了不同情形下最优控制策略及相应的最大回报函数. 展开更多
关键词 随机控制 借贷过程 布朗运动 期望 最优控制策略 回报函数
在线阅读 下载PDF
基于参考模型的输出反馈强化学习控制 被引量:1
7
作者 郝钏钏 方舟 李平 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2013年第3期409-414,479,共7页
现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望... 现有的直接策略搜索强化学习控制算法大多是状态完全可观对象设计状态反馈控制策略,其适用的对象范围十分有限.为此,提出一种适用范围更广的模型参考输出反馈强化学习控制算法,其学习过程仅依赖对象输出,并可以获得使闭环系统具有期望动态性能的输出反馈控制策略.算法构造了以参考模型为基础的回报函数,可以有效地描述系统的期望闭环动态性能;采用以PID输出反馈控制律为基础的参数化随机控制策略,以便于利用先验知识、依据控制领域常用的PID参数经验整定方法确定较好的初始策略,以缩短学习时间;并使用具有良好学习性能的eNAC算法进行控制策略优化.二阶开环不稳定对象和某型高亚音速无人机俯仰通道线性参变(LPV)模型的学习控制仿真结果验证了算法的有效性. 展开更多
关键词 强化学习控制 回报函数构造 eNAC算法 输出反馈控制策略
在线阅读 下载PDF
基于倾向性分析的轨迹评测技术 被引量:1
8
作者 金卓军 钱徽 朱淼良 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第10期1732-1737,共6页
通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不... 通过逆向增强学习和策略不变条件下的回报函数变形原理,研究已有标准轨迹前提下的车辆轨迹评测问题,提出基于倾向性分析的轨迹评测技术.对于标准轨迹和评测轨迹应用逆向增强学习算法,分别求出两者相对应的特征权重,将特征权重在策略不变条件下分别扩展成线性子空间,通过计算由正交投影矩阵定义的子空间间距离得到对评测轨迹的评测值.在四轮车辆仿真实验中,针对几种典型的驾驶风格轨迹对该方法进行验证.实验结果表明,该方法能够对于避障评测轨迹按其与标准轨迹的差异给出评测结果,克服了相同策略对应回报函数不唯一性所带来的影响,有效解决了车辆轨迹之间难于定量比较的难题. 展开更多
关键词 轨迹评测 倾向性分析 回报函数变形 逆向增强学习 马尔可夫决策过程
在线阅读 下载PDF
考虑运转费用的奇异随机收获模型的最优控制问题 被引量:1
9
作者 杨瑞成 刘坤会 《北京交通大学学报》 EI CAS CSCD 北大核心 2005年第6期82-85,共4页
研究了一类奇异随机收获模型的最优收获控制策略及相应的最优回报函数问题.在收获效益期望值的结构中,首次把系统中的运转费用这一重要因素考虑进去,运用随机分析的方法给出了最优回报函数应满足的充分性定理,并且在一定条件下得出了最... 研究了一类奇异随机收获模型的最优收获控制策略及相应的最优回报函数问题.在收获效益期望值的结构中,首次把系统中的运转费用这一重要因素考虑进去,运用随机分析的方法给出了最优回报函数应满足的充分性定理,并且在一定条件下得出了最优收获策略及最大回报函数的具体形式. 展开更多
关键词 奇异控制 最优回报函数 Doléans-Dade-Meyer公式 伊藤随机微分方程
在线阅读 下载PDF
带漂移因子及停时的最优脉冲随机控制问题(英文)
10
作者 杨瑞成 刘坤会 《工程数学学报》 CSCD 北大核心 2006年第3期543-552,共10页
通过把漂移参数引入到受控于Poisson过程的状态结构中,本文建立了一非对称型最优脉冲随机控制模型。在此模型的目标函数中,首次引进了停时因素。利用随机积分及脉冲控制理论,我们不但给出了最优回报函数应满足的充分性条件,而且在一定... 通过把漂移参数引入到受控于Poisson过程的状态结构中,本文建立了一非对称型最优脉冲随机控制模型。在此模型的目标函数中,首次引进了停时因素。利用随机积分及脉冲控制理论,我们不但给出了最优回报函数应满足的充分性条件,而且在一定条件下得出了其显解及相应的最优控制策略。 展开更多
关键词 维纳过程 漂移参数 停时 最优回报函数 推广的Ito公式
在线阅读 下载PDF
基于RDC-Q学习算法的移动机器人路径规划 被引量:7
11
作者 王子强 武继刚 《计算机工程》 CAS CSCD 2014年第6期211-214,共4页
传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚... 传统Q算法对于机器人回报函数的定义较为宽泛,导致机器人的学习效率不高。为解决该问题,给出一种回报详细分类Q(RDC-Q)学习算法。综合机器人各个传感器的返回值,依据机器人距离障碍物的远近把机器人的状态划分为20个奖励状态和15个惩罚状态,对机器人每个时刻所获得的回报值按其状态的安全等级分类,使机器人趋向于安全等级更高的状态,从而帮助机器人更快更好地学习。通过在一个障碍物密集的环境中进行仿真实验,证明该算法收敛速度相对传统回报Q算法有明显提高。 展开更多
关键词 路径规划 移动机器人 强化学习 Q学习算法 回报函数 学习效率
在线阅读 下载PDF
基于多阈值算法融合的图像分割
12
作者 吕红力 《郑州轻工业学院学报(自然科学版)》 CAS 2014年第2期67-70,共4页
针对一种阈值分割算法很难对不同类型的图像进行有效地分割的问题,提出一种多阀值算法融合的方法.该方法通过不同的算法得到一组阈值,由迭代的方式将它们有机地组合,并定义一个回报函数,来选取最优阈值.实验结果表明,该方法针对不同类... 针对一种阈值分割算法很难对不同类型的图像进行有效地分割的问题,提出一种多阀值算法融合的方法.该方法通过不同的算法得到一组阈值,由迭代的方式将它们有机地组合,并定义一个回报函数,来选取最优阈值.实验结果表明,该方法针对不同类型的图像能够选择最优的阈值进行有效的分割,消除了使用者必须具有先验知识的障碍,省去了人工选择分割方法的麻烦. 展开更多
关键词 图像分割 阈值算法融合 回报函数
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部