期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
1
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
2
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量:4
3
作者 唐昊 韩江洪 高隽 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选... 在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 展开更多
关键词 markov性能势 连续时间markov控制过程 鲁棒控制策略 策略迭代 最优控制
在线阅读 下载PDF
随机模型检测连续时间Markov过程 被引量:2
4
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
在线阅读 下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
5
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
在线阅读 下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
6
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 markov决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
在线阅读 下载PDF
连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析 被引量:1
7
作者 朱益民 《浙江工业大学学报》 CAS 1999年第2期155-159,共5页
讨论了连续时间马氏决策过程中最优平稳策略对折扣因子的灵敏度问题,并将之化为一个多项式问题来求解。
关键词 马氏决策过程 最优策略 连续时间
在线阅读 下载PDF
基于半Markov决策过程的概率布尔网络模型
8
作者 刘秋丽 杨洁 《华南师范大学学报(自然科学版)》 CAS 北大核心 2013年第4期12-15,共4页
借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的... 借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的效用. 展开更多
关键词 概率布尔网络 markov决策过程 风险概率
在线阅读 下载PDF
区域交通网络行程时间估计的半Markov链模型 被引量:4
9
作者 袁鹏程 隽志才 《系统管理学报》 CSSCI 2014年第5期690-697,703,共9页
利用模糊聚类分析及典型判别方法,将区域交通网络单元路段的状态划分为3类,考虑到各类交通状态下拥挤效应的异同,对各状态下的瞬时行程时间函数进行了标定。然后,对区域交通网络的状态进行了定义,应用半Markov链随机过程理论,分析了给... 利用模糊聚类分析及典型判别方法,将区域交通网络单元路段的状态划分为3类,考虑到各类交通状态下拥挤效应的异同,对各状态下的瞬时行程时间函数进行了标定。然后,对区域交通网络的状态进行了定义,应用半Markov链随机过程理论,分析了给定时间段内某区域交通网络各种状态的随机变化规律,计算了各种状态出现的极限概率。最后,结合各状态下网络单元路段的瞬时行程时间函数,给出了给定时间段内的区域交通网络行程时间估计方法。将模型估计得到的行程时间与实测行程时间进行了对比,利用t检验法对估计结果进行了检验,检验结果表明,在显著性水平α=0.05的条件下,估计平均行程时间与实测行程时间均值没有显著性差异。 展开更多
关键词 区域交通网络 行程时间 随机过程 markov
在线阅读 下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
10
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间markov决策过程 决策问题
在线阅读 下载PDF
基于连续时间马尔可夫过程的证券投资策略 被引量:1
11
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
在线阅读 下载PDF
Q(f)-过程非唯一时连续时间折扣目标MDP
12
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1996年第3期7-12,共6页
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的... 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性. 展开更多
关键词 连续时间 折扣目标 Q过程 马氏决策规划
在线阅读 下载PDF
Markov控制过程基于性能势仿真的并行优化 被引量:1
13
作者 高旭东 殷保群 +1 位作者 唐昊 奚宏生 《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的... Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 展开更多
关键词 性能势 并行仿真算法 连续时间markov控制过程 紧致行动集
在线阅读 下载PDF
基于BER和CTMC的航天器发射组织过程可靠度模型
14
作者 董学军 白国庆 陈英武 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期46-51,共6页
在航天器发射工程中,存在组织过程可靠性评估难以量化的问题。基于航天器发射组织过程的时间特性呈现多个子过程并发执行且子过程具有Markov性和齐次性的特点,使用连续时间Markov链(CTMC)建立多吸收态的组织过程可靠度模型,利用互模拟... 在航天器发射工程中,存在组织过程可靠性评估难以量化的问题。基于航天器发射组织过程的时间特性呈现多个子过程并发执行且子过程具有Markov性和齐次性的特点,使用连续时间Markov链(CTMC)建立多吸收态的组织过程可靠度模型,利用互模拟等价关系(BER)简化组织过程的状态空间,并进一步给出各种状态转移率和组织过程可靠度计算方法。最后,通过数据分析说明模型在航天器发射工程进度计划评估中的作用和意义。 展开更多
关键词 航天器发射 互模拟等价关系 连续时间markov 过程可靠度
在线阅读 下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
15
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
在线阅读 下载PDF
一阶非线性随机系统的学习优化控制 被引量:2
16
作者 岳峰 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期679-682,共4页
文章研究了一阶连续时间非线性随机系统的优化控制问题,通过勒贝格采样方法将其建模为半Markov决策过程,采用基于事件驱动和Q学习方法,给出了折扣和平均优化准则下统一的优化算法;仿真实验表明,该算法处理一阶非线性随机系统的最优控制... 文章研究了一阶连续时间非线性随机系统的优化控制问题,通过勒贝格采样方法将其建模为半Markov决策过程,采用基于事件驱动和Q学习方法,给出了折扣和平均优化准则下统一的优化算法;仿真实验表明,该算法处理一阶非线性随机系统的最优控制问题,可以获得较好的优化效果。 展开更多
关键词 随机系统 markov决策过程 事件驱动思想 Q学习
在线阅读 下载PDF
非平稳服务请求下的功耗管理
17
作者 马喜强 宋喜佳 +1 位作者 刘维亚 郑喜凤 《光学精密工程》 EI CAS CSCD 北大核心 2014年第7期1929-1937,共9页
针对嵌入式系统的多任务环境,提出了混合模型功耗管理算法,用于对服从一般分布的系统进行建模。首先,介绍了现有的动态功耗管理策略算法,阐述了算法需要改进的原因。然后,使用重标极差法(Rescaled Range Analysis,R/S)对非平稳服务请求... 针对嵌入式系统的多任务环境,提出了混合模型功耗管理算法,用于对服从一般分布的系统进行建模。首先,介绍了现有的动态功耗管理策略算法,阐述了算法需要改进的原因。然后,使用重标极差法(Rescaled Range Analysis,R/S)对非平稳服务请求下的时间序列进行长距离相关性分析;根据不同的分析结果选择相应的最大概率策略,即基于电池剩余电量的超时策略、模糊非标准PID策略和半Markov随机策略。最后,给出了策略参数的确定方法并通过实验的方法对本文提出的策略进行分析。实验结果表明,本文策略弥补了常规动态电源管理策略的不足,具有更广泛的适应性;在性能损失10%的条件下,系统平均功耗减少了37%,命中率大于60%,更稳定、有效地降低了功耗,有利于在嵌入式系统中应用。 展开更多
关键词 功耗管理 重标极差法 markov决策过程 策略优化 嵌入式系统
在线阅读 下载PDF
动态电源管理的在线优化技术 被引量:2
18
作者 翟剑锋 李衍杰 陈浩耀 《控制理论与应用》 EI CAS CSCD 北大核心 2018年第1期65-70,共6页
研究离散事件动态系统中的一类随机离散动态系统—–半Markov决策过程,在动态电源管理问题中的应用.动态电源管理问题存在于很多便携式电子设备中,其主要目的是根据电子设备的状态通过电源管理策略选择关闭或休眠一些元器件,从而实现节... 研究离散事件动态系统中的一类随机离散动态系统—–半Markov决策过程,在动态电源管理问题中的应用.动态电源管理问题存在于很多便携式电子设备中,其主要目的是根据电子设备的状态通过电源管理策略选择关闭或休眠一些元器件,从而实现节省电子设备功耗,延长电池使用时间的目的.首先讨论了动态电源管理问题的建模,给出了一种带有禁止时间的在线优化方法,该方法通过设备自身运行数据,自主地学习并改进电源的动态管理策略,从而使每台电子设备具有个性化的动态电源管理方式,其优化过程可以在设备充电时完成,不需要通过云传输和云计算,避免了隐私数据的泄漏.最后通过仿真实验验证了算法的有效性. 展开更多
关键词 动态电源管理 智能节能 markov决策过程 在线优化
在线阅读 下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
19
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 受控排队系统 平均最优平稳策略 约束平均最优策略
在线阅读 下载PDF
事件驱动Q学习在呼叫接入控制中的应用
20
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间markov决策过程 事件驱动Q学习 呼叫接入控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部