期刊文献+
共找到113篇文章
< 1 2 6 >
每页显示 20 50 100
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
1
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 半markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
在线阅读 下载PDF
基于半Markov决策过程的概率布尔网络模型
2
作者 刘秋丽 杨洁 《华南师范大学学报(自然科学版)》 CAS 北大核心 2013年第4期12-15,共4页
借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的... 借助半Markov决策过程理论研究了概率布尔网络中的最优控制问题.将概率布尔网络的控制模型转化为首达目标的半Markov决策过程模型,通过选取最优控制输入使得和系统相关的目标函数最小,从而解决了一个最优控制问题,并举例说明所用方法的效用. 展开更多
关键词 概率布尔网络 半markov决策过程 风险概率
在线阅读 下载PDF
基于半Markov决策过程的劣化系统检测与维修优化模型 被引量:10
3
作者 程志君 郭波 《自动化学报》 EI CSCD 北大核心 2007年第10期1101-1104,共4页
针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模... 针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 马氏决策过程 位相型分布 检测与维修
在线阅读 下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
4
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 半markov决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
在线阅读 下载PDF
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
5
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
基于半Markov过程的变压器故障率分析 被引量:4
6
作者 白翠粉 高文胜 +3 位作者 程建伟 土松江.卡日 刘通 马仪 《高电压技术》 EI CAS CSCD 北大核心 2015年第12期3916-3921,共6页
设备的故障率曲线是制定维修策略的重要指标之一。为了合理估计变压器的故障率,提出了基于半Markov过程的分析模型。模型中考虑了变压器的热老化过程和随机故障过程。热老化过程根据绝缘纸平均聚合度的取值范围划分为4个状态,状态间的... 设备的故障率曲线是制定维修策略的重要指标之一。为了合理估计变压器的故障率,提出了基于半Markov过程的分析模型。模型中考虑了变压器的热老化过程和随机故障过程。热老化过程根据绝缘纸平均聚合度的取值范围划分为4个状态,状态间的转移时间假设服从Weibull分布,Weibull分布的尺度参数由经验公式获得;随机故障过程考虑了由雷击和短路冲击引起的2个随机故障状态,老化状态和随机故障状态之间的转移时间假设服从指数分布,转移率由故障统计数据获得。对模型中Weibull分布的形状参数进行适当取值后,可获得符合实际统计结果的变压器故障率曲线,说明综合考虑热老化和随机故障过程的半Markov变压器故障模型能够较好地反映实际变压器的故障机制。 展开更多
关键词 变压器 故障率 markov过程 热老化 随机故障 WEIBULL分布
在线阅读 下载PDF
半Markov过程基于性能势的灵敏度分析和性能优化 被引量:1
7
作者 李衍杰 殷保群 +2 位作者 奚宏生 周亚平 代桂平 《控制理论与应用》 EI CAS CSCD 北大核心 2004年第6期1032-1035,共4页
基于性能势的方法 ,研究了一类半Markov过程 (SMP)的性能灵敏度分析和平均费用下的性能优化问题 .将SMP转化为与之等价的离散时间Markov链 (DTMC) ,利用DTMC的性能势 ,对SMP进行灵敏度分析和性能优化 ,得到了SMP基于DTMC性能势的灵敏度... 基于性能势的方法 ,研究了一类半Markov过程 (SMP)的性能灵敏度分析和平均费用下的性能优化问题 .将SMP转化为与之等价的离散时间Markov链 (DTMC) ,利用DTMC的性能势 ,对SMP进行灵敏度分析和性能优化 ,得到了SMP基于DTMC性能势的灵敏度分析公式和最优性方程 .最后给出了一个数值例子以表明该方法的应用 . 展开更多
关键词 markov过程 性能势 灵敏度分析 最优性方程
在线阅读 下载PDF
基于Markov决策过程的驾驶员行为模型 被引量:3
8
作者 许骏 李一兵 《汽车工程》 EI CSCD 北大核心 2008年第1期14-16,60,共4页
将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机... 将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机仿真。 展开更多
关键词 驾驶员行为 markov决策过程 模型 人机系统
在线阅读 下载PDF
半Markov控制过程在平均准则下的优化算法 被引量:1
9
作者 代桂平 殷保群 +2 位作者 李衍杰 周亚平 奚宏生 《中国科学技术大学学报》 CAS CSCD 北大核心 2005年第2期202-207,共6页
研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证... 研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性.最后给出了一个数值例子来说明算法的应用. 展开更多
关键词 markov控制过程 紧致行动集 性能势 策略迭代 数值迭代
在线阅读 下载PDF
基于半马尔科夫决策过程的视频传输拥塞控制算法 被引量:3
10
作者 田波 杨宜民 蔡述庭 《通信学报》 EI CSCD 北大核心 2014年第8期154-161,共8页
针对传输控制协议(TCP,transmission control protocol)的拥塞控制算法未能满足视频传输质量要求的问题,提出了一种基于半马尔科夫决策过程的视频传输拥塞控制算法。首先,为克服目前基于峰值信噪比的视频质量评估方法实时性低的缺点,设... 针对传输控制协议(TCP,transmission control protocol)的拥塞控制算法未能满足视频传输质量要求的问题,提出了一种基于半马尔科夫决策过程的视频传输拥塞控制算法。首先,为克服目前基于峰值信噪比的视频质量评估方法实时性低的缺点,设计了一种可在线运行的无参考视频质量评估方法。其次,根据接收端视频质量的反馈,采用半马尔科夫决策过程对拥塞控制进行建模,并通过求解此模型得到拥塞控制参数的调整策略。仿真实验结果表明,与目前典型的拥塞控制算法相比,该算法不但具备更好的TCP友好性,而且有效地提高了解码后视频序列的主观和客观质量。 展开更多
关键词 拥塞控制 视频传输 视频质量评估 马尔科夫决策过程
在线阅读 下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
11
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间markov决策过程 决策问题
在线阅读 下载PDF
基于半马尔科夫决策过程的虚拟传感网络资源分配策略 被引量:2
12
作者 王汝言 李宏娟 +1 位作者 吴大鹏 李红霞 《电子与信息学报》 EI CSCD 北大核心 2019年第12期3014-3021,共8页
针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切,造成较低的资源利用率,进而给资源提供者带来较低的收益问题,根据虚拟传感网络请求(VSNR)的动态变化情况,该文提出虚拟传感网络(VSN)中基于半马尔科夫决策过程(SMDP)的资... 针对传统无线传感网络(WSN)中资源部署与特定任务的耦合关系密切,造成较低的资源利用率,进而给资源提供者带来较低的收益问题,根据虚拟传感网络请求(VSNR)的动态变化情况,该文提出虚拟传感网络(VSN)中基于半马尔科夫决策过程(SMDP)的资源分配策略。定义VSN的状态集、行为集、状态转移概率,考虑传感网能量受限以及完成VSNR的时间,给出奖赏函数的表达式,并使用免模型强化学习算法求解特定状态下的行为,从而最大化网络资源提供者的长期收益。数值结果表明,该文的资源分配策略能有效提高传感网资源提供者的收益。 展开更多
关键词 虚拟传感网络 资源分配 马尔科夫决策过程
在线阅读 下载PDF
基于Markov决策过程的列控系统定量安全分析方法 被引量:1
13
作者 周果 赵会兵 《铁道学报》 EI CAS CSCD 北大核心 2016年第2期74-81,共8页
为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的... 为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的风险被控制在可接受的范围内。本文应用以Markov决策过程为基础的建模方法,对列控系统中的双车追踪场景进行系统行为建模,集成系统正常行为和失效行为,提出综合系统行为模型CBM,并通过概率模型检验工具PRISM对危险失效概率进行准确计算,提出列控系统定量安全分析方法。 展开更多
关键词 列控系统 定量安全分析 markov决策过程 概率模型检验
在线阅读 下载PDF
半Markov控制过程基于性能势仿真的并行优化算法
14
作者 代桂平 殷保群 +1 位作者 李衍杰 奚宏生 《中国科学技术大学学报》 CAS CSCD 北大核心 2006年第2期183-186,共4页
根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空间往往非常大,因此通常的串行仿真算法可能会耗时过长,或由于硬件限制而无法实现.针对这些问题,提出了... 根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空间往往非常大,因此通常的串行仿真算法可能会耗时过长,或由于硬件限制而无法实现.针对这些问题,提出了一种基于性能势的并行仿真优化算法,以期寻找系统的最优平稳策略,并用该算法对性能势的仿真和策略寻优分别进行了并行化,获得了较好的运行效率.仿真实例表明了该算法的有效性.这一算法可应用于大规模实际半Markov系统的性能优化. 展开更多
关键词 markov控制过程 紧致行动集 性能势 并行仿真算法
在线阅读 下载PDF
Markov决策过程的蚁群规划算法
15
作者 柴啸龙 胡桂武 陈蔼祥 《计算机工程与应用》 CSCD 北大核心 2010年第20期40-41,45,共3页
在智能规划问题上,寻找规划解都是NP甚至NP完全问题,如果动作的执行效果带有不确定性,如在Markov决策过程的规划问题中,规划的求解将会更加困难,现有的Markov决策过程的规划算法往往用一个整体状态节点来描述某个动作的实际执行效果,试... 在智能规划问题上,寻找规划解都是NP甚至NP完全问题,如果动作的执行效果带有不确定性,如在Markov决策过程的规划问题中,规划的求解将会更加困难,现有的Markov决策过程的规划算法往往用一个整体状态节点来描述某个动作的实际执行效果,试图回避状态内部的复杂性,而现实中的大量动作往往都会产生多个命题效果,对应多个命题节点。为了能够处理和解决这个问题,提出了映像动作,映像路节和映像规划图等概念,并在其基础上提出了Markov决策过程的蚁群规划算法,从而解决了这一问题。并且证明了算法得到的解,即使在不确定的执行环境下,也具有不低于一定概率的可靠性。 展开更多
关键词 智能规划 规划图 markov决策过程 不确定规划 群体智能算法
在线阅读 下载PDF
基于半马氏决策过程的电容器维修策略优化
16
作者 金光 肖磊 厉海涛 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第1期78-81,共4页
针对电容器随机劣化失效的特点,采用半马氏决策过程解决其预防性维修方案设计和维修策略优化问题。在电容器随机劣化的Gaussian-Poisson模型基础上,以检测周期为优化变量,同时考虑预防性维修次数阈值的影响,建立电容器长期运行费用率优... 针对电容器随机劣化失效的特点,采用半马氏决策过程解决其预防性维修方案设计和维修策略优化问题。在电容器随机劣化的Gaussian-Poisson模型基础上,以检测周期为优化变量,同时考虑预防性维修次数阈值的影响,建立电容器长期运行费用率优化模型。分析表明,对该型号电容器来说,预防性维修相比于事后修理更加有利于节省部件长期运行的费用率。 展开更多
关键词 维修策略 预防性维修 马氏决策过程 电容器
在线阅读 下载PDF
向量值半Markov决策规划的线性加权解法
17
作者 曾庆宁 《应用数学》 CSCD 北大核心 2001年第S1期77-80,共4页
对向量值半Markov决策规划给出了线性加权解法 .通过该方法还容易地证明了向量值半Markov决策规划存在平稳最优策略的结论 ,并给出了强最优策略存在与否的另一个判别法 .
关键词 向量值 markov 决策 规划 策略
在线阅读 下载PDF
Markov动态决策过程在耐用品购买中的应用
18
作者 贾俊秀 《工程数学学报》 CSCD 北大核心 2009年第5期827-835,共9页
通过建立一个离散型Markov决策模型,并在模型中引入感知价值和感知价值系数,本文研究了消费型耐用品购买的多阶段最优策略。当每个产品阶段中有两代不同产品时,消费者最优购买策略存在;在一定的条件下,从某个状态开始最优策略为"购... 通过建立一个离散型Markov决策模型,并在模型中引入感知价值和感知价值系数,本文研究了消费型耐用品购买的多阶段最优策略。当每个产品阶段中有两代不同产品时,消费者最优购买策略存在;在一定的条件下,从某个状态开始最优策略为"购买"。最后以一个数值实例验证了这些结论,并说明给定相关数据后可获得购买耐用品的最优决策,这一决策与消费者的偏好和卖方的定价存在密切关系。 展开更多
关键词 markov决策过程 耐用消费品 最优购买决策 感知价值
在线阅读 下载PDF
基于Markov决策过程的输变电设备最佳检修决策 被引量:18
19
作者 贾京苇 侯慧娟 +3 位作者 杜修明 段大鹏 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2017年第7期2323-2330,共8页
为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修... 为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修决策模型中,改变故障损失得到决策结果的变化。比较决策变化对应的设备故障损失和设备稳态概率可得知:所建立的基于状态的检修(CBM)模型适用于安装了在线监测装置的设备,而基于检测的检修(IBM)模型适用于无在线监测装置的设备;最优决策从维修成本最小的决策过渡到最后每次决策时都选择大修,整个变化过程证明了应用Markov决策可以折中维修成本和故障损失得到经济最优决策。研究结果可为检修决策人员提供定量的检修计划。 展开更多
关键词 输变电设备 检修决策 检修模型 markov过程 markov决策过程 策略迭代法
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
20
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部