期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量:4
1
作者 唐昊 韩江洪 高隽 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选... 在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 展开更多
关键词 markov性能势 连续时间markov控制过程 鲁棒控制策略 策略迭代 最优控制
在线阅读 下载PDF
随机模型检测连续时间Markov过程 被引量:2
2
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
3
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
基于性能势的Markov控制过程双时间尺度仿真算法
4
作者 鲍秉坤 殷保群 奚宏生 《系统仿真学报》 CAS CSCD 北大核心 2009年第13期4114-4119,共6页
在基于性能势的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能势的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用三个数值例子来说明双... 在基于性能势的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能势的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用三个数值例子来说明双时间尺度更新算法在计算复杂度、收敛速度和收敛精度上的优势。 展开更多
关键词 markov控制过程 性能势 时间尺度 随机逼近
在线阅读 下载PDF
Markov控制过程基于性能势仿真的并行优化 被引量:1
5
作者 高旭东 殷保群 +1 位作者 唐昊 奚宏生 《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的... Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 展开更多
关键词 性能势 并行仿真算法 连续时间markov控制过程 紧致行动集
在线阅读 下载PDF
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
6
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
一类耦合连续时间随机游走模型的控制方程
7
作者 张云秀 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期1-7,19,共8页
应用耦合连续时间随机游走模型构造出一类特殊的时变Levy过程,研究了这类过程的控制方程并分别讨论了当时间过程为三种不同的逆从属过程时的控制方程以及各阶矩的情况.
关键词 耦合连续时间随机游走模型 时变Levy过程 控制方程
在线阅读 下载PDF
多业务异构网络的呼叫接纳控制 被引量:1
8
作者 徐可 黄海 +1 位作者 董广忠 王传启 《中国科学技术大学学报》 CAS CSCD 北大核心 2018年第1期42-46,共5页
呼叫接纳控制作为异构网络系统资源管理的重要部分,直接影响整个网络资源使用的有效性,因此在异构网络环境下设计一个合理有效的接纳控制策略至关重要.考虑了异构网络中的呼叫接入问题,根据各类服务的带宽需求以及提供的利润差异,针对... 呼叫接纳控制作为异构网络系统资源管理的重要部分,直接影响整个网络资源使用的有效性,因此在异构网络环境下设计一个合理有效的接纳控制策略至关重要.考虑了异构网络中的呼叫接入问题,根据各类服务的带宽需求以及提供的利润差异,针对其随机分布的特性,建立连续时间Markov分析模型,提出一种基于缓存的呼叫接入控制算法,并采取迭代策略对算法进行优化.仿真实验验证了算法的有效性,最终的控制策略是系统长期平均利润最大化的最优策略. 展开更多
关键词 异构网络 呼叫接纳控制 连续时间markov 策略优化
在线阅读 下载PDF
基于BER和CTMC的航天器发射组织过程可靠度模型
9
作者 董学军 白国庆 陈英武 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第2期46-51,共6页
在航天器发射工程中,存在组织过程可靠性评估难以量化的问题。基于航天器发射组织过程的时间特性呈现多个子过程并发执行且子过程具有Markov性和齐次性的特点,使用连续时间Markov链(CTMC)建立多吸收态的组织过程可靠度模型,利用互模拟... 在航天器发射工程中,存在组织过程可靠性评估难以量化的问题。基于航天器发射组织过程的时间特性呈现多个子过程并发执行且子过程具有Markov性和齐次性的特点,使用连续时间Markov链(CTMC)建立多吸收态的组织过程可靠度模型,利用互模拟等价关系(BER)简化组织过程的状态空间,并进一步给出各种状态转移率和组织过程可靠度计算方法。最后,通过数据分析说明模型在航天器发射工程进度计划评估中的作用和意义。 展开更多
关键词 航天器发射 互模拟等价关系 连续时间markov 过程可靠度
在线阅读 下载PDF
事件驱动Q学习在呼叫接入控制中的应用
10
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间markov决策过程 事件驱动Q学习 呼叫接入控制
在线阅读 下载PDF
YGYZ—2000型连续式螺旋予煮器
11
《中国乡镇企业信息》 1995年第8期17-17,共1页
该机采用夹套加热,加热过程中实现了整体及分段加热方式,温度和时间变化采用自动控制和记录曲线。生产能力;1800~2000千克/小时。予煮温度:90~100℃。予煮时间:5~10分钟。
关键词 自动控制 夹套加热 加热方式 加热过程 时间变化 记录曲线 生产能力 机采 温度 连续
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部