期刊文献+
共找到35篇文章
< 1 2 >
每页显示 20 50 100
一类可数Markov控制过程的最优平稳策略 被引量:1
1
作者 殷保群 李衍杰 +1 位作者 奚宏生 周亚平 《控制理论与应用》 EI CAS CSCD 北大核心 2005年第1期43-46,共4页
研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存... 研究了一类具有可数状态空间的Markov控制过程在无限水平平均代价准则下的最优平稳策略问题.对此类过程,引入了折扣Poisson方程,运用无穷小矩阵和性能势的基本性质,导出了平均代价模型在紧致行动集上的最优性方程,并证明了其解的一个存在性定理. 展开更多
关键词 可数markov控制过程 性能势 平均代价准则 紧致行动集 最优平稳策略
在线阅读 下载PDF
连续时间Markov控制过程的平均代价最优鲁棒控制策略 被引量:4
2
作者 唐昊 韩江洪 高隽 《中国科学技术大学学报》 CAS CSCD 北大核心 2004年第2期219-225,共7页
在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选... 在Markov性能势基础上 ,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程 (CTMCP)的鲁棒控制问题 .根据系统的遍历性 ,平均代价Poisson方程的解可被看作是性能势的一种定义 .在平均代价准则下 ,优化控制的目标是选择一个平稳策略使得系统在参数最坏取值下能获得最小无穷水平平均代价 ,据此论文给出了求解最优鲁棒控制策略的策略迭代 (PI)算法 ,并详细讨论了算法的收敛性 . 展开更多
关键词 markov性能势 连续时间markov控制过程 鲁棒控制策略 策略迭代 最优控制
在线阅读 下载PDF
Markov控制过程基于性能势的平均代价最优策略 被引量:4
3
作者 周亚平 奚宏生 +1 位作者 殷保群 孙德敏 《自动化学报》 EI CSCD 北大核心 2002年第6期904-910,共7页
研究了一类离散时间 Markov控制过程平均代价性能最优控制决策问题 .应用Markov性能势的基本性质 ,在很一般性的假设条件下 ,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 .提出了求解最优平稳控制策... 研究了一类离散时间 Markov控制过程平均代价性能最优控制决策问题 .应用Markov性能势的基本性质 ,在很一般性的假设条件下 ,直接导出了无限时间平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 .提出了求解最优平稳控制策略的迭代算法 ,并讨论了这种算法的收敛性问题 .最后通过分析一个实例来说明这种算法的应用 . 展开更多
关键词 markov控制过程 性能势 平均代价模型 最优平稳策略 最优控制
在线阅读 下载PDF
Markov控制过程基于单个样本轨道的在线优化算法 被引量:5
4
作者 唐昊 奚宏生 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页
在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的... 在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的特征来选择适当的算法参数 ,因此它能满足不同实际工程系统在线优化的需要 .最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性 ,并给出了一个三 状态受控Markov过程的数值实例 . 展开更多
关键词 markov控制过程 单个样本轨道 在线优化算法 离散事件动态系统 随机平稳策略
在线阅读 下载PDF
半Markov控制过程在平均准则下的优化算法 被引量:1
5
作者 代桂平 殷保群 +2 位作者 李衍杰 周亚平 奚宏生 《中国科学技术大学学报》 CAS CSCD 北大核心 2005年第2期202-207,共6页
研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证... 研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP的性能势公式和平均代价最优性方程,给出了求解最优或次最优平稳策略的策略迭代算法和数值迭代算法,并证明了算法的收敛性.最后给出了一个数值例子来说明算法的应用. 展开更多
关键词 markov控制过程 紧致行动集 性能势 策略迭代 数值迭代
在线阅读 下载PDF
Markov控制过程基于神经元动态规划的优化算法 被引量:1
6
作者 唐昊 奚宏生 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页
论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三
关键词 markov性能势理论 markov控制过程 随机平稳策略 样本轨道 神经元动态规划 随机决策问题
在线阅读 下载PDF
半Markov控制过程基于性能势仿真的并行优化算法
7
作者 代桂平 殷保群 +1 位作者 李衍杰 奚宏生 《中国科学技术大学学报》 CAS CSCD 北大核心 2006年第2期183-186,共4页
根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空间往往非常大,因此通常的串行仿真算法可能会耗时过长,或由于硬件限制而无法实现.针对这些问题,提出了... 根据等价Markov过程方法,研究了一类半Markov控制过程在紧致行动集上关于无限水平平均代价准则的性能优化算法.由于实际系统的状态空间往往非常大,因此通常的串行仿真算法可能会耗时过长,或由于硬件限制而无法实现.针对这些问题,提出了一种基于性能势的并行仿真优化算法,以期寻找系统的最优平稳策略,并用该算法对性能势的仿真和策略寻优分别进行了并行化,获得了较好的运行效率.仿真实例表明了该算法的有效性.这一算法可应用于大规模实际半Markov系统的性能优化. 展开更多
关键词 markov控制过程 紧致行动集 性能势 并行仿真算法
在线阅读 下载PDF
Markov控制过程基于性能势仿真的并行优化 被引量:1
8
作者 高旭东 殷保群 +1 位作者 唐昊 奚宏生 《系统仿真学报》 CAS CSCD 2003年第11期1574-1576,共3页
Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的... Markov控制过程是研究随机离散事件动态系统性能优化问题的一个重要模型,并在许多实际工程问题中有着广泛的应用。在Markov性能势理论的基础上,我们讨论了一类连续时间Markov控制过程在紧致行动集上的性能优化仿真问题。由于实际系统的状态空间往往非常巨大,通常的串行仿真算法,可能耗时过长,也可能由于硬件限制而无法实现,故我们提出了一种基于性能势的并行仿真优化算法,来寻找系统的最优平稳策略。一个仿真实例表明该算法有较好的运行效率。该算法可应用于大规模实际系统的性能优化。 展开更多
关键词 性能势 并行仿真算法 连续时间markov控制过程 紧致行动集
在线阅读 下载PDF
基于性能势的Markov控制过程双时间尺度仿真算法
9
作者 鲍秉坤 殷保群 奚宏生 《系统仿真学报》 CAS CSCD 北大核心 2009年第13期4114-4119,共6页
在基于性能势的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能势的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用三个数值例子来说明双... 在基于性能势的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能势的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用三个数值例子来说明双时间尺度更新算法在计算复杂度、收敛速度和收敛精度上的优势。 展开更多
关键词 markov控制过程 性能势 双时间尺度 随机逼近
在线阅读 下载PDF
基于马氏决策过程模型的动态系统学习控制:研究前沿与展望 被引量:21
10
作者 徐昕 沈栋 +1 位作者 高岩青 王凯 《自动化学报》 EI CSCD 北大核心 2012年第5期673-687,共15页
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于... 基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。 展开更多
关键词 学习控制 markov决策过程 增强学习 近似动态规划 机器学习 自适应控制
在线阅读 下载PDF
自相关计数过程单侧EWMA控制图的构建 被引量:4
11
作者 张敏 聂国华 何桢 《系统工程学报》 CSCD 北大核心 2014年第2期280-288,共9页
研究了自相关泊松计数过程单侧指数加权移动平均(exponentially weighted moving average,EWMA)控制图.基于floor和ceil取整函数,构建了单侧AF-EWMA和AC-EWMA控制图以监控泊松一阶整值自回归(INAR(1))过程,并建立二维Markov链模型计算... 研究了自相关泊松计数过程单侧指数加权移动平均(exponentially weighted moving average,EWMA)控制图.基于floor和ceil取整函数,构建了单侧AF-EWMA和AC-EWMA控制图以监控泊松一阶整值自回归(INAR(1))过程,并建立二维Markov链模型计算控制图平均运行链长,以此对控制图性能进行了对比分析.计算结果表明,针对均值向上偏移,AF-EWMA图监控性能优于AC-EWMA和AR-EWMA图,同时,AF-EWMA图对控制图初始值的变动具有鲁棒性. 展开更多
关键词 自相关计数过程 EWMA控制 INAR(1)过程 二维markov
在线阅读 下载PDF
集成化并行系统过程管理模型与参数控制方法 被引量:1
12
作者 沈江 徐曼 翦权斌 《高技术通讯》 CAS CSCD 北大核心 2005年第4期20-22,共3页
应用Markov理论研究了集成化并行系统过程管理机制,分析了客源无限状态下的过程分布规律、生灭过程方程及过程管理模型.基于实际应用系统多参数、多情况的复杂性特征,引入了系统控制系数,提出了过程管理的三种类型动态概率分布规律及其... 应用Markov理论研究了集成化并行系统过程管理机制,分析了客源无限状态下的过程分布规律、生灭过程方程及过程管理模型.基于实际应用系统多参数、多情况的复杂性特征,引入了系统控制系数,提出了过程管理的三种类型动态概率分布规律及其算法,实现了系统的精准控制.通过应用实例介绍了多参数的控制方法、核心机制及其应用系统平台. 展开更多
关键词 控制方法 管理模型 系统过程 集成化 并行 markov 概率分布规律 复杂性特征 管理机制 理论研究 过程方程 应用系统 控制系数 过程管理 应用实例 系统平台 核心机制 多参数 算法
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
13
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
Markov跳变线性奇异摄动系统鲁棒H∞控制 被引量:1
14
作者 刘华平 孙富春 +1 位作者 李春文 孙增圻 《自动化学报》 EI CSCD 北大核心 2005年第5期779-781,共3页
In this paper, we study the robust control for uncertain Markov jump linear singularly perturbed systems (MJLSPS), whose transition probability matrix is unknown. An improved heuristic algorithm is proposed to solve t... In this paper, we study the robust control for uncertain Markov jump linear singularly perturbed systems (MJLSPS), whose transition probability matrix is unknown. An improved heuristic algorithm is proposed to solve the nonlinear matrix inequalities. The results of this paper can apply not only to standard, but also to nonstandard MJLSPS. Moreover, the proposed approach is independent of the perturbation parameter and therefore avoids the ill-conditioned numerical problems. 展开更多
关键词 markov过程 跳变线性奇异系统 鲁棒控制 矩阵不等式
在线阅读 下载PDF
变论域自适应模糊控制器失真率的计算 被引量:5
15
作者 岳士弘 张绍杰 李平 《控制理论与应用》 EI CAS CSCD 北大核心 2005年第5期807-809,819,共4页
变论域自适应模糊控制器已经成功应用在许多领域,然而它的参数难以准确估计,因此其失真率计算十分困难.本文基于Markov过程,提出一个新的计算方法.该方法通过一个特殊的Markov链模拟变论域自适应模糊控制器工作过程,解决了它的失真率计... 变论域自适应模糊控制器已经成功应用在许多领域,然而它的参数难以准确估计,因此其失真率计算十分困难.本文基于Markov过程,提出一个新的计算方法.该方法通过一个特殊的Markov链模拟变论域自适应模糊控制器工作过程,解决了它的失真率计算问题,并证明这个方法是可行的.同时,通过两个算例验证这个方法的有效性. 展开更多
关键词 变论域自适应模糊控制 markov过程 失真率 自适应模糊控制 计算方法 变论域 markov 计算问题
在线阅读 下载PDF
复杂生产系统生产控制研究综述 被引量:2
16
作者 宋春跃 王慧 李平 《控制工程》 CSCD 2004年第4期299-302,共4页
从生产控制的建模及其控制策略、最优控制解的性质和结构等几个方面综述了生产系统中有关最优生产控制研究的进展情况。在此基础上, 探讨了不确定因素带来的理论研究与实际应用的影响; 最后阐述了目前研究中存在的难题及发展前景,除了... 从生产控制的建模及其控制策略、最优控制解的性质和结构等几个方面综述了生产系统中有关最优生产控制研究的进展情况。在此基础上, 探讨了不确定因素带来的理论研究与实际应用的影响; 最后阐述了目前研究中存在的难题及发展前景,除了单台设备生产单一产品在线费用函数前提下的FMS,如何解析求解闭环形成的最优解仍是一个难题。建立贴近生产实际的控制模型和有实际应用价值的控制策略,是一个很有前途的研究方向。 展开更多
关键词 生产控制 markov过程 阈值 递阶控制策略 最优控制
在线阅读 下载PDF
具有不确定需求的混杂系统的生产与维修控制 被引量:1
17
作者 刘军 芮执元 +1 位作者 韦尧兵 陈积明 《自动化学报》 EI CSCD 北大核心 2007年第12期1331-1336,共6页
针对不可靠生产环境,在需求不确定并且有可能存在需求大于生产的一般性情况下,探讨了系统生产与维修的控制问题,提出了一种考虑追加生产能力的具有较强即时动态特性的复合三阈值控制策略.通过将有限时域上的问题分解到无限时域上的简化... 针对不可靠生产环境,在需求不确定并且有可能存在需求大于生产的一般性情况下,探讨了系统生产与维修的控制问题,提出了一种考虑追加生产能力的具有较强即时动态特性的复合三阈值控制策略.通过将有限时域上的问题分解到无限时域上的简化方法,在给出了相应阈值求解方法的同时,也建议了一种近似最优的复合单阈值控制策略.仿真结果说明及验证了各控制策略及方法. 展开更多
关键词 混杂系统 维修 markov过程 阈值控制策略
在线阅读 下载PDF
延迟容忍网络能量受限的路由控制策略 被引量:1
18
作者 吴亚辉 邓苏 黄宏斌 《电子科技大学学报》 EI CAS CSCD 北大核心 2015年第2期221-226,共6页
延迟容忍网络节点之间的连接模式可以用Edge-Markovian模型描述,该模型优于传统的负指数模型。该文基于Edge-Markovian模型研究有限能量约束下two-hop算法的最优控制问题。为了降低能量消耗,采用概率two-hop算法,信息源在每个通信机会... 延迟容忍网络节点之间的连接模式可以用Edge-Markovian模型描述,该模型优于传统的负指数模型。该文基于Edge-Markovian模型研究有限能量约束下two-hop算法的最优控制问题。为了降低能量消耗,采用概率two-hop算法,信息源在每个通信机会以一定概率决定是否发送信息,问题转化为选择合适的概率在满足能量约束的前提下最大化传输成功率。利用离散时间Markov过程对问题进行建模,并从理论上证明最优概率是阈值形式。仿真及数值结果证明了模型的有效性。 展开更多
关键词 延迟容忍网络 Edge-markovian模型 markov过程 最优控制 two-hop算法
在线阅读 下载PDF
基于深度强化学习的UAV航路自主引导机动控制决策算法 被引量:15
19
作者 张堃 李珂 +2 位作者 时昊天 张振冲 刘泽坤 《系统工程与电子技术》 EI CSCD 北大核心 2020年第7期1567-1574,共8页
针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控... 针对无人机(unmanned aerial vehicle,UAV)航路终端约束情况下航路自主引导机动控制决策问题,采用Markov决策过程模型建立UAV自主飞行机动模型,基于深度确定性策略梯度提出UAV航路自主引导机动控制决策算法,拟合UAV航路自主引导机动控制决策函数与状态动作值函数,生成最优决策网络,开展仿真验证。仿真结果表明,该算法实现了UAV在任意位置/姿态的初始条件下,向航路目标点的自主飞行,可有效提高UAV机动控制的自主性。 展开更多
关键词 自主引导 机动控制决策 markov决策过程 深度确定性策略梯度法 深度强化学习
在线阅读 下载PDF
分布式业务系统基于模型的接入控制方案(英文) 被引量:1
20
作者 陆效农 殷保群 +1 位作者 张海鹏 凌强 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能. 展开更多
关键词 分布式业务系统 部分可观markov决策过程(POMDP) 接入控制 随机策略 基于HMM的方法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部