期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
随机平稳策略下半Markov决策过程的仿真优化算法
1
作者 代桂平 唐昊 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第4期547-551,共5页
基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨... 基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性.通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略.文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题.最后给出了一个仿真实例来说明算法的应用. 展开更多
关键词 随机平稳策略 等价Markov过程 一致化Markov链 神经元动态规划 仿真优化
在线阅读 下载PDF
Markov控制过程基于单个样本轨道的在线优化算法 被引量:5
2
作者 唐昊 奚宏生 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页
在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的... 在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的特征来选择适当的算法参数 ,因此它能满足不同实际工程系统在线优化的需要 .最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性 ,并给出了一个三 状态受控Markov过程的数值实例 . 展开更多
关键词 MARKOV控制过程 单个样本轨道 在线优化算法 离散事件动态系统 随机平稳策略
在线阅读 下载PDF
Markov控制过程基于神经元动态规划的优化算法 被引量:1
3
作者 唐昊 奚宏生 殷保群 《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页
论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三
关键词 Markov性能势理论 MARKOV控制过程 随机平稳策略 样本轨道 神经元动态规划 随机决策问题
在线阅读 下载PDF
A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1) 被引量:4
4
作者 TANGHao XIHong-Sheng YINBao-Qun 《自动化学报》 EI CSCD 北大核心 2004年第2期229-234,共6页
Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under ra... Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under randomized stationary policies. The proposed algo-rithm will estimate the gradient of average cost performance measure with respect to policy param-eters by transforming a continuous time Markov process into a uniform Markov chain and simula-ting a single sample path of the chain. The goal is to look for a suboptimal randomized stationarypolicy. The algorithm derived here can meet the needs of performance optimization of many diffi-cult systems with large-scale state space. Finally, a numerical example for a controlled Markovprocess is provided. 展开更多
关键词 仿真优化算法 随机平稳策略 CTMDP Markov性能势理论
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部