检索结果-维普期刊中文期刊服务平台

随机平稳策略下半Markov决策过程的仿真优化算法: 1; 作者代桂平唐昊奚宏生《控制理论与应用》 EI CAS CSCD 北大核心 2006年第4期547-551,共5页; 基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性．通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨... 展开更多; 关键词随机平稳策略等价Markov过程一致化Markov链神经元动态规划仿真优化; 在线阅读下载PDF 职称材料

Markov控制过程基于单个样本轨道的在线优化算法被引量：5: 2; 作者唐昊奚宏生殷保群《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页; 在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的... 展开更多; 关键词 MARKOV控制过程单个样本轨道在线优化算法离散事件动态系统随机平稳策略; 在线阅读下载PDF 职称材料

Markov控制过程基于神经元动态规划的优化算法被引量：1: 3; 作者唐昊奚宏生殷保群《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页; 论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三; 关键词 Markov性能势理论 MARKOV控制过程随机平稳策略样本轨道神经元动态规划随机决策问题; 在线阅读下载PDF 职称材料

A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）被引量：4: 4; 作者 TANGHao XIHong-Sheng YINBao-Qun 《自动化学报》 EI CSCD 北大核心 2004年第2期229-234,共6页; Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under ra... 展开更多; 关键词仿真优化算法随机平稳策略 CTMDP Markov性能势理论; 在线阅读下载PDF 职称材料

题名随机平稳策略下半Markov决策过程的仿真优化算法: 1; 作者代桂平唐昊奚宏生; 机构北京工业大学电子信息与控制学院合肥工业大学计算机系中国科学技术大学自动化系; 出处《控制理论与应用》 EI CAS CSCD 北大核心 2006年第4期547-551,共5页; 基金国家自然科学基金资助项目(60274012) 北京工业大学博士科研启动基金资助项目(00194); 文摘基于性能势理论和等价Markov过程方法,研究了一类半Markov决策过程(SMDP)在参数化随机平稳策略下的仿真优化算法,并简要分析了算法的收敛性．通过SMDP的等价Markov过程,定义了一个一致化Markov链,然后根据该一致化Markov链的单个样本轨道来估计SMDP的平均代价性能指标关于策略参数的梯度,以寻找最优(或次优)策略．文中给出的算法是利用神经元网络来逼近参数化随机平稳策略,以节省计算机内存,避免了“维数灾”问题,适合于解决大状态空间系统的性能优化问题．最后给出了一个仿真实例来说明算法的应用．; 关键词随机平稳策略等价Markov过程一致化Markov链神经元动态规划仿真优化; Keywords randomized stationary polices equivalent Markov process uniformized Markov chain neuro-dynamic programming simulation optimization; 分类号 TP391.9 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名Markov控制过程基于单个样本轨道的在线优化算法被引量：5: 2; 作者唐昊奚宏生殷保群; 机构中国科学技术大学自动化系; 出处《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期865-871,共7页; 基金国家自然科学基金 (699740 3 7) 国家高性能计算基金 (0 0 2 0 8)资助项目; 文摘在Markov性能势理论基础上 ,研究了Markov控制过程的性能优化算法 .不同于传统的基于计算的方法 ,文中的算法是根据单个样本轨道的仿真来估计性能指标关于策略参数的梯度 ,以寻找最优 (或次优 )随机平稳策略 .由于可根据不同实际系统的特征来选择适当的算法参数 ,因此它能满足不同实际工程系统在线优化的需要 .最后简要分析了这些算法在一个无限长的样本轨道上以概率 1的收敛性 ,并给出了一个三状态受控Markov过程的数值实例 .; 关键词 MARKOV控制过程单个样本轨道在线优化算法离散事件动态系统随机平稳策略; Keywords Markov control processes Markov performance potentials randomized stationary policies on-line optimization; 分类号 TP13 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名Markov控制过程基于神经元动态规划的优化算法被引量：1: 3; 作者唐昊奚宏生殷保群; 机构中国科学技术大学自动化系; 出处《中国科学技术大学学报》 CAS CSCD 北大核心 2001年第5期549-557,共9页; 基金国家自然科学基金 (6 99740 37) 国家高性能计算基金 (0 0 2 0 8)资助项目; 文摘论文在Markov性能势理论基础上 ,研究了Markov控制过程在神经元网络等逼近结构表示的随机平稳策略作用下的仿真优化算法 ;分析了它们在一个无限长的样本轨道上以概率 1的收敛性 ;并给出了一个三; 关键词 Markov性能势理论 MARKOV控制过程随机平稳策略样本轨道神经元动态规划随机决策问题; Keywords Markov performance potentials Markov control processes randomized stationary policies sample path; 分类号 O231.3 [理学—运筹学与控制论] O221.3 [理学—运筹学与控制论]; 在线阅读下载PDF 职称材料

题名A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）被引量：4: 4; 作者 TANGHao XIHong-Sheng YINBao-Qun; 机构 DepartmentofAutomation; 出处《自动化学报》 EI CSCD 北大核心 2004年第2期229-234,共6页; 文摘 Based on the theory of Markov performance potentials and neuro-dynamic programming(NDP) methodology, we study simulation optimization algorithm for a class of continuous timeMarkov decision processes (CTMDPs) under randomized stationary policies. The proposed algo-rithm will estimate the gradient of average cost performance measure with respect to policy param-eters by transforming a continuous time Markov process into a uniform Markov chain and simula-ting a single sample path of the chain. The goal is to look for a suboptimal randomized stationarypolicy. The algorithm derived here can meet the needs of performance optimization of many diffi-cult systems with large-scale state space. Finally, a numerical example for a controlled Markovprocess is provided.; 关键词仿真优化算法随机平稳策略 CTMDP Markov性能势理论; 分类号 TP391.9 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	随机平稳策略下半Markov决策过程的仿真优化算法	代桂平唐昊奚宏生	《控制理论与应用》 EI CAS CSCD 北大核心	2006	0	在线阅读下载PDF 职称材料
2	Markov控制过程基于单个样本轨道的在线优化算法	唐昊奚宏生殷保群	《控制理论与应用》 EI CAS CSCD 北大核心	2002	5	在线阅读下载PDF 职称材料
3	Markov控制过程基于神经元动态规划的优化算法	唐昊奚宏生殷保群	《中国科学技术大学学报》 CAS CSCD 北大核心	2001	1	在线阅读下载PDF 职称材料
4	A Simulation Optimization Algorithm for CTMDPs Based on Randomized Stationary Policies^1）	TANGHao XIHong-Sheng YINBao-Qun	《自动化学报》 EI CSCD 北大核心	2004	4	在线阅读下载PDF 职称材料