检索结果-维普期刊中文期刊服务平台

连续时间部分可观Markov决策过程的策略梯度估计被引量：1: 1; 作者唐波李衍杰殷保群《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页; 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 展开更多; 关键词连续时间部分可观markov决策过程策略梯度估计一致化误差界; 在线阅读下载PDF 职称材料

有限规划水平部分可观Markov自适应决策过程的参数决策: 2; 作者李江红韩正之《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页; 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 展开更多; 关键词部分可观markov决策过程自适应控制贝叶斯原理; 在线阅读下载PDF 职称材料

基于连续时间半马尔可夫决策过程的Option算法被引量：3: 3; 作者唐昊张晓艳 +1 位作者韩江洪周雷《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页; 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 展开更多; 关键词连续时间半markov决策过程分层强化学习 Q学习; 在线阅读下载PDF 职称材料

随机模型检测连续时间Markov过程被引量：2: 4; 作者钮俊曾国荪 +1 位作者吕新荣徐畅《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页; 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 展开更多; 关键词功能性能连续时间markov决策过程模型检测可信验证可达概率; 在线阅读下载PDF 职称材料

分布式业务系统基于模型的接入控制方案(英文) 被引量：1: 5; 作者陆效农殷保群 +1 位作者张海鹏凌强《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页; 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 展开更多; 关键词分布式业务系统部分可观markov决策过程(POMDP) 接入控制随机策略基于HMM的方法; 在线阅读下载PDF 职称材料

基于软件定义网络的媒体分发网络的接入控制被引量：2: 6; 作者曹浩殷保群 +1 位作者曹杰陆效农《计算机应用》 CSCD 北大核心 2016年第7期1767-1771,1827,共6页; 针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上... 展开更多; 关键词软件定义网络接入控制部分可观markov决策过程随机策略梯度优化; 在线阅读下载PDF 职称材料

事件驱动Q学习在呼叫接入控制中的应用: 7; 作者任付彪周雷 +1 位作者马学森魏振春《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第1期76-79,共4页; 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 展开更多; 关键词连续时间markov决策过程事件驱动Q学习呼叫接入控制; 在线阅读下载PDF 职称材料

题名连续时间部分可观Markov决策过程的策略梯度估计被引量：1: 1; 作者唐波李衍杰殷保群; 机构中国科学技术大学自动化系; 出处《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页; 基金国家自然科学基金资助项目(60574065) 国家"863"计划资助项目(2006AA01Z114) 中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606); 文摘针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.; 关键词连续时间部分可观markov决策过程策略梯度估计一致化误差界; Keywords CTPOMDP policy gradient estimation conformity error bound; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名有限规划水平部分可观Markov自适应决策过程的参数决策: 2; 作者李江红韩正之; 机构上海交通大学智能工程研究所; 出处《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页; 基金国家自然科学基金资助项目! (6 98740 2 5 ); 文摘提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 .; 关键词部分可观markov决策过程自适应控制贝叶斯原理; Keywords Adaptive control systems Learning algorithms markov processes Optimization Parameter estimation; 分类号 TP [自动化与计算机技术] 202.4; 在线阅读下载PDF 职称材料

题名基于连续时间半马尔可夫决策过程的Option算法被引量：3: 3; 作者唐昊张晓艳韩江洪周雷; 机构合肥工业大学计算机与信息学院合肥工业大学电气与自动化工程学院; 出处《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页; 基金国家自然科学基金(61174188,71231004,61374158) 国家国际科技合作项目(2011FA10440) +1 种基金高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~; 文摘针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.; 关键词连续时间半markov决策过程分层强化学习 Q学习; Keywords Continuous-Time Semi-markov Decision Process （CT-SMDP） Hierarchical Rein-forcement Learning （HRL） Q-learning; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名随机模型检测连续时间Markov过程被引量：2: 4; 作者钮俊曾国荪吕新荣徐畅; 机构同济大学计算机科学与技术系嵌入式系统与服务计算教育部重点实验室浙江工商职业技术学院信息工程学院; 出处《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页; 基金 863项目(2007AA01Z425 2009AA012201) +7 种基金 973计划课题(2007CB316502) 国家自然(90718015) 浙江省教育厅科研项目(Y201017075)资助; 文摘功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。; 关键词功能性能连续时间markov决策过程模型检测可信验证可达概率; Keywords Function and performance Continuous-time markov decision process Model checking Trusted verification Reachability probabilities; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名分布式业务系统基于模型的接入控制方案(英文) 被引量：1: 5; 作者陆效农殷保群张海鹏凌强; 机构中国科学技术大学自动化系中国科学院国家网络新媒体工程技术研究中心; 出处《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页; 基金 Supported by the National Natural Science Foundation of China(61174124,60935001) the National High Technology Research and Development Program(863)of China(2011AA01A102); 文摘我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能.; 关键词分布式业务系统部分可观markov决策过程(POMDP) 接入控制随机策略基于HMM的方法; Keywords distributed service systems POMDP （partly observable markov decision process） admission control randomized policy HMM-based method; 分类号 TP393 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于软件定义网络的媒体分发网络的接入控制被引量：2: 6; 作者曹浩殷保群曹杰陆效农; 机构中国科学技术大学自动化系合肥工业大学管理学院; 出处《计算机应用》 CSCD 北大核心 2016年第7期1767-1771,1827,共6页; 基金国家自然科学基金资助项目(61174124 61233003) +1 种基金安徽省高校自然科学研究项目(KJ2012A286)~~; 文摘针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上服务节点到用户之间的传输链路的服务性能进行联合优化,减少了链路拥塞对数据传输和用户服务质量的影响。首先,为SDN服务系统的接入控制过程建立部分可观Markov决策过程(POMDP)模型;然后,使用基于观测的随机策略作为系统的接入控制策略;最后,通过策略梯度算法对接入控制策略进行优化,求解出模型的最优策略。仿真结果表明,与尽力而为的服务策略相比,基于POMDP模型的最优接入控制策略使系统性能提高了10%,验证了所提方法的有效性。; 关键词软件定义网络接入控制部分可观markov决策过程随机策略梯度优化; Keywords Software Defined Network（SDN） admission control Partially Observable markov Decision Process（POMDP） randomized policy policy-gradient approach; 分类号 TP393.03 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名事件驱动Q学习在呼叫接入控制中的应用: 7; 作者任付彪周雷马学森魏振春; 机构合肥工业大学计算机与信息学院; 出处《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第1期76-79,共4页; 基金国家自然科学基金资助项目(60873003) 教育部回国人员科研启动基金资助项目(2009AKZR0279) +1 种基金安徽省高校自然科学研究重点资助项目(KJ2008A058); 文摘文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。; 关键词连续时间markov决策过程事件驱动Q学习呼叫接入控制; Keywords continuous-time markov decision processes（CTMDP） event driven Q-learning call admission control（CAC）; 分类号 TP202.7 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	连续时间部分可观Markov决策过程的策略梯度估计	唐波李衍杰殷保群	《控制理论与应用》 EI CAS CSCD 北大核心	2009	1	在线阅读下载PDF 职称材料
2	有限规划水平部分可观Markov自适应决策过程的参数决策	李江红韩正之	《上海交通大学学报》 EI CAS CSCD 北大核心	2000	0	在线阅读下载PDF 职称材料
3	基于连续时间半马尔可夫决策过程的Option算法	唐昊张晓艳韩江洪周雷	《计算机学报》 EI CSCD 北大核心	2014	3	在线阅读下载PDF 职称材料
4	随机模型检测连续时间Markov过程	钮俊曾国荪吕新荣徐畅	《计算机科学》 CSCD 北大核心	2011	2	在线阅读下载PDF 职称材料
5	分布式业务系统基于模型的接入控制方案(英文)	陆效农殷保群张海鹏凌强	《中国科学技术大学学报》 CAS CSCD 北大核心	2012	1	在线阅读下载PDF 职称材料
6	基于软件定义网络的媒体分发网络的接入控制	曹浩殷保群曹杰陆效农	《计算机应用》 CSCD 北大核心	2016	2	在线阅读下载PDF 职称材料
7	事件驱动Q学习在呼叫接入控制中的应用	任付彪周雷马学森魏振春	《合肥工业大学学报（自然科学版）》 CAS CSCD 北大核心	2011	0	在线阅读下载PDF 职称材料