期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
1
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
2
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
3
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
随机模型检测连续时间Markov过程 被引量:2
4
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
在线阅读 下载PDF
分布式业务系统基于模型的接入控制方案(英文) 被引量:1
5
作者 陆效农 殷保群 +1 位作者 张海鹏 凌强 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能. 展开更多
关键词 分布式业务系统 部分可观markov决策过程(POMDP) 接入控制 随机策略 基于HMM的方法
在线阅读 下载PDF
基于软件定义网络的媒体分发网络的接入控制 被引量:2
6
作者 曹浩 殷保群 +1 位作者 曹杰 陆效农 《计算机应用》 CSCD 北大核心 2016年第7期1767-1771,1827,共6页
针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上... 针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上服务节点到用户之间的传输链路的服务性能进行联合优化,减少了链路拥塞对数据传输和用户服务质量的影响。首先,为SDN服务系统的接入控制过程建立部分可观Markov决策过程(POMDP)模型;然后,使用基于观测的随机策略作为系统的接入控制策略;最后,通过策略梯度算法对接入控制策略进行优化,求解出模型的最优策略。仿真结果表明,与尽力而为的服务策略相比,基于POMDP模型的最优接入控制策略使系统性能提高了10%,验证了所提方法的有效性。 展开更多
关键词 软件定义网络 接入控制 部分可观markov决策过程 随机策略 梯度优化
在线阅读 下载PDF
事件驱动Q学习在呼叫接入控制中的应用
7
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间markov决策过程 事件驱动Q学习 呼叫接入控制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部