期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
连续时间部分可观Markov决策过程的策略梯度估计
被引量:
1
1
作者
唐波
李衍杰
殷保群
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数...
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
展开更多
关键词
连续时间部分可观markov决策过程
策略梯度估计
一致化
误差界
在线阅读
下载PDF
职称材料
有限规划水平部分可观Markov自适应决策过程的参数决策
2
作者
李江红
韩正之
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最...
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 .
展开更多
关键词
部分
可观
markov
决策
过程
自适应控制
贝叶斯原理
在线阅读
下载PDF
职称材料
基于连续时间半马尔可夫决策过程的Option算法
被引量:
3
3
作者
唐昊
张晓艳
+1 位作者
韩江洪
周雷
《计算机学报》
EI
CSCD
北大核心
2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过...
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
展开更多
关键词
连续
时间
半
markov
决策
过程
分层强化学习
Q学习
在线阅读
下载PDF
职称材料
随机模型检测连续时间Markov过程
被引量:
2
4
作者
钮俊
曾国荪
+1 位作者
吕新荣
徐畅
《计算机科学》
CSCD
北大核心
2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc...
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。
展开更多
关键词
功能性能
连续
时间
markov
决策
过程
模型检测
可信验证
可达概率
在线阅读
下载PDF
职称材料
分布式业务系统基于模型的接入控制方案(英文)
被引量:
1
5
作者
陆效农
殷保群
+1 位作者
张海鹏
凌强
《中国科学技术大学学报》
CAS
CSCD
北大核心
2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系...
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能.
展开更多
关键词
分布式业务系统
部分
可观
markov
决策
过程
(POMDP)
接入控制
随机策略
基于HMM的方法
在线阅读
下载PDF
职称材料
基于软件定义网络的媒体分发网络的接入控制
被引量:
2
6
作者
曹浩
殷保群
+1 位作者
曹杰
陆效农
《计算机应用》
CSCD
北大核心
2016年第7期1767-1771,1827,共6页
针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上...
针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上服务节点到用户之间的传输链路的服务性能进行联合优化,减少了链路拥塞对数据传输和用户服务质量的影响。首先,为SDN服务系统的接入控制过程建立部分可观Markov决策过程(POMDP)模型;然后,使用基于观测的随机策略作为系统的接入控制策略;最后,通过策略梯度算法对接入控制策略进行优化,求解出模型的最优策略。仿真结果表明,与尽力而为的服务策略相比,基于POMDP模型的最优接入控制策略使系统性能提高了10%,验证了所提方法的有效性。
展开更多
关键词
软件定义网络
接入控制
部分
可观
markov
决策
过程
随机策略
梯度优化
在线阅读
下载PDF
职称材料
事件驱动Q学习在呼叫接入控制中的应用
7
作者
任付彪
周雷
+1 位作者
马学森
魏振春
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学...
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。
展开更多
关键词
连续
时间
markov
决策
过程
事件驱动Q学习
呼叫接入控制
在线阅读
下载PDF
职称材料
题名
连续时间部分可观Markov决策过程的策略梯度估计
被引量:
1
1
作者
唐波
李衍杰
殷保群
机构
中国科学技术大学自动化系
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009年第7期805-808,共4页
基金
国家自然科学基金资助项目(60574065)
国家"863"计划资助项目(2006AA01Z114)
中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606)
文摘
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
关键词
连续时间部分可观markov决策过程
策略梯度估计
一致化
误差界
Keywords
CTPOMDP
policy gradient estimation
conformity
error bound
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
有限规划水平部分可观Markov自适应决策过程的参数决策
2
作者
李江红
韩正之
机构
上海交通大学智能工程研究所
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2000年第12期1653-1657,共5页
基金
国家自然科学基金资助项目! (6 98740 2 5 )
文摘
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 .
关键词
部分
可观
markov
决策
过程
自适应控制
贝叶斯原理
Keywords
Adaptive control systems
Learning algorithms
markov
processes
Optimization
Parameter estimation
分类号
TP [自动化与计算机技术]
202.4
在线阅读
下载PDF
职称材料
题名
基于连续时间半马尔可夫决策过程的Option算法
被引量:
3
3
作者
唐昊
张晓艳
韩江洪
周雷
机构
合肥工业大学计算机与信息学院
合肥工业大学电气与自动化工程学院
出处
《计算机学报》
EI
CSCD
北大核心
2014年第9期2027-2037,共11页
基金
国家自然科学基金(61174188,71231004,61374158)
国家国际科技合作项目(2011FA10440)
+1 种基金
教育部新世纪优秀人才计划项目(NCET-11-0626)
高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
文摘
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
关键词
连续
时间
半
markov
决策
过程
分层强化学习
Q学习
Keywords
Continuous-Time Semi-
markov
Decision Process (CT-SMDP)
Hierarchical Rein-forcement Learning (HRL)
Q-learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
随机模型检测连续时间Markov过程
被引量:
2
4
作者
钮俊
曾国荪
吕新荣
徐畅
机构
同济大学计算机科学与技术系
嵌入式系统与服务计算教育部重点实验室
浙江工商职业技术学院信息工程学院
出处
《计算机科学》
CSCD
北大核心
2011年第9期112-115,125,共5页
基金
863项目(2007AA01Z425
2009AA012201)
+7 种基金
973计划课题(2007CB316502)
国家自然(90718015)
NSFC-微软亚洲研究院联合资助项目(60970155)
教育部博士点基金项目(20090072110035)
上海市优秀学科带头人计划项目(10XD1404400)
高效能服务器和存储技术国家重点实验室开放基金项目(2009HSSA06)
浙江省宁波市自然科学基金项目(2010A610123)
浙江省教育厅科研项目(Y201017075)资助
文摘
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。
关键词
功能性能
连续
时间
markov
决策
过程
模型检测
可信验证
可达概率
Keywords
Function and performance
Continuous-time
markov
decision process
Model checking
Trusted verification
Reachability probabilities
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
分布式业务系统基于模型的接入控制方案(英文)
被引量:
1
5
作者
陆效农
殷保群
张海鹏
凌强
机构
中国科学技术大学自动化系
中国科学院国家网络新媒体工程技术研究中心
出处
《中国科学技术大学学报》
CAS
CSCD
北大核心
2012年第10期836-845,共10页
基金
Supported by the National Natural Science Foundation of China(61174124,60935001)
the National High Technology Research and Development Program(863)of China(2011AA01A102)
文摘
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能.
关键词
分布式业务系统
部分
可观
markov
决策
过程
(POMDP)
接入控制
随机策略
基于HMM的方法
Keywords
distributed service systems
POMDP (partly observable
markov
decision process)
admission control
randomized policy
HMM-based method
分类号
TP393 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于软件定义网络的媒体分发网络的接入控制
被引量:
2
6
作者
曹浩
殷保群
曹杰
陆效农
机构
中国科学技术大学自动化系
合肥工业大学管理学院
出处
《计算机应用》
CSCD
北大核心
2016年第7期1767-1771,1827,共6页
基金
国家自然科学基金资助项目(61174124
61233003)
+1 种基金
高等学校博士点基金资助项目(20123402110029)
安徽省高校自然科学研究项目(KJ2012A286)~~
文摘
针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上服务节点到用户之间的传输链路的服务性能进行联合优化,减少了链路拥塞对数据传输和用户服务质量的影响。首先,为SDN服务系统的接入控制过程建立部分可观Markov决策过程(POMDP)模型;然后,使用基于观测的随机策略作为系统的接入控制策略;最后,通过策略梯度算法对接入控制策略进行优化,求解出模型的最优策略。仿真结果表明,与尽力而为的服务策略相比,基于POMDP模型的最优接入控制策略使系统性能提高了10%,验证了所提方法的有效性。
关键词
软件定义网络
接入控制
部分
可观
markov
决策
过程
随机策略
梯度优化
Keywords
Software Defined Network(SDN)
admission control
Partially Observable
markov
Decision Process(POMDP)
randomized policy
policy-gradient approach
分类号
TP393.03 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
事件驱动Q学习在呼叫接入控制中的应用
7
作者
任付彪
周雷
马学森
魏振春
机构
合肥工业大学计算机与信息学院
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011年第1期76-79,共4页
基金
国家自然科学基金资助项目(60873003)
教育部回国人员科研启动基金资助项目(2009AKZR0279)
+1 种基金
安徽省自然科学基金资助项目(090412046)
安徽省高校自然科学研究重点资助项目(KJ2008A058)
文摘
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。
关键词
连续
时间
markov
决策
过程
事件驱动Q学习
呼叫接入控制
Keywords
continuous-time
markov
decision processes(CTMDP)
event driven Q-learning call admission control(CAC)
分类号
TP202.7 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
连续时间部分可观Markov决策过程的策略梯度估计
唐波
李衍杰
殷保群
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009
1
在线阅读
下载PDF
职称材料
2
有限规划水平部分可观Markov自适应决策过程的参数决策
李江红
韩正之
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2000
0
在线阅读
下载PDF
职称材料
3
基于连续时间半马尔可夫决策过程的Option算法
唐昊
张晓艳
韩江洪
周雷
《计算机学报》
EI
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
4
随机模型检测连续时间Markov过程
钮俊
曾国荪
吕新荣
徐畅
《计算机科学》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
5
分布式业务系统基于模型的接入控制方案(英文)
陆效农
殷保群
张海鹏
凌强
《中国科学技术大学学报》
CAS
CSCD
北大核心
2012
1
在线阅读
下载PDF
职称材料
6
基于软件定义网络的媒体分发网络的接入控制
曹浩
殷保群
曹杰
陆效农
《计算机应用》
CSCD
北大核心
2016
2
在线阅读
下载PDF
职称材料
7
事件驱动Q学习在呼叫接入控制中的应用
任付彪
周雷
马学森
魏振春
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部