期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于离散Markov决策过程的发电公司多阶段决策
被引量:
2
1
作者
张宏刚
宋依群
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换...
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性.
展开更多
关键词
电力市场
离散时间markov决策过程
决策
问题
在线阅读
下载PDF
职称材料
连续时间部分可观Markov决策过程的策略梯度估计
被引量:
1
2
作者
唐波
李衍杰
殷保群
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数...
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
展开更多
关键词
连续
时间
部分可观
markov
决策
过程
策略梯度估计
一致化
误差界
在线阅读
下载PDF
职称材料
基于连续时间半马尔可夫决策过程的Option算法
被引量:
3
3
作者
唐昊
张晓艳
+1 位作者
韩江洪
周雷
《计算机学报》
EI
CSCD
北大核心
2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过...
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
展开更多
关键词
连续
时间
半
markov
决策
过程
分层强化学习
Q学习
在线阅读
下载PDF
职称材料
随机模型检测连续时间Markov过程
被引量:
2
4
作者
钮俊
曾国荪
+1 位作者
吕新荣
徐畅
《计算机科学》
CSCD
北大核心
2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc...
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。
展开更多
关键词
功能性能
连续
时间
markov
决策
过程
模型检测
可信验证
可达概率
在线阅读
下载PDF
职称材料
有优先权两部件离散时间温贮备可修系统
被引量:
2
5
作者
段红星
张民悦
+1 位作者
包林涛
朱军强
《兰州理工大学学报》
CAS
北大核心
2009年第6期144-146,共3页
在开关完全可靠的情况下,研究由两个不同型、有优先权的部件和一个修理设备组成的温贮备系统,建立在部件工作寿命和修理时间均服从几何分布的可修模型,并利用Markov过程、母函数、LS变换推导出该模型的一些可靠性指标——系统的稳态可...
在开关完全可靠的情况下,研究由两个不同型、有优先权的部件和一个修理设备组成的温贮备系统,建立在部件工作寿命和修理时间均服从几何分布的可修模型,并利用Markov过程、母函数、LS变换推导出该模型的一些可靠性指标——系统的稳态可用度及系统的首次故障前平均工作时间.
展开更多
关键词
优先权
离散
时间
温贮备系统
markov
过程
可靠性指标
在线阅读
下载PDF
职称材料
可逆的时齐markov链——时间离散情形
6
作者
侯振挺
汪培庄
《北京师范大学学报(自然科学版)》
CAS
1979年第1期23-44,46,共23页
马氏过程的可逆性定义,出于物理考虑。在一定条件下,马氏过程要趋于平稳。在统计物理中,感兴趣的不仅是平稳,而且是细致平稳——这时的物理过程是微观可逆的。著名的 Onsager 对易关系,实质上要假定过程的微观可逆性。据此。
关键词
马氏
过程
时间
离散
markov
拟阵
对易关系
微观可逆性
吸收壁
统计物理
钱敏平
马氏链
在线阅读
下载PDF
职称材料
风险概率准则下的非平稳马氏决策过程
7
作者
温馨
徐小雅
郭先平
《应用概率统计》
CSCD
北大核心
2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假...
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.
展开更多
关键词
非平稳
离散
马氏
决策
过程
风险概率准则
最优方程序列
首达
时间
最优马氏策略
在线阅读
下载PDF
职称材料
基于马尔科夫决策的目标选择策略
被引量:
5
8
作者
雷霆
朱承
张维明
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模...
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。
展开更多
关键词
目标选择
目标体系
与或树
离散
时间
马尔科夫
决策
过程
在线阅读
下载PDF
职称材料
互联电网CPS调节指令动态最优分配Q–学习算法
被引量:
25
9
作者
余涛
王宇名
刘前进
《中国电机工程学报》
EI
CSCD
北大核心
2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看...
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。
展开更多
关键词
Q-学习
随机最优
离散
时间
马尔可夫
决策
过程
控制性能标准
自动发电控制
在线阅读
下载PDF
职称材料
事件驱动Q学习在呼叫接入控制中的应用
10
作者
任付彪
周雷
+1 位作者
马学森
魏振春
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学...
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。
展开更多
关键词
连续
时间
markov
决策
过程
事件驱动Q学习
呼叫接入控制
在线阅读
下载PDF
职称材料
题名
基于离散Markov决策过程的发电公司多阶段决策
被引量:
2
1
作者
张宏刚
宋依群
机构
上海交通大学电气工程系
出处
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004年第8期1238-1240,1245,共4页
文摘
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性.
关键词
电力市场
离散时间markov决策过程
决策
问题
Keywords
Decision making
Discrete time control systems
Electric power systems
markov
processes
Optimization
分类号
TM732 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
连续时间部分可观Markov决策过程的策略梯度估计
被引量:
1
2
作者
唐波
李衍杰
殷保群
机构
中国科学技术大学自动化系
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009年第7期805-808,共4页
基金
国家自然科学基金资助项目(60574065)
国家"863"计划资助项目(2006AA01Z114)
中国科学院自动化所和中国科学技术大学智能科学与技术联合实验室种子基金资助项目(JL0606)
文摘
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用.
关键词
连续
时间
部分可观
markov
决策
过程
策略梯度估计
一致化
误差界
Keywords
CTPOMDP
policy gradient estimation
conformity
error bound
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于连续时间半马尔可夫决策过程的Option算法
被引量:
3
3
作者
唐昊
张晓艳
韩江洪
周雷
机构
合肥工业大学计算机与信息学院
合肥工业大学电气与自动化工程学院
出处
《计算机学报》
EI
CSCD
北大核心
2014年第9期2027-2037,共11页
基金
国家自然科学基金(61174188,71231004,61374158)
国家国际科技合作项目(2011FA10440)
+1 种基金
教育部新世纪优秀人才计划项目(NCET-11-0626)
高等学校博士学科点专项科研基金(博导类)(20130111110007)资助~~
文摘
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
关键词
连续
时间
半
markov
决策
过程
分层强化学习
Q学习
Keywords
Continuous-Time Semi-
markov
Decision Process (CT-SMDP)
Hierarchical Rein-forcement Learning (HRL)
Q-learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
随机模型检测连续时间Markov过程
被引量:
2
4
作者
钮俊
曾国荪
吕新荣
徐畅
机构
同济大学计算机科学与技术系
嵌入式系统与服务计算教育部重点实验室
浙江工商职业技术学院信息工程学院
出处
《计算机科学》
CSCD
北大核心
2011年第9期112-115,125,共5页
基金
863项目(2007AA01Z425
2009AA012201)
+7 种基金
973计划课题(2007CB316502)
国家自然(90718015)
NSFC-微软亚洲研究院联合资助项目(60970155)
教育部博士点基金项目(20090072110035)
上海市优秀学科带头人计划项目(10XD1404400)
高效能服务器和存储技术国家重点实验室开放基金项目(2009HSSA06)
浙江省宁波市自然科学基金项目(2010A610123)
浙江省教育厅科研项目(Y201017075)资助
文摘
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。
关键词
功能性能
连续
时间
markov
决策
过程
模型检测
可信验证
可达概率
Keywords
Function and performance
Continuous-time
markov
decision process
Model checking
Trusted verification
Reachability probabilities
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
有优先权两部件离散时间温贮备可修系统
被引量:
2
5
作者
段红星
张民悦
包林涛
朱军强
机构
南京师范大学泰州学院
兰州理工大学理学院
[
西安陆军学院
出处
《兰州理工大学学报》
CAS
北大核心
2009年第6期144-146,共3页
基金
甘肃省自然科学基金(3ZS042-B25-016)
文摘
在开关完全可靠的情况下,研究由两个不同型、有优先权的部件和一个修理设备组成的温贮备系统,建立在部件工作寿命和修理时间均服从几何分布的可修模型,并利用Markov过程、母函数、LS变换推导出该模型的一些可靠性指标——系统的稳态可用度及系统的首次故障前平均工作时间.
关键词
优先权
离散
时间
温贮备系统
markov
过程
可靠性指标
Keywords
priority
discrete-time
warm-fund system
markov
process
reliability indicators
分类号
O211.6 [理学—概率论与数理统计]
TB114 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
可逆的时齐markov链——时间离散情形
6
作者
侯振挺
汪培庄
机构
长沙铁道学院
北京师范大学
出处
《北京师范大学学报(自然科学版)》
CAS
1979年第1期23-44,46,共23页
文摘
马氏过程的可逆性定义,出于物理考虑。在一定条件下,马氏过程要趋于平稳。在统计物理中,感兴趣的不仅是平稳,而且是细致平稳——这时的物理过程是微观可逆的。著名的 Onsager 对易关系,实质上要假定过程的微观可逆性。据此。
关键词
马氏
过程
时间
离散
markov
拟阵
对易关系
微观可逆性
吸收壁
统计物理
钱敏平
马氏链
分类号
O21 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
风险概率准则下的非平稳马氏决策过程
7
作者
温馨
徐小雅
郭先平
机构
中山大学管理学院
广东财经大学工商管理学院
中山大学数学学院
出处
《应用概率统计》
CSCD
北大核心
2023年第4期589-603,共15页
基金
The research was supported by the National Natural Science Foundation of China(Grant Nos.11931018,72101059)
Guangdong Natural Science Foundation(Grant No.2020A1515010924).
文摘
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.
关键词
非平稳
离散
马氏
决策
过程
风险概率准则
最优方程序列
首达
时间
最优马氏策略
Keywords
nonstationary discrete-time
markov
decision process
risk probability criterion
optimality equations
first passage time
optimal
markov
policy
分类号
O211.62 [理学—概率论与数理统计]
在线阅读
下载PDF
职称材料
题名
基于马尔科夫决策的目标选择策略
被引量:
5
8
作者
雷霆
朱承
张维明
机构
国防科技大学信息系统工程重点实验室
军事科学院运筹所
出处
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014年第2期161-167,共7页
基金
国家自然科学基金资助项目(61273322
71001105
91024006)
文摘
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。
关键词
目标选择
目标体系
与或树
离散
时间
马尔科夫
决策
过程
Keywords
target selecting
target system of system
and-or tree
discrete time
markov
decision process.
分类号
E917 [军事]
在线阅读
下载PDF
职称材料
题名
互联电网CPS调节指令动态最优分配Q–学习算法
被引量:
25
9
作者
余涛
王宇名
刘前进
机构
华南理工大学电力学院
出处
《中国电机工程学报》
EI
CSCD
北大核心
2010年第7期62-69,共8页
基金
国家自然科学基金项目(50807016)
广东省自然科学基金项目(9151064101000049)~~
文摘
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。
关键词
Q-学习
随机最优
离散
时间
马尔可夫
决策
过程
控制性能标准
自动发电控制
Keywords
Q-learning
stochastic optimization
discrete time
markov
decision process
control performance standard
automatic generation control
分类号
TM71 [电气工程—电力系统及自动化]
在线阅读
下载PDF
职称材料
题名
事件驱动Q学习在呼叫接入控制中的应用
10
作者
任付彪
周雷
马学森
魏振春
机构
合肥工业大学计算机与信息学院
出处
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011年第1期76-79,共4页
基金
国家自然科学基金资助项目(60873003)
教育部回国人员科研启动基金资助项目(2009AKZR0279)
+1 种基金
安徽省自然科学基金资助项目(090412046)
安徽省高校自然科学研究重点资助项目(KJ2008A058)
文摘
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。
关键词
连续
时间
markov
决策
过程
事件驱动Q学习
呼叫接入控制
Keywords
continuous-time
markov
decision processes(CTMDP)
event driven Q-learning call admission control(CAC)
分类号
TP202.7 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于离散Markov决策过程的发电公司多阶段决策
张宏刚
宋依群
《上海交通大学学报》
EI
CAS
CSCD
北大核心
2004
2
在线阅读
下载PDF
职称材料
2
连续时间部分可观Markov决策过程的策略梯度估计
唐波
李衍杰
殷保群
《控制理论与应用》
EI
CAS
CSCD
北大核心
2009
1
在线阅读
下载PDF
职称材料
3
基于连续时间半马尔可夫决策过程的Option算法
唐昊
张晓艳
韩江洪
周雷
《计算机学报》
EI
CSCD
北大核心
2014
3
在线阅读
下载PDF
职称材料
4
随机模型检测连续时间Markov过程
钮俊
曾国荪
吕新荣
徐畅
《计算机科学》
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
5
有优先权两部件离散时间温贮备可修系统
段红星
张民悦
包林涛
朱军强
《兰州理工大学学报》
CAS
北大核心
2009
2
在线阅读
下载PDF
职称材料
6
可逆的时齐markov链——时间离散情形
侯振挺
汪培庄
《北京师范大学学报(自然科学版)》
CAS
1979
0
在线阅读
下载PDF
职称材料
7
风险概率准则下的非平稳马氏决策过程
温馨
徐小雅
郭先平
《应用概率统计》
CSCD
北大核心
2023
0
在线阅读
下载PDF
职称材料
8
基于马尔科夫决策的目标选择策略
雷霆
朱承
张维明
《国防科技大学学报》
EI
CAS
CSCD
北大核心
2014
5
在线阅读
下载PDF
职称材料
9
互联电网CPS调节指令动态最优分配Q–学习算法
余涛
王宇名
刘前进
《中国电机工程学报》
EI
CSCD
北大核心
2010
25
在线阅读
下载PDF
职称材料
10
事件驱动Q学习在呼叫接入控制中的应用
任付彪
周雷
马学森
魏振春
《合肥工业大学学报(自然科学版)》
CAS
CSCD
北大核心
2011
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部