期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
马尔可夫决策过程两种抽象模式 被引量:2
1
作者 王蓁蓁 邢汉承 +1 位作者 张志政 倪庆剑 《计算机科学》 CSCD 北大核心 2008年第10期6-14,48,共10页
抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以... 抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以及在各种典型抽象MDPs中的最优策略的精确或近似算法,其中包括与常规MDPs根本不同的一个算法:把Bellman方程推广到抽象状态空间的方法,并且对它们的研究历史进行总结和对它们的发展做一些展望,使得人们对它们有一个透彻的、全面而又重点的理解。 展开更多
关键词 情景演算 因子化马尔可夫决策过程 逻辑马尔可夫决策过程 关系马尔可夫决策过程 Bellman方程
在线阅读 下载PDF
基于马尔可夫过程的牵引供电设备维修决策模型及其应用 被引量:7
2
作者 张奥 林圣 +1 位作者 冯玎 何正友 《铁道学报》 EI CAS CSCD 北大核心 2017年第11期38-45,共8页
传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策... 传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策过程建立牵引供电设备的维修决策模型。该模型考虑了基于Gauss-Poisson过程的牵引供电设备全寿命周期健康状态劣化过程和预防性维修过程,以设备全寿命周期的单位时间综合成本为优化目标,采用策略迭代法实现牵引供电设备在不同健康状态下最优维修方式和维修周期的选择。结果表明该模型可行有效,为优化牵引供电设备的维修维护方案,实现状态维修提供依据。 展开更多
关键词 牵引供电设备 过程 维修决策 马尔可夫决策过程
在线阅读 下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
3
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子平稳策略 渐近最优性
在线阅读 下载PDF
基于深度Q网络的在线服务功能链部署方法 被引量:7
4
作者 邱航 汤红波 游伟 《电子与信息学报》 EI CSCD 北大核心 2021年第11期3122-3130,共9页
针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度Q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系... 针对5G网络资源状态动态变化和网络模型高维度下服务功能链部署的复杂性问题,该文提出一种基于深度Q网络的在线服务功能链部署方法(DeePSCD)。首先,为描述网络资源动态变化的特征,将服务功能链部署建模成马尔可夫决策过程,然后,针对系统资源模型的高维度问题采用深度Q网络的方法进行在线服务功能链部署策略求解。该方法可以有效描述网络资源状态的动态变化,特别是深度Q网络能有效克服求解复杂度,优化服务功能链的部署开销。仿真结果表明,所提方法在满足服务时延约束条件下降低了服务功能链的部署开销,提高了运营商网络的服务请求接受率。 展开更多
关键词 网络功能虚拟 服务功能链 马尔可夫决策过程 深度Q网络
在线阅读 下载PDF
面向大规模网络的服务功能链部署方法 被引量:1
5
作者 张冠莹 伊鹏 +2 位作者 李丹 朱棣 毛明 《计算机工程》 CAS CSCD 北大核心 2023年第8期122-129,共8页
网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度... 网络功能虚拟化(NFV)将网络功能从硬件中间盒中解耦出来,部署功能实例并编排为服务功能链(SFC),从而实现网络服务。针对资源受限情况下大规模网络环境中的SFC动态部署问题,提出一种基于多智能体的群策部署方法,该方法结合了集中式深度强化学习(DRL)和传统分布式方法的优点。将SFC部署问题建模为部分可见马尔可夫决策过程,每个节点部署一个Actor-Critic智能体,仅通过观察本地节点信息即可得到全局训练策略,具有DRL的灵活性和自适应性。本地智能体控制交互过程,以解决集中式DRL方法在大规模网络中控制复杂、响应速度慢等问题。基于多线程的思想,收集、整合每个节点的经验进行集中式训练,避免完全分布式训练过程中部分节点因请求流量少而导致训练不充分、策略不适用等问题。实验结果表明,该方法无须考虑网络规模而且不依赖特定场景,可以很好地适应现实中复杂多变的网络环境,在相对复杂的流量环境中,与CDRL、GCASP方法相比,在多种流量模式下所提方法的部署成功率均提高了20%以上,同时能够降低部署成本。 展开更多
关键词 网络功能虚拟 服务功能链 深度强学习 部分可见马尔可夫决策过程 多智能体
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部