期刊文献+
共找到326篇文章
< 1 2 17 >
每页显示 20 50 100
基于马尔可夫决策过程的中国石油战略储备模型分析
1
作者 刘婧 侯孟睿 +1 位作者 刘冲昊 贾祥英 《中国矿业》 北大核心 2025年第2期126-138,共13页
石油被称为“国民经济的血液”,是国家的重要战略资源,在国家经济安全中发挥着战略支撑作用。当前国际环境变乱交织,大国间博弈逐步加剧,国际油价震荡不定,中国作为能源需求大国,石油对外依存度始终处于高位,为更好应对石油市场的不确... 石油被称为“国民经济的血液”,是国家的重要战略资源,在国家经济安全中发挥着战略支撑作用。当前国际环境变乱交织,大国间博弈逐步加剧,国际油价震荡不定,中国作为能源需求大国,石油对外依存度始终处于高位,为更好应对石油市场的不确定性及供应中断风险,制定科学合理的战略储备策略尤为重要。本文研究旨在运用马尔可夫决策过程,构建符合中国国情的石油战略储备模型,为保障国家能源安全提供决策依据。模型考虑石油价格波动、供应中断概率及持续时间等因素,通过定义时间阶段、石油价格、供应量、断供幅度等参数和变量,采用动态规划方法构建奖励函数,提出约束条件,通过情景分析研究各类不确定因素对储备策略的影响。研究结果表明,石油需求弹性、供应中断概率和储备成本系数等因素对储备规模和策略有显著影响,高中断持续时间风险会使最优储备规模显著增加,且不同中断持续时间下储备释放策略不同。模型计算结果在一定程度上反映了不同情景下中国石油战略储备的合理规模和调整策略,但实际情况更为复杂,需综合考虑多方面因素。模型结果为决策提供了重要参考依据,敏感性分析有助于深入理解各因素对储备决策的影响机制,从而在实际中制定更科学合理的石油战略储备策略。分析石油战略储备政策对矿业资本市场的潜在影响,可以通过优化储备策略来提高资源的高质化利用,增强中国在全球石油市场中的能源安全和经济稳定性。本文研究不仅为石油战略储备政策提供了决策支持,也为其他战略性矿产资源的管理提供了借鉴,为政策制定者提供了重要参考。 展开更多
关键词 石油战略储备 石油供应中断 马尔可夫决策过程 储备释放与获取策略 动态规划
在线阅读 下载PDF
基于序贯检测的快速马尔可夫决策:理论、方法及应用 被引量:1
2
作者 陈祖旭 陈巍 +1 位作者 李长坤 韩宇星 《信号处理》 北大核心 2025年第3期448-471,共24页
本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号... 本文立足存在突变状态与检测噪声复杂环境,针对控制后效性与动作迟滞性问题,探索提升决策与控制时效性的方法,提出了一种基于序贯检测的快速马尔可夫决策框架,并应用于智能电网、疾控、水利等若干典型场景。具体的,本文发掘了统计信号处理中的变化点最速检测与随机最优控制中的马尔可夫决策之间的关联,建立了一种包含四维状态的受约束马尔可夫决策框架。该框架可选择一种可行的联合检测-控制策略,最大化控制对象的期望回报,或达到平均收益与风险的最佳折中。相对于传统的“先检测变化点、后调整可控量”的分层策略,所提出的新方法实现了“边检测变化点,边调整可控量”的跨层协同,可有效应对检测延时、反应迟滞对决策控制时效性带来的挑战。在智能电网、疾控、水利等场景中,均展示了“检中调”的思路显著优于“检后调”的传统方法。最后,本文还简要展望了基于序贯检测的快速马尔可夫决策在海上碳封存、网络攻击检测防御中的潜在应用价值。 展开更多
关键词 统计信号处理 随机最优控制 序贯检测 最速变化点检测 马尔可夫决策过程 约束马尔可夫决策过程
在线阅读 下载PDF
基于马尔可夫决策过程的边缘云业务迁移算法 被引量:1
3
作者 马安华 潘甦 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第6期1931-1939,共9页
在移动互联网中,当用户位置发生改变时,业务迁移可用来提升服务质量(QoS)。基于此,提出一种基于马尔可夫决策过程的边缘云业务迁移算法。与对比算法相比,所提算法考虑了不同业务类型对QoS的差异化需求,并全面考虑了业务迁移过程中的收... 在移动互联网中,当用户位置发生改变时,业务迁移可用来提升服务质量(QoS)。基于此,提出一种基于马尔可夫决策过程的边缘云业务迁移算法。与对比算法相比,所提算法考虑了不同业务类型对QoS的差异化需求,并全面考虑了业务迁移过程中的收益及开销。所提算法将业务分为实时和非实时2类,将终端的业务运行状态和与服务器的距离作为状态空间,并基于与业务体验紧密相关的可用速率和时延2个QoS指标构建收益函数,同时将业务迁移过程中的系统资源消耗作为迁移开销,通过最大化全局收益来获取最优迁移策略。通过与对比算法的模拟比较,所提算法在多种场景下都有更高的全局收益。 展开更多
关键词 业务迁移 马尔可夫决策过程 服务质量 迁移开销 业务类型
在线阅读 下载PDF
马尔可夫决策过程和先验控制向量在弱约束自然语言生成中的应用 被引量:3
4
作者 刘奇 马娆 俞凯 《计算机学报》 EI CAS CSCD 北大核心 2022年第2期289-301,共13页
自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自... 自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的抽象,通过在自然语言生成中引入先验控制向量,我们可以更好的约束自然语言生成的空间.再通过马尔可夫决策过程的定义,我们可以使用策略梯度算法来直接使用测试使用的BLEU分数来代替交叉熵训练LSTM网络.在多个数据集上的实验显示本文提出的方法相比于普通使用LSTM语言模型的基线系统在BLEU分数上有大约绝对2%~3%的提升. 展开更多
关键词 自然语言生成 马尔可夫决策过程 先验控制向量 策略梯度算法 深度强化学习
在线阅读 下载PDF
马尔可夫决策过程下的智能电网实时电价模型 被引量:10
5
作者 李江波 王波 +1 位作者 高岩 张惠珍 《系统仿真学报》 CAS CSCD 北大核心 2016年第11期2756-2763,共8页
实时电价策略是节约用电、提高用户用电效用值的有效手段。提出基于马尔可夫决策过程的一个实时电价优化模型。该模型应用有限阶段方法,以供应侧和需求侧的期望效用最大化为目标,依据递减风险理论,采用对数形式对现有效用函数进行改进,... 实时电价策略是节约用电、提高用户用电效用值的有效手段。提出基于马尔可夫决策过程的一个实时电价优化模型。该模型应用有限阶段方法,以供应侧和需求侧的期望效用最大化为目标,依据递减风险理论,采用对数形式对现有效用函数进行改进,从而更加准确地刻画用户用电效用。通过粒子群算法对模型求解,并与固定电价情况进行结果比较。数值模拟结果表明该模型在控制用电量和提高用电效用方面具有良好的效果,同时所得到的实时电价处于固定电价最大和最小值之间,上下波动性小。 展开更多
关键词 智能电网 实时电价 马尔可夫决策过程 递减风险
在线阅读 下载PDF
异构无线网络中基于马尔可夫决策过程的区分业务接纳控制的研究 被引量:10
6
作者 邓强 陈山枝 +1 位作者 胡博 时岩 《通信学报》 EI CSCD 北大核心 2010年第12期27-36,共10页
对异构无线网络中区分业务类型的接纳控制机制进行研究。分析了语音和数据2种典型业务在CDMA蜂窝网络和WLAN中的容量区域。基于马尔可夫决策过程理论,提出异构无线网络中区分业务类型的接纳控制理论模型,规定了不同类型业务的接纳控制... 对异构无线网络中区分业务类型的接纳控制机制进行研究。分析了语音和数据2种典型业务在CDMA蜂窝网络和WLAN中的容量区域。基于马尔可夫决策过程理论,提出异构无线网络中区分业务类型的接纳控制理论模型,规定了不同类型业务的接纳控制行为并推导了系统状态转移概率。而且,进一步从用户角度对不同类型业务QoS要求和网络状态之间关系进行分析,提出一种基于模糊逻辑的接纳效用评估机制,在保证各类业务接入和切换成功率的基础上,推导出接纳效用最大的最优接纳控制策略。仿真表明,基于模糊逻辑的接纳效用评估能够有效反映网络状态动态变化对接纳控制的影响,最优接纳控制策略在平均接纳效用方面明显优于不考虑业务区分和用户移动性2种接纳控制机制,并且能严格保证各类业务的接入和切换成功率。 展开更多
关键词 异构无线网络 接纳控制 业务区分 马尔可夫决策过程
在线阅读 下载PDF
基于马尔可夫过程的牵引供电设备维修决策模型及其应用 被引量:7
7
作者 张奥 林圣 +1 位作者 冯玎 何正友 《铁道学报》 EI CAS CSCD 北大核心 2017年第11期38-45,共8页
传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策... 传统的牵引供电设备固定计划维修模式存在着维修过剩与维修不足的问题,随着维管单位和牵引变电所信息化水平的逐步提高,状态维修模式取代固定计划维修模式已成为可能。本文将设备健康状态引入牵引供电设备维修决策中,基于马尔可夫决策过程建立牵引供电设备的维修决策模型。该模型考虑了基于Gauss-Poisson过程的牵引供电设备全寿命周期健康状态劣化过程和预防性维修过程,以设备全寿命周期的单位时间综合成本为优化目标,采用策略迭代法实现牵引供电设备在不同健康状态下最优维修方式和维修周期的选择。结果表明该模型可行有效,为优化牵引供电设备的维修维护方案,实现状态维修提供依据。 展开更多
关键词 牵引供电设备 劣化过程 维修决策 马尔可夫决策过程
在线阅读 下载PDF
基于马尔可夫决策过程的医疗检查预约优化模型 被引量:11
8
作者 罗利 秦春蓉 罗永 《运筹与管理》 CSSCI CSCD 北大核心 2014年第6期12-16,共5页
医技部门的医疗检查如电子计算机断层扫描(CT)、核磁共振成像设备(MRI)、X射线(X-rays)常常有如下三种病人类型:门诊病人、住院病人和急诊病人。针对不同病人类型的需求特点,运用马尔可夫决策过程原理和动态规划方法,建立了医疗检查设... 医技部门的医疗检查如电子计算机断层扫描(CT)、核磁共振成像设备(MRI)、X射线(X-rays)常常有如下三种病人类型:门诊病人、住院病人和急诊病人。针对不同病人类型的需求特点,运用马尔可夫决策过程原理和动态规划方法,建立了医疗检查设备的预约优化模型,并证明了模型的最优性质,得出了不同病人类型的最优预约策略。数值算例的结果表明:本文的预约策略不仅易于实施,而且,通过该模型获得的最大收益比按传统先来先预约的模式所获得的收益要大。 展开更多
关键词 管理科学与工程 预约优化 马尔可夫决策过程 医疗检查
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:13
9
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
马尔可夫决策过程两种抽象模式 被引量:2
10
作者 王蓁蓁 邢汉承 +1 位作者 张志政 倪庆剑 《计算机科学》 CSCD 北大核心 2008年第10期6-14,48,共10页
抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以... 抽象层次上马尔可夫决策过程的引入,使得人们可简洁地、陈述地表达复杂的马尔可夫决策过程,解决常规马尔可夫决策过程(MDPs)在实际中所遇到的大型状态空间的表达问题。介绍了结构型和概括型两种不同类型抽象马尔可夫决策过程基本概念以及在各种典型抽象MDPs中的最优策略的精确或近似算法,其中包括与常规MDPs根本不同的一个算法:把Bellman方程推广到抽象状态空间的方法,并且对它们的研究历史进行总结和对它们的发展做一些展望,使得人们对它们有一个透彻的、全面而又重点的理解。 展开更多
关键词 情景演算 因子化马尔可夫决策过程 逻辑马尔可夫决策过程 关系马尔可夫决策过程 Bellman方程
在线阅读 下载PDF
马尔可夫决策过程的限界模型检测 被引量:8
11
作者 周从华 邢支虎 +1 位作者 刘志锋 王昌达 《计算机学报》 EI CSCD 北大核心 2013年第12期2587-2600,共14页
限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的... 限界模型检测避免了符号模型检测反应式系统中构建二叉图时出现的空间快速增长,已经被证明是缓解状态空间爆炸问题的有力技术.文中遵循限界模型检测的思想,对马尔可夫决策过程提出一种限界模型检测技术,从而避免构建多端二叉图时空间的快速增长.具有非确定选择刻画能力是马尔可夫决策过程最大的特性,针对该特性首先定义概率计算树逻辑的限界语义,并证明其正确性;然后基于不同界下所计算概率度量序列的演化趋势,设计了限界检测过程终止的判断准则;最后将限界模型检测过程转换为线性方程组的求解问题.实验结果说明限界模型检测技术在证据较短的情况下,所需内存空间少于无界模型检测算法. 展开更多
关键词 模型检测 限界模型检测 概率计算树逻辑 马尔可夫决策过程 状态空间爆炸
在线阅读 下载PDF
部分可观测马尔可夫决策过程算法综述 被引量:12
12
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
基于分层马尔可夫决策过程的AUV全局路径规划研究 被引量:3
13
作者 洪晔 王宏健 边信黔 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第9期2361-2363,2367,共4页
自主路径规划是自治式水下机器人(AUV)自主能力的重要体现,是保障AUV在大范围复杂海洋环境中自主完成使命作业的关键技术之一。提出了基于马尔可夫决策过程的路径规划方法;并建立了基本的马尔可夫决策模型和结合状态聚类的分层马尔可夫... 自主路径规划是自治式水下机器人(AUV)自主能力的重要体现,是保障AUV在大范围复杂海洋环境中自主完成使命作业的关键技术之一。提出了基于马尔可夫决策过程的路径规划方法;并建立了基本的马尔可夫决策模型和结合状态聚类的分层马尔可夫决策模型,同时给出了两种规划的仿真实验及结果分析。实验证明,此类方法能够很好地求解大范围复杂环境内AUV的二维路径规划问题。 展开更多
关键词 自治式水下机器人 马尔可夫决策过程 分层马尔可夫决策过程 路径规划 仿真
在线阅读 下载PDF
一种基于马尔可夫决策过程的认知无线电网络传输调度方案 被引量:5
14
作者 朱江 徐斌阳 李少谦 《电子与信息学报》 EI CSCD 北大核心 2009年第8期2019-2023,共5页
该文提出了一种适用于认知无线电网络的跨层传输调度方案,即满足掉包率约束的前提下最小化平均功率消耗。此方案被建模为约束马尔可夫决策过程(MDP)。采用拉格朗日乘子法求解此MDP,并且提出了一种黄金分割乘子搜索法。提出两种简化方法... 该文提出了一种适用于认知无线电网络的跨层传输调度方案,即满足掉包率约束的前提下最小化平均功率消耗。此方案被建模为约束马尔可夫决策过程(MDP)。采用拉格朗日乘子法求解此MDP,并且提出了一种黄金分割乘子搜索法。提出两种简化方法,即状态聚合以及行动集缩减来解决维灾问题。仿真结果显示简化方法对该方案的性能影响很小,且该方案的平均功耗最低。 展开更多
关键词 认知无线电 马尔可夫决策过程 跨层设计 传输调度
在线阅读 下载PDF
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
15
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
在线阅读 下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
16
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分可观测马尔可夫决策过程 介质访问控制 信道 调度
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
17
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
18
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
在线阅读 下载PDF
双马尔可夫决策过程联合模型 被引量:1
19
作者 王蓁蓁 邢汉承 《计算机科学》 CSCD 北大核心 2009年第9期161-166,共6页
人类在处理问题中往往分为两个层次,首先在整体上把握问题,即提出大体方案,然后再具体实施。也就是说人类就是具有多分辨率智能系统的极好例子,他能够在多个层次上从底向上泛化(即看问题角度粒度变"粗",它类似于抽象),并且又... 人类在处理问题中往往分为两个层次,首先在整体上把握问题,即提出大体方案,然后再具体实施。也就是说人类就是具有多分辨率智能系统的极好例子,他能够在多个层次上从底向上泛化(即看问题角度粒度变"粗",它类似于抽象),并且又能从顶向下进行实例化(即看问题角度变"细",它类似于具体化)。由此构造了由在双层(理想空间即泛化和实际空间即实例化)上各自运行的马尔可夫决策过程组成的半马尔可夫决策过程,称之为双马尔可夫决策过程联合模型。然后讨论该联合模型的最优策略算法,最后给出一个实例说明双马尔可夫决策联合模型能够经济地节约"思想",是运算有效性和可行性的一个很好的折中。 展开更多
关键词 马尔可夫决策过程 增强学习 最优策略
在线阅读 下载PDF
逻辑马尔可夫决策过程的正则条件概率理论 被引量:1
20
作者 王蓁蓁 邢汉承 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期439-447,共9页
增强学习已经开始向关系增强学习发展,并且产生了许多新的算法.大部分方法将命题表达提升为关系或计算逻辑的表达.这些方法已经表现出许多好的性质,但是相关的理论分析目前还缺乏,即为什么这些关系的增强学习具有良好的性质,因此提出基... 增强学习已经开始向关系增强学习发展,并且产生了许多新的算法.大部分方法将命题表达提升为关系或计算逻辑的表达.这些方法已经表现出许多好的性质,但是相关的理论分析目前还缺乏,即为什么这些关系的增强学习具有良好的性质,因此提出基础马尔可夫决策过程和逻辑马尔可夫决策过程的测度空间结构,利用现代概率论中条件数学期望和正则条件概率理论建立基础和逻辑两种马尔可夫决策过程之间的深刻联系,从而证实了逻辑马尔可夫决策过程中的最优策略在某种平均意义上是相应的基础马尔可夫决策过程的最优策略.最后由实例分析得出逻辑马尔可夫决策编程方法.建立逻辑马尔可夫决策过程的测度空间结构可以为关系增强学习提供数学理论框架. 展开更多
关键词 概率测度空间 逻辑马尔可夫决策过程 正则条件概率 增强学习
在线阅读 下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部