期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
部分可观察马尔科夫决策过程优化不稳定型心绞痛中西医结合临床治疗方案的建模方法与验证研究 被引量:13
1
作者 冯妍 冯奇 +3 位作者 王以新 邱禹 周雪忠 徐浩 《中国全科医学》 CAS 北大核心 2020年第17期2181-2185,共5页
背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医... 背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医结合临床治疗方案优化过程中的建模方法并对模型的可靠性做出初步验证。方法收集中国中医科学院西苑医院、中国中医科学院广安门医院、中日友好医院、北京市中医院、通州区中医院、东直门医院、怀柔中医医院、北京大学人民医院2008-2010年2212例UA患者结构化住院病历111060条记录。将UA证候要素类型为气虚、血瘀的患者随机分为测试组732例和验证组732例,对测试组患者应用POMDP得出一组最优治疗方案的核心处方,在验证组患者中筛选符合方案的患者(作为优化组),与不符合方案的患者(作为对照组)进行血瘀证积分、远期终点事件(主要终点事件包括心血管死亡、非致命性心肌梗死、血运重建术,次要终点事件包括脑卒中、因急性冠脉综合征再住院、心功能不全、其他血栓并发症)发生情况的比较,验证方案的临床疗效。结果气虚优化组(n=152)、血瘀优化组(n=127)患者血瘀证积分降分分别为(5.29±2.64)、(4.87±3.04)分,均高于对照组,差异有统计学意义(P<0.05)。气虚优化组、血瘀优化组远期终点事件发生率分别为16.4%(25/152)、12.6%(16/127),与对照组比较,差异无统计学意义(P>0.05)。结论POMDP可以实现UA中西医结合临床治疗方案的优化,模型经验证较为稳定可靠,可尝试为其他疾病临床方案的制定提供更为细化、深入的优化方案。 展开更多
关键词 心绞痛 不稳定型 冠心病 部分可观马尔科夫决策过程 建模 验证
在线阅读 下载PDF
基于部分可观马氏决策过程的多平台主被动传感器调度 被引量:4
2
作者 张子宁 单甘霖 段修生 《电子学报》 EI CAS CSCD 北大核心 2014年第10期2104-2109,共6页
为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由... 为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由无迹采样近似得到的精度收益及由隐马氏模型滤波器推导出的辐射代价将调度问题转化成决策树问题,并采用分枝定界方法求解.仿真结果表明了该方法的有效性. 展开更多
关键词 传感器调度 部分可观马氏决策过程 先见优化 无迹采样 分枝定界
在线阅读 下载PDF
基于部分可观察马氏决策过程的频谱接入方法 被引量:2
3
作者 侯国涛 韩慧 胡俊 《电波科学学报》 EI CSCD 北大核心 2013年第3期553-558,共6页
在次用户无法准确掌握信道被占用情况下,为了减少对主用户的干扰,提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcesses,POMDP)的机会式频谱接入方法.该方法把次用户在每个决策时刻从多个信道中选... 在次用户无法准确掌握信道被占用情况下,为了减少对主用户的干扰,提出了一种基于部分可观察马尔科夫决策过程(Partially Observable Markov DecisionProcesses,POMDP)的机会式频谱接入方法.该方法把次用户在每个决策时刻从多个信道中选择其中一个信道进行接入这一过程模型化为一个无限阶部分可观察马尔科夫决策过程.仿真结果表明,通过不断从外界环境中学习,次用户总可以按照目标函数最大准则选择满意的频谱空穴.该模型为动态频谱接入提供了思路. 展开更多
关键词 认知无线电 动态频谱接入 部分可观马尔科夫决策过程
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
4
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观Markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
5
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观Markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
部分可观环境中AUV软件自修复模型研究 被引量:1
6
作者 张汝波 孟雷 史长亭 《计算机工程与应用》 CSCD 北大核心 2017年第2期151-156,共6页
针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于... 针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于点的值迭代算法求解生成修复策略使系统在部分可观环境下能够以较低的修复代价执行修复动作。仿真实验验证了算法有效性和模型适用性。 展开更多
关键词 智能水下机器人 微重启技术 自修复 部分可观马尔科夫决策过程(POMDP) 基于点的值迭代(PBVI)
在线阅读 下载PDF
采用马氏决策过程和后验克拉美罗下界的多被动式移动传感器长期调度方法 被引量:1
7
作者 徐公国 单甘霖 段修生 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第6期125-133,150,共10页
针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的... 针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的单步与长期代价函数;为有效减少计算复杂度,利用大量无迹采样粒子来近似估算长期代价值;通过将多约束非线性调度问题转化为决策树优化问题,可快速获取传感器长期调度方法,并给出了一种基于分支定界技术的改进决策树搜索算法。实验结果表明,所提方法能够实现移动式传感器的合理调度,在决策步长为2时,其目标跟踪精度相较于短期调度可平均提升6.08%;改进搜索算法的求解速度也更加迅速,能够有效满足在线调度的实时性要求。 展开更多
关键词 移动传感器 传感器调度 部分可观马尔科夫决策过程 后验克拉美罗下界 决策
在线阅读 下载PDF
一种用于部分可观察随机域的情感计算模型
8
作者 黄向阳 张娜 +1 位作者 王旭仁 彭岩 《计算机应用与软件》 CSCD 2016年第2期73-76,114,共5页
在计算机游戏中,富有情感可以使非玩家角色表现得更加真实,同时增加游戏的趣味性以吸引更多的游戏爱好者参与。在部分可观察不确定环境提出一种基于规划的情感计算模型。首先,基于部分可观察马尔科夫决策过程提出一种成本约束的目标导... 在计算机游戏中,富有情感可以使非玩家角色表现得更加真实,同时增加游戏的趣味性以吸引更多的游戏爱好者参与。在部分可观察不确定环境提出一种基于规划的情感计算模型。首先,基于部分可观察马尔科夫决策过程提出一种成本约束的目标导向行为规划技术用于规划智能体行为;其次,在规划执行过程中结合评价与再评价的双层评价理论计算生成情感;最后,结合特定情境设计两组对比实验。实验表明该模型能够提高智能体的逼真度且更加吸引玩家。 展开更多
关键词 情感计算 目标导向行为规划 部分可观马尔科夫决策过程 双层评价理论
在线阅读 下载PDF
一种不确定作战决策效能评估模型及仿真 被引量:2
9
作者 邓鹏华 毕义明 刘继方 《系统仿真学报》 CAS CSCD 北大核心 2009年第23期7381-7385,共5页
针对直接评估不确定决策效能的困难,引入一种间接评估方法——理想观察者分析(Ideal Observer Analysis,IOA)方法,它通过定义最佳执行(Optimal Performance),用实际策略效用与OP效用值的差异表示决策效能。而在确定OP时又使用了部分可... 针对直接评估不确定决策效能的困难,引入一种间接评估方法——理想观察者分析(Ideal Observer Analysis,IOA)方法,它通过定义最佳执行(Optimal Performance),用实际策略效用与OP效用值的差异表示决策效能。而在确定OP时又使用了部分可观察马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)模型。研究了用POMDP模型确定OP的方法,提出了一种行动决策方法。最后针对三状态"寻找并摧毁"型作战任务进行仿真验证,结果证明了此方法的有效性。 展开更多
关键词 效能评估 不确定作战决策 理想观察者分析 部分可观马尔科夫决策过程 行动决策
在线阅读 下载PDF
面向关系建模的合作多智能体深度强化学习综述
10
作者 熊丽琴 陈希亮 +2 位作者 赖俊 骆西建 曹雷 《计算机工程与应用》 北大核心 2025年第18期41-60,共20页
近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化... 近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化学习方法通过刻画智能体与智能体、智能体与系统整体的关系来准确捕获并利用智能体的个体贡献和智能体间相互作用以有效促进多智能体协同,具有重要研究意义和应用价值。简要介绍多智能体系统中存在的关系和多智能体深度强化学习的基础知识;从关系建模层次的角度出发将面向关系建模的合作多智能体深度强化学习算法分为基于个体间关系建模、基于个体与全局间关系建模以及基于多尺度关系建模这三类,并对其基本原理及优缺点进行全面梳理;着重介绍了其在无人集群控制、任务与资源分配、智能交通运输等领域中的应用情况。最后,总结当前面临的主要挑战并对未来研究方向进行展望。 展开更多
关键词 深度强化学习 多智能体强化学习 部分可观马尔科夫决策过程 多智能体协同 关系建模
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:8
11
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观马尔科夫决策过程(POMDP) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
面向跟踪任务需求的主动传感器调度方法 被引量:7
12
作者 乔成林 单甘霖 +1 位作者 段修生 刘欣怡 《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2515-2521,共7页
以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的... 以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的辐射模型,并采用隐马尔可夫模型滤波器动态更新传感器辐射;最后考虑跟踪任务需求和传感器约束,将辐射风险控制下传感器调度问题转化为非线性约束下寻优问题。仿真实验结果验证了所提方法有效性。 展开更多
关键词 传感器调度 跟踪任务需求 部分可观马尔可夫决策过程 辐射风险
在线阅读 下载PDF
多目标跟踪中基于目标威胁度评估的传感器控制方法 被引量:10
13
作者 陈辉 贺忠良 +1 位作者 连峰 李晨 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2861-2867,共7页
该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析... 该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析。然后,基于粒子多目标滤波器估计多目标状态,依据多目标运动态势的评估研究建立多目标威胁水平,并从多目标分布特性中深入分析并提取出当前时刻最大威胁度目标的分布特性。最后,利用Rényi散度作为传感器控制的评价指标,以最大威胁度目标的信息增益最大化为准则进行最终控制方案的求解。仿真实验验证了该方法的实用性和有效性。 展开更多
关键词 多目标跟踪 目标威胁度 战术重要性标绘 传感器控制 部分可观马尔科夫决策过程
在线阅读 下载PDF
面向目标跟踪的单平台主被动传感器长期调度 被引量:7
14
作者 单甘霖 张子宁 《系统工程与电子技术》 EI CSCD 北大核心 2014年第3期458-463,共6页
以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision... 以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision process,POMDP)以同步实现目标跟踪和辐射控制。提出以容积采样法估算长期精度收益,以隐马氏模型滤波器推导长期辐射代价。最终将原问题转化成决策树并利用分枝定界法进行求解。仿真结果证明了本方法的有效性。 展开更多
关键词 长期调度 部分可观马氏决策过程 决策 分枝定界
在线阅读 下载PDF
异构密集网络下基于POMDP负载感知的负载均衡算法研究 被引量:4
15
作者 唐伦 梁荣 +1 位作者 张亚 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2017年第9期2134-2140,共7页
针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的... 针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的负载状态。其次根据负载感知结果动态调整小区范围扩展偏置值(DCRE),以达到优化系统整体负载均衡性的目的。最后采用启发式算法近似求解,能够快速得到次优解。仿真结果表明,该方案能在异构密集网络下提高系统负载均衡性,同时提升了系统吞吐量与系统资源利用率。 展开更多
关键词 异构密集网络 负载均衡 小区范围扩展 部分可测马尔科夫决策过程
在线阅读 下载PDF
基于POMDP的认知无线电自适应频谱感知算法 被引量:12
16
作者 许瑞琛 蒋挺 《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。 展开更多
关键词 部分可观马尔科夫决策过程 自适应感知 数据传输时间 冲突概率 频谱利用率
在线阅读 下载PDF
认知Ad Hoc网络能量有效频谱接入策略 被引量:5
17
作者 张凯 刘洋 +1 位作者 赵彪 李鸥 《信号处理》 CSCD 北大核心 2013年第7期896-904,共9页
针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用... 针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用户选择能效最佳信道,并根据信念状态、信道增益和检测概率,自适应控制传输功率。仿真结果表明,该策略能够有效提高次用户传输的能量有效性,通过对传输功率的有效控制,实现了传输性能和能量开销的有效折中。 展开更多
关键词 认知无线电 机会频谱接入 能量有效性 部分可观马尔科夫决策过程 传输功率控制
在线阅读 下载PDF
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
18
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于分层强化学习的AUV路径跟踪技术研究 被引量:2
19
作者 潘昕 冯国利 侯新国 《海军工程大学学报》 CAS 北大核心 2021年第3期106-112,共7页
针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LS... 针对传统的欠驱动无人自主水下航行器路径跟踪技术依赖于精确的运动模型,且在三维空间中的应用存在着理论推导复杂、实际应用价值不高的缺点,首先将路径跟踪看作部分马尔科夫决策过程,通过在Soft Actor Critic框架中引入LSTM网络,提出LSTM-SAC算法解决二维路径跟踪问题;然后,将三维空间的跟踪问题利用分层思想划分到xOy和xOz两个子平面求解,在子平面中以较少的状态变量训练网络。仿真结果表明:所提算法具有更好的鲁棒性和更快的收敛速度,能够有效解决三维环境下的路径跟踪问题。 展开更多
关键词 AUV 路径跟踪 部分马尔科夫决策过程 分层强化学习
在线阅读 下载PDF
分布式业务系统基于模型的接入控制方案(英文) 被引量:1
20
作者 陆效农 殷保群 +1 位作者 张海鹏 凌强 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能. 展开更多
关键词 分布式业务系统 部分可观Markov决策过程(POMDP) 接入控制 随机策略 基于HMM的方法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部