期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:13
1
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
2
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观马尔可夫决策过程(pomdp)
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
3
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观马氏决策过程的多平台主被动传感器调度 被引量:4
4
作者 张子宁 单甘霖 段修生 《电子学报》 EI CAS CSCD 北大核心 2014年第10期2104-2109,共6页
为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由... 为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由无迹采样近似得到的精度收益及由隐马氏模型滤波器推导出的辐射代价将调度问题转化成决策树问题,并采用分枝定界方法求解.仿真结果表明了该方法的有效性. 展开更多
关键词 传感器调度 部分可观马氏决策过程 先见优化 无迹采样 分枝定界
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
5
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观Markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
6
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分可观马尔可夫决策过程 优化调度 无线广播
在线阅读 下载PDF
不确定性环境下的自动驾驶汽车行为决策方法 被引量:3
7
作者 付新科 蔡英凤 +2 位作者 陈龙 王海 刘擎超 《汽车工程》 EI CSCD 北大核心 2024年第2期211-221,259,共12页
在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。 展开更多
关键词 自动驾驶汽车 行为决策 部分可观马尔可夫决策过程 复杂网络
在线阅读 下载PDF
采用马氏决策过程和后验克拉美罗下界的多被动式移动传感器长期调度方法 被引量:1
8
作者 徐公国 单甘霖 段修生 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第6期125-133,150,共10页
针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的... 针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的单步与长期代价函数;为有效减少计算复杂度,利用大量无迹采样粒子来近似估算长期代价值;通过将多约束非线性调度问题转化为决策树优化问题,可快速获取传感器长期调度方法,并给出了一种基于分支定界技术的改进决策树搜索算法。实验结果表明,所提方法能够实现移动式传感器的合理调度,在决策步长为2时,其目标跟踪精度相较于短期调度可平均提升6.08%;改进搜索算法的求解速度也更加迅速,能够有效满足在线调度的实时性要求。 展开更多
关键词 移动传感器 传感器调度 部分可观马尔科夫决策过程 后验克拉美罗下界 决策
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
9
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
一种基于POMDP用户意图建模的智能轮椅导航控制方法
10
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期95-99,共5页
通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态... 通过部分可观测马尔可夫决策过程(POMDP)模型对用户意图进行建模,提出了一种基于POMDP用户意图建模的智能轮椅导航控制方法.该方法考虑了动作的不确定性和状态的部分可观测性,对用户意图、智能轮椅导航控制的动作空间进行建模,通过状态预测进而选择行为的最优规划,实现用户期望总值的最大化.首先介绍了POMDP的原理及模型,然后提出了基于POMDP用户意图的智能轮椅控制状态空间、动作空间、观察值集合、奖赏值和概率分布,进而提出了一种基于概率密度函数的用户意图求解方法.最后,对基于POMDP用户意图建模的智能轮椅导航控制进行了试验,并对试验结果进行了分析,从而验证了所提方法的实时性和有效性. 展开更多
关键词 智能轮椅 用户意图模型 部分可观马尔可夫决策过程 控制方法
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:7
11
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观马尔科夫决策过程(pomdp) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
多小区OFDMA系统中基于POMDP的干扰协调
12
作者 魏强 杨涛 +1 位作者 冯辉 胡波 《电信科学》 北大核心 2013年第4期41-46,共6页
对OFDMA系统中的干扰协调进行了研究,提出了一种基于部分可观察马尔可夫决策过程理论的动态干扰协调算法。该算法结合干扰的统计模型和信道的信干噪比对边缘用户进行信道分配。仿真结果表明,该算法能够有效地使边缘用户避开邻小区干扰,... 对OFDMA系统中的干扰协调进行了研究,提出了一种基于部分可观察马尔可夫决策过程理论的动态干扰协调算法。该算法结合干扰的统计模型和信道的信干噪比对边缘用户进行信道分配。仿真结果表明,该算法能够有效地使边缘用户避开邻小区干扰,而且不需要小区间交互,节省了系统开销。另外,利用粒子滤波法建立了SINR和干扰的似然关系,不需要系统额外对干扰进行测量。 展开更多
关键词 OFDMA系统 多小区 小区间干扰协调 部分可观马尔可夫决策过程
在线阅读 下载PDF
基于信息熵的POMDP模型观测函数估计
13
作者 钟可立 王小捷 《中兴通讯技术》 2015年第5期50-55,共6页
部分可观测马尔可夫决策过程(POMDP)广泛应用于建模决策任务。模型中的观测矩阵主要用来建模环境的不确定性,通常很难从训练数据中直接获取,需要引入额外的信息进行估计。通过引入信息熵来修正模型中的观测矩阵,修正后的观测矩阵更能反... 部分可观测马尔可夫决策过程(POMDP)广泛应用于建模决策任务。模型中的观测矩阵主要用来建模环境的不确定性,通常很难从训练数据中直接获取,需要引入额外的信息进行估计。通过引入信息熵来修正模型中的观测矩阵,修正后的观测矩阵更能反映环境的不确定性。模拟环境下的实验表明,引入信息熵进行修正估计的观测矩阵有效提高了POMDP模型的性能,而在基于POMDP模型的对话系统中,修正的估计提高了系统的决策准确度。 展开更多
关键词 部分可观马尔可夫决策过程 不确定性 意图识别 观测矩阵 信息熵
在线阅读 下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
14
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
在线阅读 下载PDF
基于深度强化学习的动态频谱智能干扰算法研究
15
作者 张兰 张彪 +1 位作者 梁天一 朱辉杰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期1-11,共11页
随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分... 随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分可观测马尔可夫决策过程对干扰机与跳频通信用户之间的通信对抗过程进行建模,然后基于卷积神经网络和长短期记忆网络设计了一个具有频谱特征挖掘和记忆回溯功能的干扰决策网络,实现基于深度强化学习的动态频谱智能干扰(Dynamic Spectrum Intelligent Jamming,DSIJ)算法。仿真实验结果表明,相较于传统DQN算法,所提DSIJ算法的干扰成功率提升了约18%。与传统的扫频干扰方法相比,其干扰成功率更是提升了约68%,从而充分证明了所提出的算法在动态频谱环境下实现智能干扰策略的有效性与显著优势。 展开更多
关键词 深度强化学习 跳频通信 智能干扰决策 部分可观马尔可夫决策过程
在线阅读 下载PDF
不确定性环境下基于进化算法的强化学习 被引量:12
16
作者 刘海涛 洪炳熔 +1 位作者 朴松昊 王雪梅 《电子学报》 EI CAS CSCD 北大核心 2006年第7期1356-1360,共5页
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐... 不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法. 展开更多
关键词 部分可观马尔可夫决策过程 Q学习 MEMETIC算法 信度状态 隐状态
在线阅读 下载PDF
CPSM:一种增强IP网络生存性的客户端主动服务漂移模型 被引量:10
17
作者 赵二虎 阳小龙 +1 位作者 彭云峰 隆克平 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2134-2139,共6页
本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以... 本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以增强服务漂移对动态不确定性网络环境的自适应能力.在信息预报和信任机制的基础上,通过对网络状态的不断观测和分析,CPSM模型可以计算出使客户获益最高的服务漂移策略. 展开更多
关键词 服务可生存性 服务漂移 部分可观马尔可夫决策过程 信息预报 信任机制
在线阅读 下载PDF
室内环境下基于边际约束的快速路径自主探索算法 被引量:4
18
作者 徐晓苏 梁紫依 +1 位作者 杨博 王迪 《中国惯性技术学报》 EI CSCD 北大核心 2019年第4期474-480,共7页
为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快... 为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快速扩展随机树(RRT)算法基础上,将随机树的生长空间划分为边际四象限空间,结合启发式评估函数的评价。该算法加快了移动机器人在探索目标点之间的移动速度,同时减少了随机树的节点,降低了对内存空间的占用。通过Matlab仿真实验,在实验设定的仿真环境中,该算法比传统RRT算法在时间上缩短约了75%,节点数量减少了约80%,并在机器人操作系统的仿真实验中验证了算法的实用性。 展开更多
关键词 移动机器人 自主探索 部分可观马尔可夫决策过程 快速扩展随机树 边际约束
在线阅读 下载PDF
一种无线传感器网络中目标跟踪的自适应节点调度算法 被引量:10
19
作者 胡波 王祺尧 +1 位作者 冯辉 罗灵兵 《电子与信息学报》 EI CSCD 北大核心 2018年第9期2033-2041,共9页
在无线传感器网络目标跟踪的过程中进行节点调度,可以综合考虑跟踪误差和能量消耗,延长传感器网络的使用寿命。为了综合考虑节点调度的短期和长远损失,该文将问题建模为部分可观测马尔科夫决策过程(POMDP)以得到更优的调度策略,并提出... 在无线传感器网络目标跟踪的过程中进行节点调度,可以综合考虑跟踪误差和能量消耗,延长传感器网络的使用寿命。为了综合考虑节点调度的短期和长远损失,该文将问题建模为部分可观测马尔科夫决策过程(POMDP)以得到更优的调度策略,并提出一种近似求解算法C-QMDP。该算法利用马尔科夫链蒙特卡洛方法(MCMC)推导连续状态空间的置信状态的转移,并计算瞬时代价。使用状态离散化方法,基于马尔科夫决策过程(MDP)值迭代求解未来代价的近似值。仿真结果表明,相比现有POMDP近似算法,该文算法既可以降低跟踪过程中的累积损失,又可以将大量运算进行离线计算,减小了在线决策时的计算量。 展开更多
关键词 无线传感器网络 目标跟踪 节点调度 部分可观马尔可夫决策过程
在线阅读 下载PDF
基于随机学习的接入网服务功能链部署算法 被引量:6
20
作者 陈前斌 杨友超 +2 位作者 周钰 赵国繁 唐伦 《电子与信息学报》 EI CSCD 北大核心 2019年第2期417-423,共7页
针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓... 针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓扑变化,由于存在观测误差无法获得全部真实的拓扑情况,因此采用基于POMDP的部分感知和随机学习而自适应动态调整接入网切片的SFC的部署,优化SFC在接入网侧的时延。为了解决维度灾问题,采用基于点的混合启发式值迭代算法求解。仿真结果表明,该模型可以优化部署接入网侧的SFC,并提高接入网吞吐量和资源利用率。 展开更多
关键词 网络切片 SFC动态部署 网络拓扑感知 部分观察马尔可夫决策过程
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部