期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于分层POMDP的智能轮椅行为控制方法 被引量:3
1
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
2
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于POMDP模型的分布式机会频谱接入算法 被引量:2
3
作者 张士兵 王惠建 邹丽 《南京邮电大学学报(自然科学版)》 北大核心 2014年第1期10-16,共7页
针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱... 针对认知无线电(cognitive radio,CR)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知无线电网络用户的频谱感知和频谱接入过程进行研究,提出了基于POMDP模型的分布式机会频谱接入算法。该算法利用网络信道的历史频谱感知信息对主用户接入信道的状况作出估计,以认知用户吞吐量最大化为目标进行频谱接入。同时,通过贪心算法得到此优化策略的次优解,降低了最优策略的计算复杂度。论文分析了认知用户接入吞吐量与网络中信道数目以及信道状态转移概率之间的关系,将贪心算法与随机检测接入算法进行了仿真比较。仿真结果显示,该算法获得的吞吐量比随机检测接入算法提高了约25%,能够更有效地做出接入策略。 展开更多
关键词 认知无线电 机会频谱接入 吞吐量 pomdp
在线阅读 下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
4
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分可观测马尔可夫决策过程 优化调度 无线广播
在线阅读 下载PDF
基于POMDP的多机无源传感器协同任务规划 被引量:2
5
作者 马玲 左燕 +1 位作者 彭冬亮 任金磊 《无线电工程》 北大核心 2022年第7期1260-1265,共6页
针对多机无源传感器协同跟踪任务规划问题,提出了一种基于部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的多无人机无源传感器调度算法。在POMDP框架下建立了多无人机协同跟踪规划模型。考虑量测噪... 针对多机无源传感器协同跟踪任务规划问题,提出了一种基于部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,POMDP)的多无人机无源传感器调度算法。在POMDP框架下建立了多无人机协同跟踪规划模型。考虑量测噪声方差距离相关特性,建立了广义克拉美-罗下界(Generalized Cramer-Rao Lower Bound,GCRLB)的目标跟踪长期代价指标。为满足在线规划的实时性,提出了一种基于分布式自主决策算法,仿真验证了所提算法的有效性。 展开更多
关键词 机载无源传感器 部分可观察马尔可夫决策 广义克拉美-罗下界 分布式决策 任务规划
在线阅读 下载PDF
基于深度强化学习的动态频谱智能干扰算法研究
6
作者 张兰 张彪 +1 位作者 梁天一 朱辉杰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期1-11,共11页
随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分... 随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分可观测马尔可夫决策过程对干扰机与跳频通信用户之间的通信对抗过程进行建模,然后基于卷积神经网络和长短期记忆网络设计了一个具有频谱特征挖掘和记忆回溯功能的干扰决策网络,实现基于深度强化学习的动态频谱智能干扰(Dynamic Spectrum Intelligent Jamming,DSIJ)算法。仿真实验结果表明,相较于传统DQN算法,所提DSIJ算法的干扰成功率提升了约18%。与传统的扫频干扰方法相比,其干扰成功率更是提升了约68%,从而充分证明了所提出的算法在动态频谱环境下实现智能干扰策略的有效性与显著优势。 展开更多
关键词 深度强化学习 跳频通信 智能干扰决策 部分可观测马尔可夫决策过程
在线阅读 下载PDF
多目标跟踪中基于目标威胁度评估的传感器控制方法 被引量:10
7
作者 陈辉 贺忠良 +1 位作者 连峰 李晨 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2861-2867,共7页
该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析... 该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析。然后,基于粒子多目标滤波器估计多目标状态,依据多目标运动态势的评估研究建立多目标威胁水平,并从多目标分布特性中深入分析并提取出当前时刻最大威胁度目标的分布特性。最后,利用Rényi散度作为传感器控制的评价指标,以最大威胁度目标的信息增益最大化为准则进行最终控制方案的求解。仿真实验验证了该方法的实用性和有效性。 展开更多
关键词 多目标跟踪 目标威胁度 战术重要性标绘 传感器控制 部分可观测马尔科夫决策过程
在线阅读 下载PDF
CPSM:一种增强IP网络生存性的客户端主动服务漂移模型 被引量:10
8
作者 赵二虎 阳小龙 +1 位作者 彭云峰 隆克平 《电子学报》 EI CAS CSCD 北大核心 2010年第9期2134-2139,共6页
本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以... 本文在注重提高IP网络服务可生存性的同时,也兼顾了服务可区分性的要求,提出了一种基于客户端的主动服务漂移模型,即CPSM,Client-side Proactive Service Migration model.该模型把服务漂移抽象为一个部分可观测马尔可夫决策过程,用以增强服务漂移对动态不确定性网络环境的自适应能力.在信息预报和信任机制的基础上,通过对网络状态的不断观测和分析,CPSM模型可以计算出使客户获益最高的服务漂移策略. 展开更多
关键词 服务可生存性 服务漂移 部分可观测马尔可夫决策过程 信息预报 信任机制
在线阅读 下载PDF
一种无线传感器网络中目标跟踪的自适应节点调度算法 被引量:10
9
作者 胡波 王祺尧 +1 位作者 冯辉 罗灵兵 《电子与信息学报》 EI CSCD 北大核心 2018年第9期2033-2041,共9页
在无线传感器网络目标跟踪的过程中进行节点调度,可以综合考虑跟踪误差和能量消耗,延长传感器网络的使用寿命。为了综合考虑节点调度的短期和长远损失,该文将问题建模为部分可观测马尔科夫决策过程(POMDP)以得到更优的调度策略,并提出... 在无线传感器网络目标跟踪的过程中进行节点调度,可以综合考虑跟踪误差和能量消耗,延长传感器网络的使用寿命。为了综合考虑节点调度的短期和长远损失,该文将问题建模为部分可观测马尔科夫决策过程(POMDP)以得到更优的调度策略,并提出一种近似求解算法C-QMDP。该算法利用马尔科夫链蒙特卡洛方法(MCMC)推导连续状态空间的置信状态的转移,并计算瞬时代价。使用状态离散化方法,基于马尔科夫决策过程(MDP)值迭代求解未来代价的近似值。仿真结果表明,相比现有POMDP近似算法,该文算法既可以降低跟踪过程中的累积损失,又可以将大量运算进行离线计算,减小了在线决策时的计算量。 展开更多
关键词 无线传感器网络 目标跟踪 节点调度 部分可观测马尔可夫决策过程
在线阅读 下载PDF
基于随机学习的接入网服务功能链部署算法 被引量:6
10
作者 陈前斌 杨友超 +2 位作者 周钰 赵国繁 唐伦 《电子与信息学报》 EI CSCD 北大核心 2019年第2期417-423,共7页
针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓... 针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓扑变化,由于存在观测误差无法获得全部真实的拓扑情况,因此采用基于POMDP的部分感知和随机学习而自适应动态调整接入网切片的SFC的部署,优化SFC在接入网侧的时延。为了解决维度灾问题,采用基于点的混合启发式值迭代算法求解。仿真结果表明,该模型可以优化部署接入网侧的SFC,并提高接入网吞吐量和资源利用率。 展开更多
关键词 网络切片 SFC动态部署 网络拓扑感知 部分观察马尔可夫决策过程
在线阅读 下载PDF
异构网络中多无线电多信道环境下信道状态预测算法研究 被引量:4
11
作者 黄川 郑宝玉 《电子与信息学报》 EI CSCD 北大核心 2010年第1期178-182,共5页
该文针对异构网络环境未知性的特点,基于部分可测马尔科夫(POMDP)模型,结合认知无线电频谱侦测技术,提出了一种新的多无线电多信道环境下信道状态预测算法。该算法通过对信道状态历史信息的分析,推导出信道信念状态(belief state)的初... 该文针对异构网络环境未知性的特点,基于部分可测马尔科夫(POMDP)模型,结合认知无线电频谱侦测技术,提出了一种新的多无线电多信道环境下信道状态预测算法。该算法通过对信道状态历史信息的分析,推导出信道信念状态(belief state)的初始分布和转移概率,并以此选择出具有最佳回报的信道以供接入,从而达到提高信道利用率的目的。仿真结果表明算法性能要优于传统算法。 展开更多
关键词 异构网络 多无线电多信道 部分可测马尔科夫模型(pomdp) 频谱侦测
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
12
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
13
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(pomdp)
在线阅读 下载PDF
基于部分可测马尔科夫决策过程业务感知的微基站休眠时长确定策略 被引量:2
14
作者 陈前斌 何小强 +1 位作者 吴攀 唐伦 《电子与信息学报》 EI CSCD 北大核心 2018年第1期130-136,共7页
针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process,POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期... 针对密集组网场景中业务不确定性引起的基站休眠周期难以确定的问题,该文提出一种基于部分可测马尔可夫决策过程(Partially Observed Markov Decision Process,POMDP)业务感知的微基站休眠时长确定策略。该策略将周期分为长周期和短周期,每个周期由轻度和深度两个阶段构成。通过POMDP感知到达基站的业务状态,动态调整周期时长,进而选取适合当前周期的时长。仿真结果表明,该策略可以根据业务感知提前确定微基站关断时长,与基于业务门限值的基站关断机制相比节能效果更好。 展开更多
关键词 密集组网 关断机制 部分可测马尔可夫过程 业务感知 长/短休眠周期 动态调整
在线阅读 下载PDF
传感器工作时长约束及辐射控制的调度方法 被引量:5
15
作者 乔成林 段修生 +1 位作者 单甘霖 王俭臣 《探测与控制学报》 CSCD 北大核心 2018年第3期91-96,102,共7页
针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔... 针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔可夫滤波器推导多步辐射代价,动态确定传感器工作时长;考虑跟踪任务需求,得到工作时长约束及辐射控制的调度策略。仿真结果表明,在满足跟踪任务需求下,该方法有效降低了系统辐射代价,避免了频繁切换问题,增强了系统稳定性和实用性。 展开更多
关键词 传感器调度 频繁切换 部分可观马尔可夫决策过程 时长约束 辐射代价
在线阅读 下载PDF
多传感器协同跟踪与辐射控制的调度算法 被引量:6
16
作者 乔成林 段修生 单甘霖 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2018年第7期1472-1480,共9页
为了降低有源传感器在获得目标持续量测时被敌方截获的风险,提出一种多传感器协同跟踪与辐射控制的调度算法。该算法首先采用辐射度影响(ELI)衡量传感器辐射,将目标跟踪与辐射控制过程建立为部分可观马尔可夫决策(POMDP)过程。然后以隐... 为了降低有源传感器在获得目标持续量测时被敌方截获的风险,提出一种多传感器协同跟踪与辐射控制的调度算法。该算法首先采用辐射度影响(ELI)衡量传感器辐射,将目标跟踪与辐射控制过程建立为部分可观马尔可夫决策(POMDP)过程。然后以隐马尔可夫模型(HMM)滤波器更新传感器辐射状态、推导长时辐射风险,以无迹卡尔曼滤波(UKF)更新目标状态、估计跟踪精度。最后考虑跟踪任务需求,构建精度约束下辐射控制的长时调度模型,并将该长时调度问题转化为决策树寻优问题,给出决策树节点次优下界值,采用改进分支定界技术(IB&B)快速求解最优调度序列。仿真结果验证了本文算法的有效性。 展开更多
关键词 传感器调度 协同跟踪 辐射控制 决策树 任务需求 部分可观马尔可夫决策过程(pomdp)
在线阅读 下载PDF
一种无人车无信号保护路口左转规划方法
17
作者 夏志远 黄妙华 李其仲 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2022年第5期665-672,共8页
为解决无人驾驶车辆在无信号保护路口左转规划中高效性与安全性相矛盾的问题,文章参考路径-速度解耦规划思路,提出一种左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,结合基于部... 为解决无人驾驶车辆在无信号保护路口左转规划中高效性与安全性相矛盾的问题,文章参考路径-速度解耦规划思路,提出一种左转规划区对角线分割(diagonal division of the planning area of left turns,DDPALT)的路径生成方法,结合基于部分可观察马尔可夫决策过程(partially observable Markov decision process,POMDP)的速度规划方法分别进行路径与速度规划,实现在环境车辆驾驶意图不确定情形下安全高效的左转规划。利用PreScan和MATLAB/Simulink联合仿真对文中提出的方法进行验证,结果表明,该方法能够让无人驾驶车辆在不确定环境中选择合适的路径并安全高效地完成左转。 展开更多
关键词 无人驾驶车辆 无信号路口 左转规划 交通安全 部分可观察马尔可夫决策过程(pomdp)
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部