期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:13
1
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
部分可观察马尔可夫决策过程研究进展 被引量:3
2
作者 仵博 吴敏 《计算机工程与设计》 CSCD 北大核心 2007年第9期2116-2119,2126,共5页
部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支。介绍了部分可观察马尔可夫决策过程的基本原理和决策过程,然后介绍了3种... 部分可观察马尔可夫决策过程是通过引入信念状态空间将非马尔可夫链问题转化为马尔可夫链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支。介绍了部分可观察马尔可夫决策过程的基本原理和决策过程,然后介绍了3种典型的算法,它们分别是Littman等人的Witness算法、Incremental Pruning算法和Pineau等人的基于点的值迭代算法,对这3种算法进行了分析比较。讲述部分可观察马尔可夫决策过程的应用。 展开更多
关键词 部分可观察马尔可夫 决策算法 智能体 马尔可夫 值迭代算法
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
3
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
4
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
在线阅读 下载PDF
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
5
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察Markov决策规划 最优策略 非时齐 折扣模型 逼近
在线阅读 下载PDF
不确定性环境下的自动驾驶汽车行为决策方法 被引量:4
6
作者 付新科 蔡英凤 +2 位作者 陈龙 王海 刘擎超 《汽车工程》 EI CSCD 北大核心 2024年第2期211-221,259,共12页
在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。 展开更多
关键词 自动驾驶汽车 行为决策 部分可观察马尔可夫决策过程 复杂网络
在线阅读 下载PDF
基于POMDP模型的智能雷达干扰决策方法 被引量:1
7
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分可观测马尔可夫决策过程模型 贝叶斯滤波
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
8
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 近端策略优化
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
9
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分可观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
多智能体系统分散式通信决策研究 被引量:3
10
作者 郑延斌 郭凌云 刘晶晶 《计算机应用》 CSCD 北大核心 2012年第10期2875-2878,共4页
通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通... 通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通信信息的选择能够高效的利用通信带宽,有助于提高系统的性能。 展开更多
关键词 多智能体系统 协作 分散式通信 马尔可夫决策过程 部分可观察马尔可夫决策过程
在线阅读 下载PDF
动态影响图模型研究 被引量:2
11
作者 俞奎 王浩 姚宏亮 《智能系统学报》 2008年第2期159-166,共8页
部分可观察马尔可夫决策过程在策略空间和状态空间上的计算复杂性,使求解其一个最优策略成为NP-hard难题.为此,提出一种动态影响图模型来建模不确定环境下的Agent动态决策问题.动态影响图模型以有向无环图表示系统变量之间的复杂关系.首... 部分可观察马尔可夫决策过程在策略空间和状态空间上的计算复杂性,使求解其一个最优策略成为NP-hard难题.为此,提出一种动态影响图模型来建模不确定环境下的Agent动态决策问题.动态影响图模型以有向无环图表示系统变量之间的复杂关系.首先,动态影响图利用动态贝叶斯网络表示转移模型和观察模型以简化系统的状态空间;其次,效用函数以效用结点的形式清晰地表示出来,从而简化系统效用函数的表示;最后,通过决策结点表示系统的行为来简化系统的策略空间.通过实例从3个方面和POMDP模型进行了比较,研究的结果表明,动态影响图模型为大型的POMDP问题提供了一种简明的表示方式,最后在Robocup环境初步验证了该模型. 展开更多
关键词 动态贝叶斯网络 影响图 马尔可夫决策过程 部分可观察马尔可夫决策过程 动态影响图
在线阅读 下载PDF
基于改进Transformer的多智能体供应链库存管理方法
12
作者 朴明杰 张冬冬 +2 位作者 卢鹄 李汝鹏 葛小丽 《计算机科学》 北大核心 2025年第S1期186-195,共10页
有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化... 有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化可能会导致年度库存管理计划的改变,因此根据实际生产情况和库存水平对未来物料采购情况进行决策相对更为灵活与高效。近年来,许多研究者关注采用强化学习方法来研究库存管理问题。当前的方法在解决具有多节点多物料模式的民用飞机制造供应链库存管理问题时虽然能够一定程度上提供高效管理,但是带来了较高的复杂度。为解决这一问题,将问题形式化为一个部分可观察马尔可夫决策过程模型,并提出了一种基于改进Transformer的多智能体供应链库存管理方法。该方法基于多智能体强化学习序列决策的本质,将多智能体强化学习问题转化为编码器-解码器架构的序列建模问题,从逻辑上降低算法的复杂度。实验结果表明,相较于现有的基于强化学习的方法,所提方法在保持性能相近的基础上,于复杂度方面约有90%的改善。 展开更多
关键词 多智能体强化学习 飞机供应链库存管理 部分可观察马尔可夫决策过程 TRANSFORMER
在线阅读 下载PDF
基于POMDP的动态客户关系管理建模研究 被引量:2
13
作者 马少辉 刘金兰 《系统工程学报》 CSCD 北大核心 2010年第3期387-393,共7页
从多阶段、延迟回报的角度提出基于部分可观察马尔可夫决策过程(POMDP)对客户关系的动态发展与管理进行建模的方法.模型以客户关系作为隐状态,以客户购买水平作为隐状态的观察值,以客户管理行动为决策变量.通过模型,可以动态估计客户的... 从多阶段、延迟回报的角度提出基于部分可观察马尔可夫决策过程(POMDP)对客户关系的动态发展与管理进行建模的方法.模型以客户关系作为隐状态,以客户购买水平作为隐状态的观察值,以客户管理行动为决策变量.通过模型,可以动态估计客户的关系状态,可以估计各行动对客户关系动态演化的影响,并以客户终生价值为目标优化管理行动.以客户保持-流失两状态客户关系模型为例,说明了模型的具体应用. 展开更多
关键词 客户关系管理 客户终生价值 部分可观察马尔可夫决策模型
在线阅读 下载PDF
状态不完全可观条件下设备检修策略研究 被引量:3
14
作者 刘繁茂 朱海平 +1 位作者 邵新宇 高贵兵 《计算机集成制造系统》 EI CSCD 北大核心 2009年第8期1628-1632,1663,共6页
为了诊断状态不完全可观条件下的设备状况,介绍了部分可观察的马尔可夫决策过程的基本原理和Perseus近似算法的基本流程。给出了基于设备加工次品率和某些核心组件振动信号诊断信息的设备状态评估方法。在基于设备状态的视情维修模式下... 为了诊断状态不完全可观条件下的设备状况,介绍了部分可观察的马尔可夫决策过程的基本原理和Perseus近似算法的基本流程。给出了基于设备加工次品率和某些核心组件振动信号诊断信息的设备状态评估方法。在基于设备状态的视情维修模式下,考虑了检测手段的局限性和检测结果的不确定性,并以某轿车发动机缸体生产线上的一台加工中心为例,建立了以最小化折扣费用为目标的设备检测维修的部分可观察马尔可夫决策过程模型。最后应用Perseus近似算法对模型进行了求解,得到了有限区间条件下的近似最优检测、维修策略和近似最优的折扣费用值。 展开更多
关键词 部分可观察马尔可夫决策过程模型 检测维修策略 视情维修 Perseus算法
在线阅读 下载PDF
不确定性环境下基于进化算法的强化学习 被引量:12
15
作者 刘海涛 洪炳熔 +1 位作者 朴松昊 王雪梅 《电子学报》 EI CAS CSCD 北大核心 2006年第7期1356-1360,共5页
不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐... 不确定性和隐状态是目前强化学习所要面对的重要难题.本文提出了一种新的算法MA-Q-learning算法来求解带有这种不确定性的POMDP问题近似最优策略.利用M em etic算法来进化策略,而Q学习算法得到预测奖励来指出进化策略的适应度值.针对隐状态问题,通过记忆agent最近经历的确定性的有限步历史信息,与表示所有可能状态上的概率分布的信度状态相结合,共同决策当前的最优策略.利用一种混合搜索方法来提高搜索效率,其中调整因子被用于保持种群的多样性,并且指导组合式交叉操作与变异操作.在POMDP的Benchm ark实例上的实验结果证明本文提出的算法性能优于其他的POMDP近似算法. 展开更多
关键词 部分可观察马尔可夫决策过程 Q学习 MEMETIC算法 信度状态 隐状态
在线阅读 下载PDF
基于随机学习的接入网服务功能链部署算法 被引量:6
16
作者 陈前斌 杨友超 +2 位作者 周钰 赵国繁 唐伦 《电子与信息学报》 EI CSCD 北大核心 2019年第2期417-423,共7页
针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓... 针对5G云化接入网场景下物理网络拓扑变化引起的高时延问题,读文提出一种基于部分观察马尔可夫决策过程(POMDP)部分感知拓扑的接入网服务功能链(SFC)部署方案。该方案考虑在5G接入网C-RAN架构下,通过心跳包观测机制感知底层物理网络拓扑变化,由于存在观测误差无法获得全部真实的拓扑情况,因此采用基于POMDP的部分感知和随机学习而自适应动态调整接入网切片的SFC的部署,优化SFC在接入网侧的时延。为了解决维度灾问题,采用基于点的混合启发式值迭代算法求解。仿真结果表明,该模型可以优化部署接入网侧的SFC,并提高接入网吞吐量和资源利用率。 展开更多
关键词 网络切片 SFC动态部署 网络拓扑感知 部分观察马尔可夫决策过程
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
17
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(POMDP)模型
在线阅读 下载PDF
无线传感器网络目标跟踪动态簇成员调度策略 被引量:2
18
作者 冯延蓬 仵博 +1 位作者 郑红燕 孟宪军 《传感器与微系统》 CSCD 北大核心 2012年第7期26-29,共4页
通过分析目标跟踪无线传感器网络监测精度、节点能量消耗与簇成员唤醒/休眠之间的内在联系,针对网络节点能量有限、密集部署节点监测数据存在冗余、传感器节点的自身位置估计误差和目标监测估计误差等问题,引入部分可观察Markov决策过程... 通过分析目标跟踪无线传感器网络监测精度、节点能量消耗与簇成员唤醒/休眠之间的内在联系,针对网络节点能量有限、密集部署节点监测数据存在冗余、传感器节点的自身位置估计误差和目标监测估计误差等问题,引入部分可观察Markov决策过程(POMDP)理论,提出一种基于目标跟踪准确度和节点能量消耗加权回报率的动态簇成员调度模型;针对动态簇成员调度算法复杂度偏高的问题,采用基于信念点的值迭代在线策略求解算法,实现传感器簇成员节点协作策略的动态生成和在线调整。仿真结果表明:该算法能够提高目标跟踪准确性,降低节点能量消耗,延长网络生存时间。 展开更多
关键词 无线传感器网络 目标跟踪 部分可观察马尔可夫决策过程 簇成员调度 在线求解算法
在线阅读 下载PDF
基于点的POMDPs在线值迭代算法 被引量:3
19
作者 仵博 吴敏 佘锦华 《软件学报》 EI CSCD 北大核心 2013年第1期25-36,共12页
部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态"维数灾"和"历史灾"问题,而现有在线算法无法同时... 部分可观察马尔可夫决策过程(partially observable Markov decision processes,简称POMDPs)是动态不确定环境下序贯决策的理想模型,但是现有离线算法陷入信念状态"维数灾"和"历史灾"问题,而现有在线算法无法同时满足低误差与高实时性的要求,造成理想的POMDPs模型无法在实际工程中得到应用.对此,提出一种基于点的POMDPs在线值迭代算法(point-based online value iteration,简称PBOVI).该算法在给定的可达信念状态点上进行更新操作,避免对整个信念状态空间单纯体进行求解,加速问题求解;采用分支界限裁剪方法对信念状态与或树进行在线裁剪;提出信念状态结点重用思想,重用上一时刻已求解出的信念状态点,避免重复计算.实验结果表明,该算法具有较低误差率、较快收敛性,满足系统实时性的要求. 展开更多
关键词 部分可观察马尔可夫决策过程 信念状态 基于点的算法 在线算法 与或树
在线阅读 下载PDF
WSN中一种目标追踪在线节点调度算法 被引量:1
20
作者 冯延蓬 仵博 +1 位作者 郑红燕 孟宪军 《计算机工程》 CAS CSCD 2012年第11期96-99,103,共5页
针对目标追踪无线传感器网络节点能量有限、感知信息存在不确定性等问题,提出一种基于部分可观察马尔可夫决策过程的在线节点调度算法。通过状态转移函数和观察函数描述移动目标的不确定性,根据奖赏函数平衡追踪性能和节点能量消耗,并... 针对目标追踪无线传感器网络节点能量有限、感知信息存在不确定性等问题,提出一种基于部分可观察马尔可夫决策过程的在线节点调度算法。通过状态转移函数和观察函数描述移动目标的不确定性,根据奖赏函数平衡追踪性能和节点能量消耗,并构造有限深度的可达信念与或树降低运算复杂度,实现调度策略在线求解。实验结果表明,该算法能平衡目标追踪质量与节点能量消耗,且满足实时性要求。 展开更多
关键词 目标追踪 无线传感器网络 部分可观察马尔可夫决策过程 节点调度 可达信念与或树 在线算法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部