期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
部分可观测马尔可夫决策过程算法综述 被引量:12
1
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分观测马尔可夫决策过程 算法 综述
在线阅读 下载PDF
基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 被引量:2
2
作者 徐明 刘广钟 《计算机应用》 CSCD 北大核心 2015年第11期3047-3050,3074,共5页
针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为... 针对水声传感器网络低带宽、高延迟特性造成的空时不确定性以及网络状态不能充分观察的问题,提出一种基于部分可观测马尔可夫决策过程(POMDP)的水声传感器网络介质访问控制协议。该协议首先将每个传感器节点的链路质量和剩余能量划分为多个离散等级来表达节点的状态信息。此后,接收节点通过信道状态观测和接入动作的历史信息对信道的占用概率进行预测,从而得出发送节点的信道最优调度策略;发送节点按照该策略中的调度序列在各自所分配的时隙内依次与接收节点进行通信,传输数据包。通信完成后,相关节点根据网络转移概率的统计量估计下一个时隙的状态。仿真实验表明,与传统的水声传感器网络介质访问控制协议相比,基于POMDP的介质访问控制协议可以提高数据包传输成功率和网络吞吐量,并且降低网络的能量消耗。 展开更多
关键词 水声传感器网络 部分观测马尔可夫决策过程 介质访问控制 信道 调度
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的多被动传感器组网协同反隐身探测任务规划 被引量:13
3
作者 万开方 高晓光 +1 位作者 李波 梅军峰 《兵工学报》 EI CAS CSCD 北大核心 2015年第4期731-743,共13页
针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控... 针对反隐身作战需求,提出多被动传感器组网协同战术。为提升反隐身探测效能,引入部分可观察马尔可夫决策过程(POMDP)理论,分析了POMDP任务规划要素,建立起多被动传感器组网协同反隐身探测任务规划POMDP模型。建立了多被动传感器协同控制系统结构,提出了基于无迹卡尔曼滤波(UKF)的信念状态更新方法和基于蒙特卡洛Rollout采样(MCRS)的Q值估计方法,并设计了CCSP基本策略。仿真结果表明,所建立的模型能够实现多被动传感器的高效管理调度,能够控制多被动传感器对隐身目标进行有效探测跟踪,即模型有效性得到了验证。 展开更多
关键词 控制科学与技术 传感器技术 反隐身 多传感器组网 部分可观察马尔可夫决策过程 信念状态 任务规划
在线阅读 下载PDF
基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法 被引量:1
4
作者 仵博 陈鑫 +1 位作者 郑红燕 冯延蓬 《电子与信息学报》 EI CSCD 北大核心 2013年第12期2901-2907,共7页
针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和... 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。 展开更多
关键词 信息处理 部分可观察马尔可夫决策过程 信念状态空间 非负矩阵分解 值直接压缩 维数灾
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
5
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(POMDP)
在线阅读 下载PDF
部分可观测信息条件下系统最佳检修策略分析 被引量:4
6
作者 尚永爽 许爱强 +2 位作者 李文海 王怡苹 盛沛 《系统工程与电子技术》 EI CSCD 北大核心 2012年第4期749-753,共5页
针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故... 针对部分可观测信息条件下的退化系统,提出利用部分可观测马尔可夫决策过程模型解决系统视情维修问题。采用隐马尔可夫模型对系统进行状态评估,得到系统的转移概率和观测概率矩阵;利用比例故障率模型对系统进行可靠性分析,得到系统的故障率和可靠度函数,不仅考虑系统的工作时间,也考虑系统的退化状态。最后,以系统长期运行的最小平均费用率为目标,得到最佳的检测周期和最优的更换策略。实例研究表明,该方法可为保障人员提供科学的维修决策依据。 展开更多
关键词 视情维修 维修决策 部分观测马尔可夫决策过程 马尔可夫模型 比例故障率模型 退化系统
在线阅读 下载PDF
部分可观测Markov环境下的激励学习综述
7
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分观测Markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
在线阅读 下载PDF
不确定性环境下的自动驾驶汽车行为决策方法 被引量:5
8
作者 付新科 蔡英凤 +2 位作者 陈龙 王海 刘擎超 《汽车工程》 EI CSCD 北大核心 2024年第2期211-221,259,共12页
在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境... 在真实驾驶环境中,由于感知数据的噪声和其他交通参与者难以预测的行为意图,自动驾驶汽车如何在高度交互的复杂驾驶环境中考虑不确定性因素的影响,做出合理的决策,是当前决策规划系统须解决的主要问题之一。本文提出了一种不确定性环境下的自动驾驶汽车行为决策方法,为消除不确定性的影响,将行为决策过程转化为部分可观察马尔可夫决策过程(POMDP)。同时为解决POMDP模型计算复杂度过高的问题,首次将复杂网络理论应用于自动驾驶汽车周围微观的驾驶环境,对自动驾驶汽车驾驶环境进行动态建模,实现了车辆节点间交互关系的有效刻画,并对重要车辆节点进行科学筛选,用于指导自车的行为决策,实现对关键车辆节点的精准识别和决策空间的剪枝。在仿真环境中验证了所提方法的有效性,实验结果表明,与现有最先进的行为决策方法相比,所提出的方法拥有更高的计算效率,且拥有更好的性能和灵活性。 展开更多
关键词 自动驾驶汽车 行为决策 部分可观察马尔可夫决策过程 复杂网络
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
9
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 近端策略优化
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法 被引量:1
10
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
多智能体系统分散式通信决策研究 被引量:3
11
作者 郑延斌 郭凌云 刘晶晶 《计算机应用》 CSCD 北大核心 2012年第10期2875-2878,共4页
通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通... 通信是多智能体系统(MAS)之间协调与协作的最有效和最直接的方法,然而通信的代价却限制了该方法的使用。为了减少MAS协调过程中的通信量,提出一种启发式算法,使Agent仅选择能够改善团队期望回报的观察信息进行通信。实验结果证明,对通信信息的选择能够高效的利用通信带宽,有助于提高系统的性能。 展开更多
关键词 多智能体系统 协作 分散式通信 马尔可夫决策过程 部分可观察马尔可夫决策过程
在线阅读 下载PDF
基于POMDP模型的检修与备件库存联合优化
12
作者 汪凯 顾刘栋 周一帆 《中国机械工程》 北大核心 2025年第8期1853-1863,共11页
在维修与备件库存联合优化时,已有的研究大多假设系统状态监测是完美的,忽略了实际应用中的误差。为了解决该问题,以包含不完美状态监测和固定检修周期的单部件系统为研究对象,考虑该系统的视情维修(CBM)与备件库存管理问题,采用部分可... 在维修与备件库存联合优化时,已有的研究大多假设系统状态监测是完美的,忽略了实际应用中的误差。为了解决该问题,以包含不完美状态监测和固定检修周期的单部件系统为研究对象,考虑该系统的视情维修(CBM)与备件库存管理问题,采用部分可观测的马尔可夫决策过程(POMDP)对系统进行建模,并推导系统状态转移概率。为了处理复杂的信念状态空间,提高算法求解效率,采用了一种改进的Perseus算法。在数值案例部分验证了该算法的有效性,并对最优策略结构进行分析,结果表明:信念状态相比于观测值能相对合理地表示状态信息,同时也对比了有无备件库存的情况,证明了备件库存的有效性。 展开更多
关键词 不完美状态监测 部分观测马尔可夫决策过程 信念状态 维修与备件库存联合优化
在线阅读 下载PDF
面向实际信道观测环境的时限约束无线下行调度策略
13
作者 张帆 宫傲宇 +3 位作者 邓磊 刘芳 林艳 张一晋 《计算机科学》 CSCD 北大核心 2021年第9期264-270,共7页
时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增... 时限约束无线下行传输广泛应用于各类关系国计民生的实时通信业务,要求每个数据分组在严格传输时限内进行高可靠性传输。尽管如此,基站往往不能完全观测自身与各设备之间的信道状态,而需要借助反馈所携的信息对信道状态进行观测,从而增加了下行调度策略的设计难度。文章基于此实际信道观测环境设计时限约束下行调度策略,允许基站根据当前数据分组信息以及部分观测的各信道状态决定传输优先级。首先仅考虑队首数据分组信息对下行传输进行无限时域部分观测马尔可夫决策过程简化建模,但求解此建模的最优或近优策略在计算上不可行。鉴于此,文章应用有限时域Q函数马尔可夫决策过程算法,提出了一种低复杂度次优策略,并进一步提出一种更简单的启发式策略。仿真结果验证了所提策略相比对照策略在各种网络场景下的网络吞吐率优势,并且表明了信道的部分观测特性对吞吐率性能有较大影响。 展开更多
关键词 时限约束 下行传输策略 部分观测马尔可夫决策过程 吞吐率
在线阅读 下载PDF
基于改进Transformer的多智能体供应链库存管理方法
14
作者 朴明杰 张冬冬 +2 位作者 卢鹄 李汝鹏 葛小丽 《计算机科学》 北大核心 2025年第S1期186-195,共10页
有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化... 有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化可能会导致年度库存管理计划的改变,因此根据实际生产情况和库存水平对未来物料采购情况进行决策相对更为灵活与高效。近年来,许多研究者关注采用强化学习方法来研究库存管理问题。当前的方法在解决具有多节点多物料模式的民用飞机制造供应链库存管理问题时虽然能够一定程度上提供高效管理,但是带来了较高的复杂度。为解决这一问题,将问题形式化为一个部分可观察马尔可夫决策过程模型,并提出了一种基于改进Transformer的多智能体供应链库存管理方法。该方法基于多智能体强化学习序列决策的本质,将多智能体强化学习问题转化为编码器-解码器架构的序列建模问题,从逻辑上降低算法的复杂度。实验结果表明,相较于现有的基于强化学习的方法,所提方法在保持性能相近的基础上,于复杂度方面约有90%的改善。 展开更多
关键词 多智能体强化学习 飞机供应链库存管理 部分可观察马尔可夫决策过程 TRANSFORMER
在线阅读 下载PDF
面向关系建模的合作多智能体深度强化学习综述
15
作者 熊丽琴 陈希亮 +2 位作者 赖俊 骆西建 曹雷 《计算机工程与应用》 北大核心 2025年第18期41-60,共20页
近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化... 近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化学习方法通过刻画智能体与智能体、智能体与系统整体的关系来准确捕获并利用智能体的个体贡献和智能体间相互作用以有效促进多智能体协同,具有重要研究意义和应用价值。简要介绍多智能体系统中存在的关系和多智能体深度强化学习的基础知识;从关系建模层次的角度出发将面向关系建模的合作多智能体深度强化学习算法分为基于个体间关系建模、基于个体与全局间关系建模以及基于多尺度关系建模这三类,并对其基本原理及优缺点进行全面梳理;着重介绍了其在无人集群控制、任务与资源分配、智能交通运输等领域中的应用情况。最后,总结当前面临的主要挑战并对未来研究方向进行展望。 展开更多
关键词 深度强化学习 多智能体强化学习 部分观测马尔科夫决策过程 多智能体协同 关系建模
在线阅读 下载PDF
基于POMDP的可伸缩视频流优化决策调度 被引量:1
16
作者 范凤军 邹君妮 +1 位作者 汪敏 熊红凯 《上海交通大学学报》 EI CAS CSCD 北大核心 2010年第3期393-397,共5页
针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结... 针对可伸缩视频流在无线通信中的数据包调度问题,提出了一种基于部分可观测马尔可夫决策过程(POMDP)的决策调度策略,在用户状态不确定或部分可观测条件下,采用POMDP建立了完整的最优化调度模型,以实现视频接收质量的最佳化.仿真实验结果表明,与传统的调度算法相比,该方法有效提高了视频流的平均峰值信噪比(PSNR).随着调度规模的扩大,其性能能够逐渐逼近用户状态完全确定的理想马尔可夫决策过程(MDP)模型. 展开更多
关键词 可伸缩视频编码 部分观测马尔可夫决策过程 优化调度 无线广播
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:8
17
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分观测马尔科夫决策过程(POMDP) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
基于POMDP模型的智能雷达干扰决策方法 被引量:1
18
作者 冯路为 刘松涛 徐华志 《系统工程与电子技术》 EI CSCD 北大核心 2023年第9期2755-2760,共6页
为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建... 为了有效提高复杂电磁环境下对非合作方工作模式未知的智能雷达的干扰效率和准确率,提出了一种基于部分可观测马尔可夫决策过程(partially observable Markov decision process,POMDP)的干扰决策方法。首先,根据智能雷达的工作特点构建了智能雷达对抗系统的POMDP模型,采用非参数的、基于样本的信念分布反映智能体对环境的认知,并利用贝叶斯滤波更新智能体对环境的信念。然后,以信息熵作为评估准则,令干扰机选择信息熵最大的干扰样式不断尝试。最后,通过仿真实验与传统Q-学习法和经验决策法的干扰决策性能进行比较,验证所提方法的优越性。结果表明,所提方法能够根据未知雷达状态变化动态地选择最优干扰方式,且能更快实现对智能雷达的干扰决策。 展开更多
关键词 智能雷达 强化学习 部分观测马尔可夫决策过程模型 贝叶斯滤波
在线阅读 下载PDF
多目标跟踪的观测站最优机动策略 被引量:1
19
作者 洪磊 陈树新 +2 位作者 吴昊 何仁珂 徐涵 《现代雷达》 CSCD 北大核心 2019年第11期14-19,共6页
在多目标跟踪问题中,观测站的有效机动可以提高观测信息的质量,从而提升目标跟踪的精度。对此,文中提出一种基于高斯混合概率假设密度(GM-PHD)滤波器的观测站最优机动马尔可夫决策方法。首先,用Fisher信息矩阵(FIM)行列式建立代价函数;... 在多目标跟踪问题中,观测站的有效机动可以提高观测信息的质量,从而提升目标跟踪的精度。对此,文中提出一种基于高斯混合概率假设密度(GM-PHD)滤波器的观测站最优机动马尔可夫决策方法。首先,用Fisher信息矩阵(FIM)行列式建立代价函数;然后,计算出马尔可夫链的转移矩阵,利用马尔可夫决策过程(MDP)来获得观测站最优机动策略。其中,利用GM-PHD滤波器来估计目标的实际位置和为每一决策周期提供概率假设密度(PHD)。通过实验仿真,验证了该机动策略在提高多目标跟踪精度方面的有效性。 展开更多
关键词 多目标跟踪 观测 高斯混合概率假设密度 Fisher信息矩阵 马尔可夫决策过程
在线阅读 下载PDF
POMDP在战场决策评估中的应用和仿真 被引量:1
20
作者 王祥 林秀青 《现代防御技术》 北大核心 2008年第1期75-79,共5页
通过将贝叶斯统计方法和POMDP(部分可观测马氏决策过程)方法相结合,采用计算机模拟的方式,预测在给定条件下可能产生的各种作战决策的质量。为解决不确定条件下对决策质量的定量评估提供了一种比较可行的方法。
关键词 部分观测马氏决策过程 贝叶斯统计方法 决策质量 评估
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部