期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于部分可观马氏决策过程的多平台主被动传感器调度 被引量:4
1
作者 张子宁 单甘霖 段修生 《电子学报》 EI CAS CSCD 北大核心 2014年第10期2104-2109,共6页
为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由... 为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由无迹采样近似得到的精度收益及由隐马氏模型滤波器推导出的辐射代价将调度问题转化成决策树问题,并采用分枝定界方法求解.仿真结果表明了该方法的有效性. 展开更多
关键词 传感器调度 部分可观马氏决策过程 先见优化 无迹采样 分枝定界
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
2
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观Markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
3
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观Markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
采用马氏决策过程和后验克拉美罗下界的多被动式移动传感器长期调度方法 被引量:1
4
作者 徐公国 单甘霖 段修生 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第6期125-133,150,共10页
针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的... 针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的单步与长期代价函数;为有效减少计算复杂度,利用大量无迹采样粒子来近似估算长期代价值;通过将多约束非线性调度问题转化为决策树优化问题,可快速获取传感器长期调度方法,并给出了一种基于分支定界技术的改进决策树搜索算法。实验结果表明,所提方法能够实现移动式传感器的合理调度,在决策步长为2时,其目标跟踪精度相较于短期调度可平均提升6.08%;改进搜索算法的求解速度也更加迅速,能够有效满足在线调度的实时性要求。 展开更多
关键词 移动传感器 传感器调度 部分可观尔科夫决策过程 后验克拉美罗下界 决策
在线阅读 下载PDF
部分可观环境中AUV软件自修复模型研究 被引量:1
5
作者 张汝波 孟雷 史长亭 《计算机工程与应用》 CSCD 北大核心 2017年第2期151-156,共6页
针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于... 针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于点的值迭代算法求解生成修复策略使系统在部分可观环境下能够以较低的修复代价执行修复动作。仿真实验验证了算法有效性和模型适用性。 展开更多
关键词 智能水下机器人 微重启技术 自修复 部分可观尔科夫决策过程(POMDP) 基于点的值迭代(PBVI)
在线阅读 下载PDF
POMDP在战场决策评估中的应用和仿真 被引量:1
6
作者 王祥 林秀青 《现代防御技术》 北大核心 2008年第1期75-79,共5页
通过将贝叶斯统计方法和POMDP(部分可观测马氏决策过程)方法相结合,采用计算机模拟的方式,预测在给定条件下可能产生的各种作战决策的质量。为解决不确定条件下对决策质量的定量评估提供了一种比较可行的方法。
关键词 部分可观决策过程 贝叶斯统计方法 决策质量 评估
在线阅读 下载PDF
面向目标跟踪的单平台主被动传感器长期调度 被引量:7
7
作者 单甘霖 张子宁 《系统工程与电子技术》 EI CSCD 北大核心 2014年第3期458-463,共6页
以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision... 以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision process,POMDP)以同步实现目标跟踪和辐射控制。提出以容积采样法估算长期精度收益,以隐马氏模型滤波器推导长期辐射代价。最终将原问题转化成决策树并利用分枝定界法进行求解。仿真结果证明了本方法的有效性。 展开更多
关键词 长期调度 部分可观马氏决策过程 决策 分枝定界
在线阅读 下载PDF
策略梯度强化学习中的最优回报基线 被引量:6
8
作者 王学宁 徐昕 +1 位作者 吴涛 贺汉根 《计算机学报》 EI CSCD 北大核心 2005年第6期1021-1026,共6页
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回... 尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛. 展开更多
关键词 强化学习 策略梯度 部分可观决策过程 回报基线
在线阅读 下载PDF
面向跟踪任务需求的主动传感器调度方法 被引量:7
9
作者 乔成林 单甘霖 +1 位作者 段修生 刘欣怡 《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2515-2521,共7页
以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的... 以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的辐射模型,并采用隐马尔可夫模型滤波器动态更新传感器辐射;最后考虑跟踪任务需求和传感器约束,将辐射风险控制下传感器调度问题转化为非线性约束下寻优问题。仿真实验结果验证了所提方法有效性。 展开更多
关键词 传感器调度 跟踪任务需求 部分可观尔可夫决策过程 辐射风险
在线阅读 下载PDF
分布式业务系统基于模型的接入控制方案(英文) 被引量:1
10
作者 陆效农 殷保群 +1 位作者 张海鹏 凌强 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能. 展开更多
关键词 分布式业务系统 部分可观Markov决策过程(POMDP) 接入控制 随机策略 基于HMM的方法
在线阅读 下载PDF
一般MDP最优策略的唯一性 被引量:1
11
作者 郭先平 《应用概率统计》 CSCD 北大核心 1998年第3期258-265,共8页
对于一般的MDP模型,本文证明了对任意一族依赖于历史的随机策略所导致的策略测度类的任意凸组合,存在一个随机马氏策略所导致的策略测度,使得相应于它们的平均期望目标,折扣目标以及期望总报酬目标的值均分别相等,推广了E.B.Dyn... 对于一般的MDP模型,本文证明了对任意一族依赖于历史的随机策略所导致的策略测度类的任意凸组合,存在一个随机马氏策略所导致的策略测度,使得相应于它们的平均期望目标,折扣目标以及期望总报酬目标的值均分别相等,推广了E.B.Dynkin和Yushkevich[1],M.Puterman[2],E.Feinberg和A.Shwartz[3],R.Strauch[4],以及董泽清和宋京生[5]等相应的所有结果.然后还进一步证明了关于平均期望目标、折扣目标以及期望总报酬目标的最优策略,它们要么唯一,要么有无穷多个. 展开更多
关键词 决策过程 随机策略 最优策略 唯一性
在线阅读 下载PDF
优化策略模型下的匹配律算法
12
作者 程振波 邓志东 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期146-151,共6页
利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔... 利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为. 展开更多
关键词 部分可观尔可夫决策过程 再励学习 优化策略搜索 匹配律
在线阅读 下载PDF
基于软件定义网络的媒体分发网络的接入控制 被引量:2
13
作者 曹浩 殷保群 +1 位作者 曹杰 陆效农 《计算机应用》 CSCD 北大核心 2016年第7期1767-1771,1827,共6页
针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上... 针对软件定义网络(SDN)环境下的媒体分发网络的接入控制问题,提出了一种综合考虑服务节点和传输链路服务性能优化问题的接入控制方案。该方案利用SDN控制器对路由器的直接管控和对全网的感知能力,对应用层上服务节点服务性能和网络层上服务节点到用户之间的传输链路的服务性能进行联合优化,减少了链路拥塞对数据传输和用户服务质量的影响。首先,为SDN服务系统的接入控制过程建立部分可观Markov决策过程(POMDP)模型;然后,使用基于观测的随机策略作为系统的接入控制策略;最后,通过策略梯度算法对接入控制策略进行优化,求解出模型的最优策略。仿真结果表明,与尽力而为的服务策略相比,基于POMDP模型的最优接入控制策略使系统性能提高了10%,验证了所提方法的有效性。 展开更多
关键词 软件定义网络 接入控制 部分可观Markov决策过程 随机策略 梯度优化
在线阅读 下载PDF
基于POMDP的主动雷达制导弹干扰措施优化方法 被引量:2
14
作者 张翔 吴华 +2 位作者 陈游 宋海方 周一鹏 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2018年第5期90-96,共7页
以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观测马尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并... 以主动雷达弹对抗为背景,研究了单平台机载电子对抗资源的调度问题。为解决导弹导引头状态观测不确定性问题,引入部分可观测马尔科夫决策过程(POMDP)理论,分析了POMDP模型的要素,建立了针对主动雷达制导导弹的干扰资源优化POMDP模型,并利用最优策略可达空间的连续近似法(SARSOP)进行求解。将电子支援措施(ESM)的观测值输出与电子干扰措施(ECM)的优化策略相结合,提出了一种基于POMDP的电子对抗资源实时调度优化算法。仿真结果表明,该方法能够实现目标状态不确定情况下的干扰资源有效调度,相比现有的调度策略,可以使导引头更多维持在搜索状态,更少停留在稳定跟踪状态。 展开更多
关键词 主动雷达制导导弹 干扰资源优化 部分可观决策过程 最优策略可达空间的连续近似法
在线阅读 下载PDF
传感器工作时长约束及辐射控制的调度方法 被引量:5
15
作者 乔成林 段修生 +1 位作者 单甘霖 王俭臣 《探测与控制学报》 CSCD 北大核心 2018年第3期91-96,102,共7页
针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔... 针对多传感器调度中辐射控制及频繁切换的问题,提出传感器工作时长约束及辐射控制的调度方法。该方法将目标跟踪及辐射控制过程建立为部分可观马尔可夫决策过程;采用不敏卡尔曼滤波更新目标信念状态,预测目标跟踪精度;同时,结合隐马尔可夫滤波器推导多步辐射代价,动态确定传感器工作时长;考虑跟踪任务需求,得到工作时长约束及辐射控制的调度策略。仿真结果表明,在满足跟踪任务需求下,该方法有效降低了系统辐射代价,避免了频繁切换问题,增强了系统稳定性和实用性。 展开更多
关键词 传感器调度 频繁切换 部分可观尔可夫决策过程 时长约束 辐射代价
在线阅读 下载PDF
多传感器协同跟踪与辐射控制的调度算法 被引量:6
16
作者 乔成林 段修生 单甘霖 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2018年第7期1472-1480,共9页
为了降低有源传感器在获得目标持续量测时被敌方截获的风险,提出一种多传感器协同跟踪与辐射控制的调度算法。该算法首先采用辐射度影响(ELI)衡量传感器辐射,将目标跟踪与辐射控制过程建立为部分可观马尔可夫决策(POMDP)过程。然后以隐... 为了降低有源传感器在获得目标持续量测时被敌方截获的风险,提出一种多传感器协同跟踪与辐射控制的调度算法。该算法首先采用辐射度影响(ELI)衡量传感器辐射,将目标跟踪与辐射控制过程建立为部分可观马尔可夫决策(POMDP)过程。然后以隐马尔可夫模型(HMM)滤波器更新传感器辐射状态、推导长时辐射风险,以无迹卡尔曼滤波(UKF)更新目标状态、估计跟踪精度。最后考虑跟踪任务需求,构建精度约束下辐射控制的长时调度模型,并将该长时调度问题转化为决策树寻优问题,给出决策树节点次优下界值,采用改进分支定界技术(IB&B)快速求解最优调度序列。仿真结果验证了本文算法的有效性。 展开更多
关键词 传感器调度 协同跟踪 辐射控制 决策 任务需求 部分可观尔可夫决策过程(POMDP)
在线阅读 下载PDF
多平台主动与被动传感器协同跟踪的长时调度方法 被引量:14
17
作者 乔成林 单甘霖 +1 位作者 段修生 郭峰 《兵工学报》 EI CAS CSCD 北大核心 2019年第1期115-123,共9页
为了有效跟踪杂波环境下机动目标、降低系统辐射风险,提出一种多平台主动与被动传感器协同跟踪的长时调度方法。将长时调度问题构建为部分可观马尔可夫决策过程,采用交互式多模型概率数据关联算法更新目标信念状态,利用后验克拉美-罗下... 为了有效跟踪杂波环境下机动目标、降低系统辐射风险,提出一种多平台主动与被动传感器协同跟踪的长时调度方法。将长时调度问题构建为部分可观马尔可夫决策过程,采用交互式多模型概率数据关联算法更新目标信念状态,利用后验克拉美-罗下界预测机动目标长时跟踪精度,提出改进的维特比算法以求解最优调度序列。仿真实验结果表明,所提搜索算法能够显著降低搜索空间和存储空间,所提长时调度方法能够有效控制系统辐射代价、克服传感器频繁切换。 展开更多
关键词 传感器长时调度 部分可观尔可夫决策过程 交互式多模型 概率数据关联 后验克拉美-罗下界 维特比算法
在线阅读 下载PDF
主/被动传感器辐射控制的调度方法 被引量:2
18
作者 张昀普 单甘霖 +1 位作者 段修生 王猛 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第6期67-74,共8页
为了降低目标跟踪时传感器系统的辐射风险,研究了主/被动传感器的调度问题。通过建立基于部分可观马尔可夫决策过程的传感器调度模型,给出了目标跟踪精度和系统辐射代价的预测公式,并以满足跟踪精度约束的同时系统辐射代价达到最小为优... 为了降低目标跟踪时传感器系统的辐射风险,研究了主/被动传感器的调度问题。通过建立基于部分可观马尔可夫决策过程的传感器调度模型,给出了目标跟踪精度和系统辐射代价的预测公式,并以满足跟踪精度约束的同时系统辐射代价达到最小为优化目标建立了目标函数,设计了一种改进分布式拍卖算法以求解该问题。仿真实验表明,该方法能够通过合理切换各平台上的主/被动传感器,使系统在不牺牲跟踪精度的同时,降低辐射代价。 展开更多
关键词 传感器调度 目标跟踪 部分可观尔可夫决策过程 辐射代价 拍卖算法
在线阅读 下载PDF
面向双基协同跟踪的接收站路径优化方法
19
作者 石义芳 郭志伟 +2 位作者 张瑜 彭冬亮 张直 《现代雷达》 CSCD 北大核心 2022年第4期6-15,共10页
为进一步提升双基站无源协同跟踪系统的目标跟踪精度,提出了一种最小化克拉美罗下界(CRLB)迹的接收站路径优化方法。该方法结合部分可观马尔可夫决策过程(POMDP)构建接收站路径优化模型,并设计了基于CRLB的接收站路径优化代价函数;在满... 为进一步提升双基站无源协同跟踪系统的目标跟踪精度,提出了一种最小化克拉美罗下界(CRLB)迹的接收站路径优化方法。该方法结合部分可观马尔可夫决策过程(POMDP)构建接收站路径优化模型,并设计了基于CRLB的接收站路径优化代价函数;在满足接收站自身运动约束的前提下,求解最小化目标代价函数的接收站控制指令,最终实现接收站路径的实时优化;考虑到代价函数的高度非线性,为减少计算量,保证优化实时性,在接收站运动速度矢量转向角约束内进行离散化取值,获取接收站路径优化的近似最优解。实验结果表明,相比于现有的主流方法,该文方法能够有效减少接收站路径优化算法的计算量,同时显著提升目标跟踪精度。 展开更多
关键词 双基站无源协同跟踪系统 接收站路径优化 部分可观尔可夫决策过程 克拉美罗下界
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部