期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
1
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
有限规划水平部分可观Markov自适应决策过程的参数决策
2
作者 李江红 韩正之 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第12期1653-1657,共5页
提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最... 提出了一种有限规划水平部分可观、不确定 Markov决策过程自适应决策算法 .算法的基本思想是运用 Bayes理论对未知系统进行“学习”,通过最小决策失误概率的参数决策实现参数估计 ,在参数估计的基础上进行控制决策从而以最大概率实现最优决策 .文中证明了决策算法的收敛性 .仿真结果表明了决策算法的有效性 . 展开更多
关键词 部分可观markov决策过程 自适应控制 贝叶斯原理
在线阅读 下载PDF
基于部分可观马氏决策过程的多平台主被动传感器调度 被引量:4
3
作者 张子宁 单甘霖 段修生 《电子学报》 EI CAS CSCD 北大核心 2014年第10期2104-2109,共6页
为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由... 为了使有限时域内的跟踪精度和辐射风险达到最佳平衡,本文研究了多传感器平台在协同跟踪目标时的主被动传感器调度问题.将该问题建立成基于部分可观马氏决策过程的数学模型以同步实现目标跟踪和辐射控制.在先见优化思想的基础上,借助由无迹采样近似得到的精度收益及由隐马氏模型滤波器推导出的辐射代价将调度问题转化成决策树问题,并采用分枝定界方法求解.仿真结果表明了该方法的有效性. 展开更多
关键词 传感器调度 部分可观马氏决策过程 先见优化 无迹采样 分枝定界
在线阅读 下载PDF
基于部分可观察马尔可夫决策过程的受控无线网络系统动态资源分配 被引量:2
4
作者 李萌 司鹏搏 +1 位作者 孙恩昌 张延华 《高技术通讯》 北大核心 2017年第3期220-227,共8页
研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数... 研究了受控无线网络的动态资源分配。针对传统无线通信传输模型的局限性随着无线通信系统架构的发展日益凸显的问题,提出了一种引入反馈控制策略的受控无线网络模型。该模型结合部分可观察马尔可夫决策过程(POMDP),将用户接收功率与数据传输误码率作为反馈观测对象,对通信小区内基站天线开启数与用户接入数进行动态资源最优匹配。仿真结果表明,这种方法能够有效提升系统传输能效性与可靠性,降低传输误码率,改善系统资源动态匹配控制性能。 展开更多
关键词 受控网络 反馈策略 资源分配 部分可观察马尔可夫决策过程(pomdp)
在线阅读 下载PDF
部分可观测Markov环境下的激励学习综述
5
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分可观markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
在线阅读 下载PDF
部分可观环境中AUV软件自修复模型研究 被引量:1
6
作者 张汝波 孟雷 史长亭 《计算机工程与应用》 CSCD 北大核心 2017年第2期151-156,共6页
针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于... 针对AUV软件在部分可观环境中的故障修复问题,依据部分可观马尔科夫决策过程理论,提出基于POMDP模型和微重启技术的AUV软件故障修复方法。根据AUV分层结构特点设计了多层次的微重启修复方法,构建了AUV软件自修复POMDP模型,同时采用基于点的值迭代算法求解生成修复策略使系统在部分可观环境下能够以较低的修复代价执行修复动作。仿真实验验证了算法有效性和模型适用性。 展开更多
关键词 智能水下机器人 微重启技术 自修复 部分可观马尔科夫决策过程(pomdp) 基于点的值迭代(PBVI)
在线阅读 下载PDF
采用马氏决策过程和后验克拉美罗下界的多被动式移动传感器长期调度方法 被引量:1
7
作者 徐公国 单甘霖 段修生 《西安交通大学学报》 EI CAS CSCD 北大核心 2019年第6期125-133,150,共10页
针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的... 针对多被动式移动传感器协同工作时跟踪精度不稳定等问题,提出了一种基于多步预测的移动传感器长期调度方法。该方法结合部分可观马尔科夫决策过程(POMDP)构建多传感器调度模型,并基于后验克拉美罗下界(PCRLB)建立了传感器调度过程中的单步与长期代价函数;为有效减少计算复杂度,利用大量无迹采样粒子来近似估算长期代价值;通过将多约束非线性调度问题转化为决策树优化问题,可快速获取传感器长期调度方法,并给出了一种基于分支定界技术的改进决策树搜索算法。实验结果表明,所提方法能够实现移动式传感器的合理调度,在决策步长为2时,其目标跟踪精度相较于短期调度可平均提升6.08%;改进搜索算法的求解速度也更加迅速,能够有效满足在线调度的实时性要求。 展开更多
关键词 移动传感器 传感器调度 部分可观马尔科夫决策过程 后验克拉美罗下界 决策
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
8
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(pomdp)模型
在线阅读 下载PDF
异构无线传感器网络中基于POMDP的实时调度算法 被引量:2
9
作者 冯延蓬 仵博 郑红燕 《仪表技术与传感器》 CSCD 北大核心 2012年第8期101-104,共4页
针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务... 针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务中存在的环境噪声和传输冲突等不确定性,使用回报函数表示采用不同调度策略对异构网络感知准确度和能量消耗的影响,采用基于当前信念点的在线求解算法求取最优策略。仿真结果表明:该算法能够平衡数据准确性与能量消耗,延长网络生存时间。 展开更多
关键词 异构无线传感器网络 部分可观markov决策过程 调度
在线阅读 下载PDF
求解POMDP的动态合并激励学习算法 被引量:1
10
作者 殷苌茗 王汉兴 +1 位作者 陈焕文 谢丽娟 《计算机工程》 EI CAS CSCD 北大核心 2005年第22期4-6,148,共4页
把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在... 把POMDP作为激励学习(ReinforcementLearning)问题的模型,对于具有大状态空间问题的求解有比较好的适应性和有效性。但由于其求解的难度远远地超过了一般的Markov决策过程(MDP)的求解,因此还有许多问题有待解决。该文基于这样的背景,在给定一些特殊的约束条件下提出的一种求解POMDP的方法,即求解POMDP的动态合并激励学习算法。该方法利用区域的概念,在环境状态空间上建立一个区域系统,Agent在区域系统的每个区域上独自并行地实现其最优目标,加快了运算速度。然后把各组成部分的最优值函数按一定的方式整合,最后得出POMDP的最优解。 展开更多
关键词 部分可观markov决策过程 激励学习 动态合并 信度状态
在线阅读 下载PDF
SHP-VI:一种基于最短哈密顿通路的POMDP值迭代算法 被引量:1
11
作者 冯奇 周雪忠 +1 位作者 黄厚宽 张小平 《计算机研究与发展》 EI CSCD 北大核心 2011年第12期2343-2351,共9页
基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时... 基于试探(trial-based)的值迭代算法是求解部分可观察Markov决策过程(partially observable Markov decision process,POMDP)模型的一类有效算法,其中FSVI算法是目前最快的算法之一.然而对于较大规模的POMDP问题,FSVI计算MDP值函数的时间是不容忽视的.提出一种基于最短哈密顿通路(shortest Hamiltonian path)的值迭代算法(shortest Hamiltonian path-based value iteration,SHP-VI).该方法用求解最短哈密顿通路问题的蚁群算法计算一条最优信念状态轨迹,然后在这些信念状态上反向更新值函数.通过与FSVI算法的实验比较,结果表明SHP-VI算法很大程度地提高了基于试探的算法计算信念状态轨迹的效率. 展开更多
关键词 部分可观markov决策过程 值迭代 基于点的算法 基于试探的算法 哈密顿通路
在线阅读 下载PDF
基于FPOMDP的无线传感器网络动态调度算法 被引量:1
12
作者 冯延蓬 仵博 郑红燕 《计算机应用与软件》 CSCD 北大核心 2012年第8期55-58,77,共5页
针对无线传感器网络节点能量有限、数据采集易受环境影响的问题,提出一种基于可分解部分可观察Markov决策过程FPOMDP(Factored Partially Observable Markov Decision Process)的节点休眠调度算法。通过节点空时相关模型求取休眠节点数... 针对无线传感器网络节点能量有限、数据采集易受环境影响的问题,提出一种基于可分解部分可观察Markov决策过程FPOMDP(Factored Partially Observable Markov Decision Process)的节点休眠调度算法。通过节点空时相关模型求取休眠节点数据,利用网络数据准确性和节点能量间的条件独立关系,构造状态转移函数、观察函数和奖赏函数,采用值迭代求解算法求取最优策略,实现节点动态调度。仿真结果表明,该算法能够在保证数据准确性的前提下,有效降低节点能量消耗,延长网络生存时间。 展开更多
关键词 无线传感器网络 可分解部分可观markov决策过程 空时相关模型
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:8
13
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观测马尔科夫决策过程(pomdp) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
基于实例的POMDP问题的近似求解
14
作者 修国明 张积滨 潘启树 《计算机工程与应用》 CSCD 北大核心 2008年第29期82-85,111,共5页
结合启发式求解和增强学习技术,深入研究了基于实例的POMDP问题的近似求解算法,包括基于最近邻算法法的NNI及它的参数化增强版本ENNI和基于局部加权回归算法的LWI,并通过实验对比,给出了相应算法在实际应用中的性能。实验证明,基于实例... 结合启发式求解和增强学习技术,深入研究了基于实例的POMDP问题的近似求解算法,包括基于最近邻算法法的NNI及它的参数化增强版本ENNI和基于局部加权回归算法的LWI,并通过实验对比,给出了相应算法在实际应用中的性能。实验证明,基于实例的方法来求解POMDP问题,能够获得性能较好的次优解。 展开更多
关键词 基于实例的方法 部分可观察马尔可夫决策过程(pomdp) 启发式求解 增强学习 最近邻 局部加权回归
在线阅读 下载PDF
基于一阶信念点的一阶POMDP值迭代算法研究
15
作者 陈丽娜 黄宏斌 邓苏 《计算机工程与应用》 CSCD 2012年第15期7-11,共5页
主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面... 主要研究一阶部分可观测马尔可夫决策过程的近似求解方法。给出了一阶信念、一阶信念粒度、流关键度的概念;提出了基于流关键度的粒度归结方法,统一一阶信念粒度;提出了一阶信念粒度距离度量方法,提出FO-PBVI方法,将PBVI提升到抽象层面。通过Tiger和Tag实验对方法进行了验证分析,通过实验可见FO-PBVI方法能够很好地适应问题规模的变化,能够求解较大规模的规划问题。 展开更多
关键词 一阶部分可观测马尔可夫决策过程(pomdp) 一阶信念状态 粒度归结 值迭代
在线阅读 下载PDF
分布式业务系统基于模型的接入控制方案(英文) 被引量:1
16
作者 陆效农 殷保群 +1 位作者 张海鹏 凌强 《中国科学技术大学学报》 CAS CSCD 北大核心 2012年第10期836-845,共10页
我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系... 我们为分布式业务系统提出了一种基于模型与预测的接入控制方法.首先,使用部分可观Markov决策过程(POMDP)来为业务系统建模.接着,将服务分配策略融入系统参数并且使用随机策略作为接入控制策略来使系统性能达到最优,优化目标是最大化系统的收益.基于POMDP模型,我们提出基于观测的策略梯度算法来求解最优策略.最后,使用基于HMM的方法来侦查和预测系统的变化,并且采用动态自适应的方法来更新系统模型机接入控制策略.实验结果显示,和尽力而为的服务策略相比较我们的最优策略获得了较好的性能. 展开更多
关键词 分布式业务系统 部分可观markov决策过程(pomdp) 接入控制 随机策略 基于HMM的方法
在线阅读 下载PDF
面向跟踪任务需求的主动传感器调度方法 被引量:7
17
作者 乔成林 单甘霖 +1 位作者 段修生 刘欣怡 《系统工程与电子技术》 EI CSCD 北大核心 2017年第11期2515-2521,共7页
以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的... 以多传感器多目标跟踪为背景,针对跟踪任务需求中辐射风险控制问题,提出一种面向跟踪任务需求的主动传感器调度方法。该方法首先结合不敏卡尔曼滤波,给出了仅考虑跟踪任务需求的传感器调度策略;然后建立基于部分可观马尔可夫决策过程的辐射模型,并采用隐马尔可夫模型滤波器动态更新传感器辐射;最后考虑跟踪任务需求和传感器约束,将辐射风险控制下传感器调度问题转化为非线性约束下寻优问题。仿真实验结果验证了所提方法有效性。 展开更多
关键词 传感器调度 跟踪任务需求 部分可观马尔可夫决策过程 辐射风险
在线阅读 下载PDF
面向目标跟踪的单平台主被动传感器长期调度 被引量:7
18
作者 单甘霖 张子宁 《系统工程与电子技术》 EI CSCD 北大核心 2014年第3期458-463,共6页
以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision... 以目标跟踪为背景,研究了单平台上主被动传感器的长期调度问题。通过合理、实时地切换主被动传感器,使得有限时域内的跟踪精度和辐射风险达到合理的平衡。将该调度问题构建成部分可观马氏决策过程(partially observable Markov decision process,POMDP)以同步实现目标跟踪和辐射控制。提出以容积采样法估算长期精度收益,以隐马氏模型滤波器推导长期辐射代价。最终将原问题转化成决策树并利用分枝定界法进行求解。仿真结果证明了本方法的有效性。 展开更多
关键词 长期调度 部分可观马氏决策过程 决策 分枝定界
在线阅读 下载PDF
U-Clustering:基于效用聚类的激励学习算法
19
作者 陈焕文 殷苌茗 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2005年第26期37-42,74,共7页
提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为... 提出了一个新的效用聚类激励学习算法U-Clustering。该算法完全不用像U-Tree算法那样进行边缘节点的生成和测试,它首先根据实例链的观测动作值对实例进行聚类,然后对每个聚类进行特征选择,最后再进行特征压缩,经过压缩后的新特征就成为新的状态空间树节点。通过对NewYorkDriving[2,13]的仿真和算法的实验分析,表明U-Clustering算法对解决大型部分可观测环境问题是比较有效的算法。 展开更多
关键词 激励学习 效用聚类 部分可观markov决策过程
在线阅读 下载PDF
优化策略模型下的匹配律算法
20
作者 程振波 邓志东 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第S1期146-151,共6页
利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔... 利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为. 展开更多
关键词 部分可观马尔可夫决策过程 再励学习 优化策略搜索 匹配律
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部