期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
应用部分马尔科夫博弈的网络安全主动响应决策模型 被引量:5
1
作者 胡鹤 胡昌振 姚淑萍 《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第4期18-24,共7页
针对传统被动响应模型滞后于攻击且频繁误警和虚警导致不当响应的问题,提出一种基于部分马尔科夫博弈(POMG)的主动响应决策模型.该模型针对入侵过程生成入侵状态转换图,并根据攻击过程中得到的观察事件匹配入侵状态转换图,在考虑状态不... 针对传统被动响应模型滞后于攻击且频繁误警和虚警导致不当响应的问题,提出一种基于部分马尔科夫博弈(POMG)的主动响应决策模型.该模型针对入侵过程生成入侵状态转换图,并根据攻击过程中得到的观察事件匹配入侵状态转换图,在考虑状态不确定的情况下确定系统信念状态.将概率值超过信念状态阈值的状态作为初始节点生成入侵状态转换子图,根据子图的入侵过程确定攻防策略集,最终利用POMG算法选择最优主动响应策略.实验结果表明,基于POMG的主动响应模型较映射型模型响应速度快67%,平均响应效率高24.5%. 展开更多
关键词 主动响应 入侵状态转换图 部分马尔科夫博弈 信念状态
在线阅读 下载PDF
状态部分可观测条件下电力设备状态检修决策模型 被引量:21
2
作者 徐波 韩学山 +1 位作者 孙宏斌 张玉敏 《中国电机工程学报》 EI CSCD 北大核心 2018年第14期4107-4116,共10页
在设备状态检修决策中,当设备状态评价结果与其真实状态不符时(状态无法完全观测),会导致检修决策偏离实际。针对这一问题,提出一种适用于状态部分可观测设备的检修决策模型。该模型考虑设备突发性故障和老化故障,基于部分可观测马尔... 在设备状态检修决策中,当设备状态评价结果与其真实状态不符时(状态无法完全观测),会导致检修决策偏离实际。针对这一问题,提出一种适用于状态部分可观测设备的检修决策模型。该模型考虑设备突发性故障和老化故障,基于部分可观测马尔科夫过程,推导设备的初始状态概率。进一步,考虑设备故障修复效果不确定性,对研究周期内设备瞬时可用度进行求解。并在此基础上,给出部分可观测条件下系统故障风险和检修风险表达,以系统总风险最小为目标进行检修决策。通过算例分析验证了文中模型的有效性。 展开更多
关键词 电力设备 状态检修 部分可观测马尔科夫过程 故障风险 检修风险
在线阅读 下载PDF
基于多智能体深度强化学习的无人机动态预部署策略 被引量:5
3
作者 唐伦 李质萱 +2 位作者 蒲昊 汪智平 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2007-2015,共9页
针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以... 针对传统优化算法在求解长时间尺度内通信无人机(UAV)动态部署时复杂度过高且难以与动态环境信息匹配等缺陷,该文提出一种基于多智能体深度强化学习(MADRL)的UAV动态预部署策略。首先利用一种深度时空网络模型预测用户的预期速率需求以捕捉动态环境信息,定义用户满意度的概念以刻画用户所获得UAV提供服务的公平性,并以最大化长期总体用户满意度和最小化UAV移动及发射能耗为目标建立优化模型。其次,将上述模型转化为部分可观测马尔科夫博弈过程(POMG),并提出一种基于MADRL的H-MADDPG算法求解该POMG中轨迹规划、用户关联和功率分配的最佳决策。该H-MADDPG算法使用混合网络结构以实现对多模态输入的特征提取,并采用集中式训练-分布式执行的机制以高效地训练和执行决策。最后仿真结果证明了所提算法的有效性。 展开更多
关键词 无人机通信 动态部署 部分可观测马尔科夫博弈 多智能体深度强化学习
在线阅读 下载PDF
多目标跟踪中基于目标威胁度评估的传感器控制方法 被引量:10
4
作者 陈辉 贺忠良 +1 位作者 连峰 李晨 《电子与信息学报》 EI CSCD 北大核心 2018年第12期2861-2867,共7页
该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析... 该文基于随机有限集的多目标滤波器提出一种基于目标威胁度评估的传感器控制策略。首先,在部分可观测马尔科夫决策过程(POMDP)的理论框架下,给出基于信息论的传感器控制一般方法。其次,结合目标运动态势对影响目标威胁度的因素进行分析。然后,基于粒子多目标滤波器估计多目标状态,依据多目标运动态势的评估研究建立多目标威胁水平,并从多目标分布特性中深入分析并提取出当前时刻最大威胁度目标的分布特性。最后,利用Rényi散度作为传感器控制的评价指标,以最大威胁度目标的信息增益最大化为准则进行最终控制方案的求解。仿真实验验证了该方法的实用性和有效性。 展开更多
关键词 多目标跟踪 目标威胁度 战术重要性标绘 传感器控制 部分可观测马尔科夫决策过程
在线阅读 下载PDF
基于POMDP的认知无线电自适应频谱感知算法 被引量:12
5
作者 许瑞琛 蒋挺 《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。 展开更多
关键词 部分可观测马尔科夫决策过程 自适应感知 数据传输时间 冲突概率 频谱利用率
在线阅读 下载PDF
认知Ad Hoc网络能量有效频谱接入策略 被引量:5
6
作者 张凯 刘洋 +1 位作者 赵彪 李鸥 《信号处理》 CSCD 北大核心 2013年第7期896-904,共9页
针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用... 针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用户选择能效最佳信道,并根据信念状态、信道增益和检测概率,自适应控制传输功率。仿真结果表明,该策略能够有效提高次用户传输的能量有效性,通过对传输功率的有效控制,实现了传输性能和能量开销的有效折中。 展开更多
关键词 认知无线电 机会频谱接入 能量有效性 部分可观测马尔科夫决策过程 传输功率控制
在线阅读 下载PDF
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
7
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于点的FO-POMDP值迭代方法研究 被引量:1
8
作者 陈丽娜 黄宏斌 邓苏 《计算机工程》 CAS CSCD 2013年第10期217-220,共4页
在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将... 在部分可观测马尔可夫决策过程(POMDP)的基础上,给出一阶部分可观测马尔科夫决策过程(FO-POMDP),用一阶逻辑的情景演算结构表达POMDP。对FO-POMDP模型中状态的抽象层次进行刻画,提出状态粒度、信念状态粒度的概念。采用粒度归结方法,将信念状态的粒度归结到某一确定粒度下,运用确定粒度下的信念点距离度量方法,将基于点的价值迭代(PBVI)扩展到逻辑抽象层面提出一阶PBVI(FO-PBVI)。实验结果证明,该算法的求解速度较快,求解质量较好。 展开更多
关键词 部分可观测马尔科夫决策过程 状态空间 信念状态 粒度归结 基于点的值迭代
在线阅读 下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:8
9
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观测马尔科夫决策过程(POMDP) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
在线阅读 下载PDF
基于攻击图的主动响应策略选择 被引量:2
10
作者 胡鹤 胡昌振 姚淑萍 《北京工业大学学报》 EI CAS CSCD 北大核心 2012年第11期1659-1664,共6页
为帮助管理员预先识别网络系统脆弱性及面临的潜在安全威胁,提出一种基于攻击图的主动响应策略选择方法.该方法利用攻击图模型分析网络攻击行为,预测攻击路径并进行定量分析.根据攻击过程中得到的观察匹配攻击图,更新信念状态,最终利用... 为帮助管理员预先识别网络系统脆弱性及面临的潜在安全威胁,提出一种基于攻击图的主动响应策略选择方法.该方法利用攻击图模型分析网络攻击行为,预测攻击路径并进行定量分析.根据攻击过程中得到的观察匹配攻击图,更新信念状态,最终利用部分马尔科夫博弈(POMG)算法进行最优主动响应策略选择.实验结果表明,基于攻击图的主动响应策略选择方法能提高响应的准确性和有效性. 展开更多
关键词 网络安全 部分马尔科夫博弈 攻击图
在线阅读 下载PDF
主动配电网下多微电网间功率协调优化 被引量:10
11
作者 熊雄 井天军 +1 位作者 孙可 王坤 《电力自动化设备》 EI CSCD 北大核心 2018年第6期15-21,共7页
配电网中高渗透率分布式电源以多个微电网的形式集群接入,实现配电网对分布式电源的主动控制与管理,是智能电网中主动配电网的发展趋势。以多微电网间功率协调优化为研究对象,提出了一种基于部分可观测马尔科夫决策过程(DEC-POMDP)的协... 配电网中高渗透率分布式电源以多个微电网的形式集群接入,实现配电网对分布式电源的主动控制与管理,是智能电网中主动配电网的发展趋势。以多微电网间功率协调优化为研究对象,提出了一种基于部分可观测马尔科夫决策过程(DEC-POMDP)的协调优化模型,采用拉格朗日-对偶原理将原目标函数分层为max-min的形式,并通过拉格朗日乘子对其进行解耦以降低求解难度;为了提高算法的精度及性能,采用了一种基于Bloch球面坐标编码的量子遗传算法。算例计算结果验证了所提方法的正确性与有效性。 展开更多
关键词 主动配电网 多微电网 功率协调优化 部分可观测马尔科夫决策过程 拉格朗日-对偶原理 量子遗传算法
在线阅读 下载PDF
CVANET中基于POMDP模型的频谱接入算法 被引量:1
12
作者 张雪飞 章国安 季彦呈 《电信科学》 北大核心 2014年第9期111-115,共5页
针对认知车载Ad Hoc网络(CVANET)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知车辆用户的频谱感知和频谱接入过程进行研究,提出基于POMDP模型的分布式机会频谱接入算法,并通过贪心算法降低POMDP算法计算量,最后通... 针对认知车载Ad Hoc网络(CVANET)信道的动态特性,以部分可观测马尔科夫决策过程(POMDP)为模型对认知车辆用户的频谱感知和频谱接入过程进行研究,提出基于POMDP模型的分布式机会频谱接入算法,并通过贪心算法降低POMDP算法计算量,最后通过仿真研究影响认知车辆用户吞吐量的主要因素,并验证算法的可行性。仿真分析结果表明,认知车辆用户通过本算法接入吞吐量得到有效提高,降低了交通中广播风暴的可能,并且降低了计算量。 展开更多
关键词 认知车载网 认知无线电 部分可观测马尔科夫决策过程 频谱接入 贪心算法
在线阅读 下载PDF
基于循环卷积神经网络的POMDP值迭代算法 被引量:3
13
作者 于丹宁 倪坤 刘云龙 《计算机工程》 CAS CSCD 北大核心 2021年第2期90-94,102,共6页
基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练效果不稳定、参数敏感等优化难题。提出基于循环卷积神经网络的POMDP值迭代算法RQMDP-net,使用门控循环... 基于卷积神经网络的部分可观测马尔科夫决策过程(POMDP)值迭代算法QMDP-net在无先验知识的情况下具有较好的性能表现,但其存在训练效果不稳定、参数敏感等优化难题。提出基于循环卷积神经网络的POMDP值迭代算法RQMDP-net,使用门控循环单元网络实现值迭代更新,在保留输入和递归权重矩阵卷积特性的同时增强网络时序处理能力。实验结果表明,RQMDP-net在10×10网格地图规划任务中导航准确率高达98.5%,且在36×36网格地图规划任务中相比QMDP-net最多提升5.8个百分点,具有更快的网络收敛速度和更强的导航任务规划能力。 展开更多
关键词 部分可观测马尔科夫决策过程 值迭代 卷积神经网络 循环卷积神经网络 智能体规划
在线阅读 下载PDF
面向关系建模的合作多智能体深度强化学习综述
14
作者 熊丽琴 陈希亮 +2 位作者 赖俊 骆西建 曹雷 《计算机工程与应用》 2025年第18期41-60,共20页
近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化... 近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化学习方法通过刻画智能体与智能体、智能体与系统整体的关系来准确捕获并利用智能体的个体贡献和智能体间相互作用以有效促进多智能体协同,具有重要研究意义和应用价值。简要介绍多智能体系统中存在的关系和多智能体深度强化学习的基础知识;从关系建模层次的角度出发将面向关系建模的合作多智能体深度强化学习算法分为基于个体间关系建模、基于个体与全局间关系建模以及基于多尺度关系建模这三类,并对其基本原理及优缺点进行全面梳理;着重介绍了其在无人集群控制、任务与资源分配、智能交通运输等领域中的应用情况。最后,总结当前面临的主要挑战并对未来研究方向进行展望。 展开更多
关键词 深度强化学习 多智能体强化学习 部分可观测马尔科夫决策过程 多智能体协同 关系建模
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部