期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于马尔科夫决策的目标选择策略 被引量:5
1
作者 雷霆 朱承 张维明 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。 展开更多
关键词 目标选择 目标体系 与或树 离散时间马尔科夫决策过程
在线阅读 下载PDF
基于马尔科夫过程的钢骨混凝土耐久性预测 被引量:2
2
作者 哈娜 王连广 高学涛 《混凝土》 CAS CSCD 北大核心 2009年第9期50-52,共3页
为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨... 为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨混凝土结构的预测过程,并采用算例实现了钢骨混凝土结构耐久性的预测,得到了等级与时间的关系曲线。研究结果表明:齐次泊松和非齐次泊松的预测结果相近,都是时间随着等级的增加而增加,预测结果也比较准确可靠。 展开更多
关键词 时间连续状态离散马尔科夫过程 钢骨混凝土结构 耐久性 预测
在线阅读 下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
3
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间Markov决策过程 决策问题
在线阅读 下载PDF
风险概率准则下的非平稳马氏决策过程
4
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
在线阅读 下载PDF
一种基于随机投影的贝叶斯时间差分算法 被引量:1
5
作者 刘全 于俊 +2 位作者 王辉 傅启明 朱斐 《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来... 在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间. 展开更多
关键词 强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
在线阅读 下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
6
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
在线阅读 下载PDF
基于POMDP的认知无线电自适应频谱感知算法 被引量:12
7
作者 许瑞琛 蒋挺 《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。 展开更多
关键词 部分可观测马尔科夫决策过程 自适应感知 数据传输时间 冲突概率 频谱利用率
在线阅读 下载PDF
基于面向对象的信息系统风险评估方法 被引量:5
8
作者 王桢珍 武小悦 谢永强 《计算机工程与应用》 CSCD 北大核心 2009年第30期92-94,112,共4页
风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导... 风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导系统安全防护工作的经济高效开展。 展开更多
关键词 风险评估 面向对象 体系结构 离散时间马尔科夫过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部