期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于马尔科夫决策的目标选择策略 被引量:5
1
作者 雷霆 朱承 张维明 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。 展开更多
关键词 目标选择 目标体系 与或树 离散时间马尔科夫决策过程
在线阅读 下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
2
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间Markov决策过程 决策问题
在线阅读 下载PDF
基于时间策略的连续时间Markov过程验证 被引量:1
3
作者 黄镇谨 陈波 欧阳浩 《广西科技大学学报》 CAS 2014年第3期59-62,86,共5页
对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法... 对系统模型进行验证是保证系统安全的一个关键.连续时间Markov过程可以刻画复杂并发系统的随机、概率、不确定性特征.提出时间依赖策略下连续时间Markov过程验证方法,将连续时间Markov过程转换成为交互式马尔科夫链,给出模型的转换方法及不确定性选择策略的转换方法,最终通过求解交互式马尔科夫链的时间可达概率最值实现对连续时间Markov过程模型的验证.理论分析表明,提出的方法具有可行性. 展开更多
关键词 马尔科夫决策过程 交互式马尔科夫 时间有界可达概率 时间策略
在线阅读 下载PDF
风险概率准则下的非平稳马氏决策过程
4
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
在线阅读 下载PDF
一种基于随机投影的贝叶斯时间差分算法 被引量:1
5
作者 刘全 于俊 +2 位作者 王辉 傅启明 朱斐 《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页
在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来... 在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间. 展开更多
关键词 强化学习 马尔科夫决策过程 高斯过程 随机投影 时间差分算法
在线阅读 下载PDF
特大城市居民出行行为决策研究 被引量:2
6
作者 顾玉磊 陈文强 吴群琪 《湘潭大学自然科学学报》 CAS CSCD 北大核心 2012年第4期8-12,共5页
为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行... 为研究特大城市居民出行决策规律,以居民常规出行方式(步行和乘公交车)为研究对象,以期望效用理论为理论基础,以居民出行时间价值损失最小为约束条件,构建居民出行行为的马尔科夫决策模型.研究结果显示:在特定的出行范围内,居民出行行为决策与居民的出行时间价值关系密切,出行时间价值越高,选择可靠性高、时间价值实现风险低的出行方式概率越大. 展开更多
关键词 出行决策 出行时间价值 出行方式 马尔科夫决策过程
在线阅读 下载PDF
基于POMDP的认知无线电自适应频谱感知算法 被引量:12
7
作者 许瑞琛 蒋挺 《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页
针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。 展开更多
关键词 部分可观测马尔科夫决策过程 自适应感知 数据传输时间 冲突概率 频谱利用率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部