期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
马氏决策向量过程模型初步研究 被引量:4
1
作者 陈杰 朱全新 邢灵博 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第5期38-40,共3页
在传统马氏单元决策过程(MDP)模型中引入多元行动来确定系统的状态转移概率,通过运用传统MDP的基本理论以及结合多元行动集、决策向量、相合度等新定义,提出了马氏向量决策过程模型.
关键词 多元行动 决策向量 相合度 马氏决策向量过程
在线阅读 下载PDF
基于马氏决策过程的易逝品联合策略 被引量:4
2
作者 郑江波 程福阳 杨柳 《计算机集成制造系统》 EI CSCD 北大核心 2017年第1期144-153,共10页
为了有效解决零售商在销售易逝品时的订货、旧产品处理及定价的联合决策问题,提出运用马氏决策过程建立模型及使用Q学习算法求得最优策略。最优策略包括各个状态下选择的决策动作,它能使从现在起及后续无限期的贴现总值为最大。算法中... 为了有效解决零售商在销售易逝品时的订货、旧产品处理及定价的联合决策问题,提出运用马氏决策过程建立模型及使用Q学习算法求得最优策略。最优策略包括各个状态下选择的决策动作,它能使从现在起及后续无限期的贴现总值为最大。算法中的迭代公式通过不断与环境进行互动并得到反馈,时刻更新最优策略。基于有限的状态集和动作集,在状态转移概率及当期期望收益未知的情况下,算法经过长时间学习后能够得到稳定的最优策略。研究发现,各参数(变化)对联合策略中各策略的特征有不同的影响,该结论为启发式策略的相关研究提供了一定的理论支持和解决思路。 展开更多
关键词 易逝品 马氏决策过程 Q学习算法 订货策略 定价策略
在线阅读 下载PDF
一类事件驱动马氏决策过程的Q学习 被引量:2
3
作者 王利存 郑应平 《系统工程与电子技术》 EI CSCD 北大核心 2001年第4期80-82,F003,共4页
对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题 ,通过分析其模型特征 ,研究了一种简单的增强型学习算法 ,不必将事件扩充为系统状态 ,而只对原始状态的值函数进行学习 ,减少了计算量和数据存储量。将算法应用于M/M/1排队系统... 对广泛存在的一类事件驱动的平均费用型马尔可夫决策问题 ,通过分析其模型特征 ,研究了一种简单的增强型学习算法 ,不必将事件扩充为系统状态 ,而只对原始状态的值函数进行学习 ,减少了计算量和数据存储量。将算法应用于M/M/1排队系统的接纳控制问题 ,计算机仿真结果表明 ,算法优于通常的增强型学习和动态规划方法 。 展开更多
关键词 马氏决策过程 马尔可夫过程 Q学习 事件驱动
在线阅读 下载PDF
基于马氏决策过程的概率离散事件系统最优控制 被引量:2
4
作者 王飞 冯祖仁 胡奇英 《控制理论与应用》 EI CAS CSCD 北大核心 2007年第6期895-901,908,共8页
使用马氏决策过程研究了概率离散事件系统的最优控制问题.首先,通过引入费用函数、目标函数以及最优函数的定义,建立了可以确定最优监控器的最优方程.之后,又通过此最优方程获得了给定语言的极大可控、∈-包含闭语言.最后给出了获得最... 使用马氏决策过程研究了概率离散事件系统的最优控制问题.首先,通过引入费用函数、目标函数以及最优函数的定义,建立了可以确定最优监控器的最优方程.之后,又通过此最优方程获得了给定语言的极大可控、∈-包含闭语言.最后给出了获得最优费用与最优监控器的算法. 展开更多
关键词 最优控制 概率离散事件系统 马氏决策过程:ε-包含:最优监控器
在线阅读 下载PDF
基于半马氏决策过程的电容器维修策略优化
5
作者 金光 肖磊 厉海涛 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第1期78-81,共4页
针对电容器随机劣化失效的特点,采用半马氏决策过程解决其预防性维修方案设计和维修策略优化问题。在电容器随机劣化的Gaussian-Poisson模型基础上,以检测周期为优化变量,同时考虑预防性维修次数阈值的影响,建立电容器长期运行费用率优... 针对电容器随机劣化失效的特点,采用半马氏决策过程解决其预防性维修方案设计和维修策略优化问题。在电容器随机劣化的Gaussian-Poisson模型基础上,以检测周期为优化变量,同时考虑预防性维修次数阈值的影响,建立电容器长期运行费用率优化模型。分析表明,对该型号电容器来说,预防性维修相比于事后修理更加有利于节省部件长期运行的费用率。 展开更多
关键词 维修策略 预防性维修 马氏决策过程 电容器
在线阅读 下载PDF
非齐次马氏决策过程的齐次化
6
作者 侯振挺 郭先平 《数学物理学报(A辑)》 CSCD 北大核心 1997年第4期432-438,共7页
该文考虑的是可数状态空间有限行动空间非齐次马氏决策过程的期望总报酬准则.与以往不同的是,我们是通过扩大状态空间的方法,将非齐次的马氏决策过程转化成齐次的马氏决策过程,于是非常简洁地得到了按传统的方法所得的主要结果.
关键词 马氏决策过程 非齐次 齐次 期望总报酬准则
在线阅读 下载PDF
马氏决策过程平均准则最优不等式综述
7
作者 胡奇英 刘建庸 《运筹学杂志》 CSCD 1996年第2期1-9,共9页
对平均准则的讨论一直是马氏决策过程研究的热点之一,近几年已从最优方程推广到最优不等式。本文系统地了介绍最优不等式的提出及其发展思路,目前已取得的成果等,同时也指出了有待于进一步研究的问题。
关键词 马氏决策过程 平均准则 最优不等式
在线阅读 下载PDF
报酬无界的平均准则马氏决策过程(英文)
8
作者 胡奇英 《运筹学学报》 CSCD 北大核心 2002年第1期1-8,共8页
本文对可数状态集、非空决策集、报酬无界的平均准则马氏决策过程,提出了一组新的条件,在此条件下存在(ε)最优平稳策略,且当最优不等式中的和有定义时最优不等式也成立.
关键词 马氏决策过程 平均准则最优不等式 无界报酬 非空决策
在线阅读 下载PDF
连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析 被引量:1
9
作者 朱益民 《浙江工业大学学报》 CAS 1999年第2期155-159,共5页
讨论了连续时间马氏决策过程中最优平稳策略对折扣因子的灵敏度问题,并将之化为一个多项式问题来求解。
关键词 马氏决策过程 最优策略 连续时间
在线阅读 下载PDF
风险概率准则下的非平稳马氏决策过程
10
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
在线阅读 下载PDF
风险敏感马氏决策过程与状态扩充变换
11
作者 马帅 夏俐 《中山大学学报(自然科学版)(中英文)》 CAS CSCD 北大核心 2023年第1期181-191,共11页
在马氏决策过程中,过程的随机性由策略与转移核决定,优化目标的随机性受随机报酬与随机策略的影响,其中随机报酬往往可通过简化转化为确定型报酬。当优化准则为经典的期望类准则,如平均准则或折扣准则时,报酬函数的简化不会影响优化结... 在马氏决策过程中,过程的随机性由策略与转移核决定,优化目标的随机性受随机报酬与随机策略的影响,其中随机报酬往往可通过简化转化为确定型报酬。当优化准则为经典的期望类准则,如平均准则或折扣准则时,报酬函数的简化不会影响优化结果。然而对风险敏感的优化准则,此类简化将影响风险目标值,进而破坏策略的最优性。针对该问题,状态扩充变换将随机信息重组进扩充状态空间,在简化报酬函数的同时保持随机报酬过程不变。本文以三种定义于累积折扣报酬的经典风险测度为例,在策略评价中对比报酬函数简化与状态扩充变换对风险评估的影响。理论验证与数值实验均表明,当报酬函数形式较为复杂时,状态扩充变换可在简化报酬函数的同时保持风险测度不变。 展开更多
关键词 马氏决策过程 状态扩充变换 风险 报酬函数简化
在线阅读 下载PDF
随机环境下连续时间马氏决策过程最优控制存在性
12
作者 邵井海 赵坤 《应用概率统计》 CSCD 北大核心 2021年第4期421-440,共20页
本文研究随机环境对于连续时间马氏决策过程最优控制问题的影响,给出有限水平最优控制存在的判别条件,将研究扩散过程最优控制问题常用的紧致化方法推广到对连续时间马氏决策过程的研究.
关键词 马氏决策过程 有限水平准则 带切换的扩散过程 松弛控制 随机策略
在线阅读 下载PDF
可变折扣马氏决策过程首达模型列的收敛问题
13
作者 吴晓 郭圳滨 《应用概率统计》 CSCD 北大核心 2021年第6期598-610,共13页
本文主要研究了可数状态空间上带多约束、可变折扣马氏决策过程首达模型序列的收敛问题.利用``占有测度''及其相关性质,将受约束首达模型序列的优化问题转化为等价的受约束线性规划问题(凸分析方法),在合适条件下证明了首达模... 本文主要研究了可数状态空间上带多约束、可变折扣马氏决策过程首达模型序列的收敛问题.利用``占有测度''及其相关性质,将受约束首达模型序列的优化问题转化为等价的受约束线性规划问题(凸分析方法),在合适条件下证明了首达模型序列的最优值和最优策略收敛于``极限''模型的最优值和最优策略. 展开更多
关键词 马氏决策过程首达模型 多约束 依赖状态折扣因子 凸分析方法 收敛问题
在线阅读 下载PDF
马尔可夫决策过程在目标分配中的应用 被引量:12
14
作者 韩松臣 秦俊奇 +1 位作者 韩品尧 邵成勋 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 1996年第2期32-36,共5页
武器系统目标分配是作战指挥中的一个重要问题。本文将马尔可夫决策过程理论应用于目标分配决策中。这种方法充分考虑了攻防对抗这个动态系统本身的特征,使决策的长期效益趋于最优.
关键词 武器系统 目标分配 马氏决策过程 军事 防空作战
在线阅读 下载PDF
基于半Markov决策过程的劣化系统检测与维修优化模型 被引量:10
15
作者 程志君 郭波 《自动化学报》 EI CSCD 北大核心 2007年第10期1101-1104,共4页
针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模... 针对系统劣化阶段持续时间、检测间隔时间和维修时间都服从一般分布的情况,提出了一类基于半马氏决策过程的劣化系统检测与维修优化模型.利用位相型分布近似一般分布简化了求解过程,并提出了相应的改进值迭代算法.最后通过算例验证了模型与迭代算法的可行性. 展开更多
关键词 劣化系统 马氏决策过程 位相型分布 检测与维修
在线阅读 下载PDF
Q(f)-过程非唯一时连续时间折扣目标MDP
16
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1996年第3期7-12,共6页
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的... 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性. 展开更多
关键词 连续时间 折扣目标 Q过程 马氏决策规划
在线阅读 下载PDF
历史相依决策模型的建立及相应过程的构造 被引量:1
17
作者 莫晓云 周杰明 金芳 《湖南师范大学自然科学学报》 CAS 北大核心 2017年第5期88-94,共7页
历史相依决策模型(HDDM)及历史相依决策过程(HDDP)是决策模型及相应的决策过程的一般情形.马氏决策模型(MDM)及马氏决策过程(MDP)是HDDM及HDDP的特殊情形.本文严格地建立了历史相依决策模型,并证明了相应的历史相依决策过程的存在性,证... 历史相依决策模型(HDDM)及历史相依决策过程(HDDP)是决策模型及相应的决策过程的一般情形.马氏决策模型(MDM)及马氏决策过程(MDP)是HDDM及HDDP的特殊情形.本文严格地建立了历史相依决策模型,并证明了相应的历史相依决策过程的存在性,证明是构造性的.作为HDDM及HDDP的特殊情形,建立了马氏决策模型(MDM),并构造了相应的马氏决策过程(MDP). 展开更多
关键词 历史相依决策模型的建立 历史相依决策过程的存在性和构造 马氏决策模型及马氏决策过程 马氏过程
在线阅读 下载PDF
马尔柯夫决策过程的存在性
18
作者 魏文元 《天津师大学报(自然科学版)》 1991年第2期9-13,共5页
本文讨论了马尔柯夫决策过程的存在性,并且给出了几个不同条件下的转移概率。
关键词 马氏决策过程 概率空间 存在性
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
19
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(mdp)
在线阅读 下载PDF
基于HMDP的无人机三维路径规划 被引量:8
20
作者 洪晔 房建成 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第1期100-103,共4页
路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV... 路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV航向改变频繁的缺点,提出一种基于状态聚类方法的HMDP(Hierarchical Markov Decision Processes)模型,并将其拓展到三维规划中.仿真实验证明:这种简单的规划模型可以有效解决UAV的三维全局路径规划问题,为其在实际飞行中的局部规划奠定了基础. 展开更多
关键词 无人机(UAV) 路径规划 马尔可夫决策过程(mdp) 分层马尔可夫决策过程(Hmdp) 仿真
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部