期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
1
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
在线阅读 下载PDF
基于连续时间马尔可夫过程的证券投资策略 被引量:1
2
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
在线阅读 下载PDF
基于离散Markov决策过程的发电公司多阶段决策 被引量:2
3
作者 张宏刚 宋依群 《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页
采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性. 展开更多
关键词 电力市场 离散时间Markov决策过程 决策问题
在线阅读 下载PDF
基于马尔科夫决策的目标选择策略 被引量:5
4
作者 雷霆 朱承 张维明 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页
目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。 展开更多
关键词 目标选择 目标体系 与或树 离散时间马尔科夫决策过程
在线阅读 下载PDF
离散时间多服务台排队系统 被引量:2
5
作者 禹海波 聂赞坎 《郑州大学学报(自然科学版)》 CAS 2001年第3期28-32,共5页
研究了离散时间多服务台排队系统 ,假定顾客到达过程为离散马尔可夫到达过程 ,系统中有 c个不相同的服务台 ,每个服务台对顾客的服务时间均服从离散位相型 ( PH)分布 .运用矩阵几何解理论 ,得到了系统的稳态队长分布 ,同时也给出了到达... 研究了离散时间多服务台排队系统 ,假定顾客到达过程为离散马尔可夫到达过程 ,系统中有 c个不相同的服务台 ,每个服务台对顾客的服务时间均服从离散位相型 ( PH)分布 .运用矩阵几何解理论 ,得到了系统的稳态队长分布 ,同时也给出了到达顾客所见队长和平均等待时间 . 展开更多
关键词 离散时间排队 多服务台排队 马尔可夫到达过程 位相型分布 矩阵几何解理论 稳态队长分布
在线阅读 下载PDF
风险概率准则下的非平稳马氏决策过程
6
作者 温馨 徐小雅 郭先平 《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页
本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性. 展开更多
关键词 非平稳离散马氏决策过程 风险概率准则 最优方程序列 首达时间 最优马氏策略
在线阅读 下载PDF
火控相控阵雷达的时间资源管理算法 被引量:9
7
作者 秦童 戴奉周 +1 位作者 刘宏伟 方明 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期545-550,共6页
对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,... 对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,综合考虑了测距与测速精度对跟踪误差产生影响。而后,采用马尔可夫决策的方法,对雷达照射目标的驻留时间与重访时间间隔进行求解。仿真结果表明,对于雷达场景中的目标数量较大情况下,相对于传统的雷达时间资源管理方法,该文提出的方法在保证跟踪精度符合要求的前提下,能够有效提高雷达最大可跟踪目标的数量。 展开更多
关键词 火控相控阵雷达 时间资源管理 马尔可夫决策过程
在线阅读 下载PDF
企业知识系统柔性战略的决策模型 被引量:14
8
作者 张新武 刘仲英 《管理科学学报》 CSSCI 2002年第6期65-70,共6页
通过形式化的模型,利用马尔可夫链过程描述企业知识状态的转移,通过对不同知识战略变化的净现值比较,得出知识战略的优劣.从柔性的时间维度与范围维度研究企业在3类不同知识状态下,所采用的知识状态变化的战略决策.
关键词 柔性战略 企业知识系统 决策模型 马尔可夫过程 时间维度 范围维度 净现值
在线阅读 下载PDF
基于深度强化学习的新能源配电网双时间尺度无功电压优化 被引量:24
9
作者 李鹏 姜磊 +2 位作者 王加浩 夏辉 潘有朋 《中国电机工程学报》 EI CSCD 北大核心 2023年第16期6255-6265,共11页
新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一... 新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一种双时间尺度配电网无功电压优化方法。该方法将电力系统无功电压优化问题转化为马尔可夫决策过程,统筹考虑无功补偿设备的差异化调节特性和不同深度强化学习算法的特点,设计针对离散型设备和连续型设备协调控制的双时间尺度优化方案。其中,长时间尺度上制定并联电容器组投切计划,以调整电压偏移,同时最小化全系统网损;短时间尺度上设置滚动预测窗,制定SVG出力计划,以跟踪电压变化,解决新能源并网带来的配电网电压频繁波动问题。最后通过IEEE33节点拓展系统验证该数据驱动方案在无功电压优化的实现速度和效果上所具有的优势。 展开更多
关键词 新能源配电网 深度强化学习 时间尺度 无功电压优化 马尔可夫决策过程
在线阅读 下载PDF
配电系统双时间尺度电压管理的深度强化学习方法 被引量:7
10
作者 冯昌森 张瑜 +3 位作者 谢路耀 文福拴 张凯怡 张有兵 《电力系统自动化》 EI CSCD 北大核心 2022年第12期202-209,共8页
随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个... 随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。 展开更多
关键词 配电系统 电压管理 可再生能源发电 时间尺度 马尔可夫决策过程 深度强化学习
在线阅读 下载PDF
基于随机恢复时间的骨盆骨折创伤患者手术分配优化 被引量:2
11
作者 李清 苏强 邓国英 《运筹与管理》 CSSCI CSCD 北大核心 2023年第8期51-56,共6页
骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间... 骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间,以最大期望收益为目标建立马尔可夫决策过程模型;根据医院实际情况设计实验,采用后向迭代算法求解得到最优分配策略;改变惩罚函数形式和恢复期患者数量,制定不同场景的分配策略,提高医疗资源利用率。采用二次惩罚函数时,最优分配曲线呈现开关曲线形式;恢复期患者数量越多,其享有的优先权越高。 展开更多
关键词 骨盆骨折 马尔可夫决策过程 随机恢复时间
在线阅读 下载PDF
考虑不确定因素的多模式城市交通网络路径决策 被引量:4
12
作者 李浩楠 曹成铉 +1 位作者 柳雨彤 冯紫嫣 《科学技术与工程》 北大核心 2019年第12期319-324,共6页
由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提... 由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提方法应用到北京市多模式城市交通网络。结果显示,不同出发时间需要不同的路径决策以达到最小出行时间。基于马尔可夫决策过程的路径决策方法的有效性得到验证,它可以为出行者路线选择提供更合理的指示。 展开更多
关键词 多模式交通网络 路线决策 马尔可夫决策过程 出行时间
在线阅读 下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
13
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
在线阅读 下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
14
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
在线阅读 下载PDF
动态武器目标分配问题的研究现状与展望 被引量:47
15
作者 刘传波 邱志明 +1 位作者 吴玲 王航宇 《电光与控制》 北大核心 2010年第11期43-48,共6页
动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段... 动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段求解法、马尔可夫决策过程及anytime算法等,提出了现阶段对于DWTA问题研究的不足和未来尚需解决的问题,并指出在充分考虑时空约束的基础上,寻求一种具有任意时间特性且能灵活处理随机事件的智能算法是解决DWTA问题的有效途径。 展开更多
关键词 动态武器目标分配 马尔可夫决策过程 时间 ANYTIME算法
在线阅读 下载PDF
基于近似动态规划的模具项目调度 被引量:4
16
作者 王小明 陈庆新 毛宁 《计算机集成制造系统》 EI CSCD 北大核心 2020年第6期1691-1701,共11页
模具制造工程中普遍存在任务工期不确定,以及多并行项目共享和竞争企业有限资源的情形,目前尚缺乏求解这类项目调度问题的方法。鉴于此,考虑了部分任务工期服从已知离散分布下的模具项目调度问题,基于马尔可夫决策过程理论构建了以总加... 模具制造工程中普遍存在任务工期不确定,以及多并行项目共享和竞争企业有限资源的情形,目前尚缺乏求解这类项目调度问题的方法。鉴于此,考虑了部分任务工期服从已知离散分布下的模具项目调度问题,基于马尔可夫决策过程理论构建了以总加权拖期成本期望最小为优化目标的数学模型。针对传统随机动态规划在求解大规模问题时面临的维数灾,分别提出了基于经典优先规则、遗传算法和近似动态规划的求解方法。通过随机生成的项目算例验证了所构建模型和方法的有效性。结果表明,所提近似方法能够在耗费较少计算资源的情形下获得可接受的次优或最优解,可用于求解工程实际问题。 展开更多
关键词 模具 项目调度 离散工期 马尔可夫决策过程 近似动态规划 优先规则
在线阅读 下载PDF
基于可恢复冲击效应的继电器可靠性评估方法 被引量:6
17
作者 李文华 桑海爽 +1 位作者 项石虎 孙鑫亮 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第11期200-209,共10页
继电器是航天器等系统的关键元件之一,精准评估其可靠性对保证全系统的安全稳定至关重要。现有继电器可靠性研究未考虑在材料和环境等因素的影响下,性能状态冲击性变化存在可恢复性的特点,可能会造成评估结果不准确。为解决此问题,综合... 继电器是航天器等系统的关键元件之一,精准评估其可靠性对保证全系统的安全稳定至关重要。现有继电器可靠性研究未考虑在材料和环境等因素的影响下,性能状态冲击性变化存在可恢复性的特点,可能会造成评估结果不准确。为解决此问题,综合考虑各性能参数的自然退化过程、可恢复冲击效应、退化相关性,基于维纳过程和离散时间马尔可夫链的建模理论,提出了适用于继电器的退化和冲击模型。进而,针对同时估计模型全部参数存在困难的问题,提出了一种多阶段的模型参数估计方法。并且,针对可靠性评估,提出了一种基于蒙特卡洛技术的可靠度近似计算方法。结果表明,所提出的可靠性评估方法精度较高,其拟合优度为0.1037,比现有方法提高了约70%。 展开更多
关键词 继电器 可恢复冲击效应 维纳过程 离散时间马尔可夫 可靠性评估
在线阅读 下载PDF
Web服务组合的马氏策略规划
18
作者 曾伟 胡垚 《计算机工程与科学》 CSCD 北大核心 2009年第3期153-155,共3页
针对Web服务存在的业务逻辑与服务质量的不确定性,以及时序、时间窗约束,本文提出了利用马尔可夫决策理论来解决Web服务组合中最优策略规划问题的方法。该方法首先将Web服务组合描述为有向无环图表示的任务网络,网络中每个节点代表一个... 针对Web服务存在的业务逻辑与服务质量的不确定性,以及时序、时间窗约束,本文提出了利用马尔可夫决策理论来解决Web服务组合中最优策略规划问题的方法。该方法首先将Web服务组合描述为有向无环图表示的任务网络,网络中每个节点代表一个任务。任务是由相应的Web服务来实现,任务之间的弧线代表任务间时序的约束,任务执行应满足时间窗的约束。在此基础上,建立Web服务组合的马尔可夫决策模型,从而获得Web服务组合的最优策略。 展开更多
关键词 WEB服务组合 马尔可夫决策过程 时间 策略规划
在线阅读 下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
19
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 受控排队系统 平均最优平稳策略 约束平均最优策略
在线阅读 下载PDF
基于认知无线电的频谱感知及TCP跨层设计
20
作者 林正红 江虹 殷明勇 《计算机工程》 CAS CSCD 2014年第7期33-37,共5页
目前针对认知无线电网络中TCP协议的研究大多假设次用户的感知是完美的,且未综合考虑TCP协议参数和感知时间等因素对TCP性能的影响。针对上述问题,在TCP Westwood协议的基础上,提出一种基于传输预判的改进TCP协议,建立基于认知无线电网... 目前针对认知无线电网络中TCP协议的研究大多假设次用户的感知是完美的,且未综合考虑TCP协议参数和感知时间等因素对TCP性能的影响。针对上述问题,在TCP Westwood协议的基础上,提出一种基于传输预判的改进TCP协议,建立基于认知无线电网络的TCP吞吐量跨层模型。采用部分可观测马尔可夫决策过程对有感知误差的次用户频谱感知和接入过程进行建模,将其转换为信念状态马尔可夫决策过程,使用Sarsa(λ)算法对其进行求解,以在最大化TCP吞吐量的同时得到最优感知时间。仿真结果表明,与TCP Reno和TCP Newreno协议相比,使用该方案所得的TCP拥塞窗口值分别提高约42%和27%,平均吞吐量分别提高约5.7%和5.5%,当感知时间为0.2s时,所得的TCP平均吞吐量为最大值。 展开更多
关键词 TCP Westwood协议 部分可观测马尔可夫决策过程 频谱感知 Sarsa(λ)算法 TCP吞吐量 感知时间
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部