期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于连续时间马尔可夫过程的证券投资策略 被引量:1
1
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
在线阅读 下载PDF
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
2
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
在线阅读 下载PDF
基于强化学习的连续优化综述
3
作者 张峰 《信息化研究》 2025年第2期1-8,共8页
进化算法在过去几十年中是求解连续优化问题的流行方法,进化算法的搜索过程可以被建模为马尔可夫决策过程。随着强化学习的广泛应用,为了能够更好地求解连续优化问题,许多学者尝试将强化学习整合到进化算法的框架中,设计出了各类基于强... 进化算法在过去几十年中是求解连续优化问题的流行方法,进化算法的搜索过程可以被建模为马尔可夫决策过程。随着强化学习的广泛应用,为了能够更好地求解连续优化问题,许多学者尝试将强化学习整合到进化算法的框架中,设计出了各类基于强化学习的连续优化算法。本文对各类基于强化学习的连续优化算法工作进行介绍分析,为读者后续从事该领域工作提供参考。 展开更多
关键词 进化算法 连续优化 马尔可夫决策过程 强化学习
在线阅读 下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
4
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
在线阅读 下载PDF
基于强化学习方法的航班滑出时间预测研究 被引量:3
5
作者 杜婧涵 胡明华 +1 位作者 尹嘉男 张魏宁 《航空计算技术》 2022年第6期26-29,34,共5页
航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析... 航班的滑出时间是描述机场场面运行状态和周转效率的关键指标,其不确定性会降低航班到达目的机场的可预见性,进而带来航空资源的低效利用和燃油耗费问题。研究了一种基于强化学习的航班滑出时间预测模型。从交通状态和时序特性方面分析并提取影响滑出时间的主要特征集;利用马尔科夫决策过程建模滑出时间预测问题,并通过强化学习算法进行模型训练和测试。在真实机场场面运行数据中进行的实验表明,所提出方法不仅能够准确预测单个航班的滑出时间,还能够捕捉机场场面整体的滑行态势的变化情况,为智慧机场的建设提供新思路。 展开更多
关键词 机场场面 智慧机场 航班滑出时间 强化学习 马尔可夫决策过程
在线阅读 下载PDF
基于随机恢复时间的骨盆骨折创伤患者手术分配优化 被引量:1
6
作者 李清 苏强 邓国英 《运筹与管理》 CSSCI CSCD 北大核心 2023年第8期51-56,共6页
骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间... 骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间,以最大期望收益为目标建立马尔可夫决策过程模型;根据医院实际情况设计实验,采用后向迭代算法求解得到最优分配策略;改变惩罚函数形式和恢复期患者数量,制定不同场景的分配策略,提高医疗资源利用率。采用二次惩罚函数时,最优分配曲线呈现开关曲线形式;恢复期患者数量越多,其享有的优先权越高。 展开更多
关键词 骨盆骨折 马尔可夫决策过程 随机恢复时间
在线阅读 下载PDF
耦合级联失效系统可靠性建模与分析
7
作者 王琦 贾旭杰 +1 位作者 翁宇如 田美玉 《运筹与管理》 CSSCI CSCD 北大核心 2024年第1期90-94,共5页
现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背... 现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背景,给出了耦合系统转移率的解析表达,分析了元件负载增加影响元件故障率的级联失效效应和子系统间的相依关系,建立了耦合级联失效系统的可靠性模型,并证明了系统可靠度的计算方法和解析式结果。并且利用一个算例展示了耦合系统发生级联失效的具体过程,以验证该方法的有效性与可行性。本文为基于负载和时间的耦合系统的级联研究提供了新的思路,可拓展至不同的耦合关系、耦合强度以及不同的负载分配模式来进一步研究系统的级联失效过程以及可靠度分析。 展开更多
关键词 相依关系 耦合系统 级联失效 连续时间马尔可夫过程 可靠度
在线阅读 下载PDF
动态武器目标分配问题的研究现状与展望 被引量:47
8
作者 刘传波 邱志明 +1 位作者 吴玲 王航宇 《电光与控制》 北大核心 2010年第11期43-48,共6页
动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段... 动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段求解法、马尔可夫决策过程及anytime算法等,提出了现阶段对于DWTA问题研究的不足和未来尚需解决的问题,并指出在充分考虑时空约束的基础上,寻求一种具有任意时间特性且能灵活处理随机事件的智能算法是解决DWTA问题的有效途径。 展开更多
关键词 动态武器目标分配 马尔可夫决策过程 时间 ANYTIME算法
在线阅读 下载PDF
事件驱动Q学习在呼叫接入控制中的应用
9
作者 任付彪 周雷 +1 位作者 马学森 魏振春 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第1期76-79,共4页
文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学... 文章研究了计时报酬方式下最优呼叫接入控制问题,建立了系统的连续时间Markov决策过程(CT-MDP),根据系统特征引入后状态Q值更新方法,给出呼叫接入控制问题基于事件驱动Q学习优化算法,并给出一个数值仿真实例;仿真结果表明,该算法比Q学习具有收敛速度快、存储空间小的优势;根据实验结果分析了在最优策略下业务拒绝率与业务特征的关系。 展开更多
关键词 连续时间Markov决策过程 事件驱动Q学习 呼叫接入控制
在线阅读 下载PDF
综合速率方法与土壤生态指数分析
10
作者 李洋 吴新一 任继周 《草业学报》 CSCD 1990年第1期11-16,共6页
本文概述了综合速率方法(IRM).该项建模技术可用于研究复杂程度很高的生态系统.文中简略介绍了运用 IRM 建模技术完成的土壤生态子模型.后者是包括作物、饲料、动物生产及土壤本身作为子系统参与的一个混合农业系统整体模型的组成部分.... 本文概述了综合速率方法(IRM).该项建模技术可用于研究复杂程度很高的生态系统.文中简略介绍了运用 IRM 建模技术完成的土壤生态子模型.后者是包括作物、饲料、动物生产及土壤本身作为子系统参与的一个混合农业系统整体模型的组成部分.整体模型的目的是用于中国西北黄土高原农业生态系统运行机制及管理策略的研究(李洋等,1987).文中提出"土壤生态指数"的概念.动态地体现了土体、作物类型及环境等系统因子对土壤肥力所产生的综合效应.土壤子模型的参数分析和整体模型的摸拟过程在文中作了扼要的讨论.摸拟结果表明,土壤的潜势生产力随着土地利用结构的变化将表现显著的差异,其差异程度又随地形的变化而有所不同. 展开更多
关键词 连续时间马尔可夫过程 生态模型 草地农业生态系统 初级生产 次级生产
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部