期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于连续时间半马尔可夫决策过程的Option算法 被引量:3
1
作者 唐昊 张晓艳 +1 位作者 韩江洪 周雷 《计算机学报》 EI CSCD 北大核心 2014年第9期2027-2037,共11页
针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过... 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势. 展开更多
关键词 连续时间半Markov决策过程 分层强化学习 Q学习
在线阅读 下载PDF
基于连续时间马尔可夫过程的证券投资策略 被引量:1
2
作者 崔海波 赵希男 +1 位作者 梁好 潘德惠 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第11期1100-1103,共4页
在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望... 在假设股票价格所处状态间的转移概率连续变化情况下,得到了股票价格转移概率的常微分方程组;考虑股票在不同状态之间转移所获得报酬及股票在状态发生转移之前单位时间所获得的报酬的情况下,给出了股票在不同状态之间发生转移的总期望报酬模型·通过对总期望报酬模型进行变换得到了策略改进算法·同时得到了转移系数矩阵一般表达式,给出了针对具体股票状态转移时间间隔的指数分布并对其进行了估计· 展开更多
关键词 证券投资策略 连续时间马尔可夫过程 转移系数矩阵 报酬 决策
在线阅读 下载PDF
基于马尔可夫决策过程的MES系统动态调度方法 被引量:2
3
作者 赵海峰 姜兴宇 +1 位作者 王贵和 王宛山 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第8期1178-1181,共4页
针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定... 针对以事件为驱动的网络化制造环境下生产系统的特征,扩展马尔可夫决策过程,根据生产制造的特点进行动态生产调度方法的研究.以面向用户标准为基础,用制造系统响应时间来评价调度算法在不同规则下具有的性能特点;根据分析结果分别确定各种调度规则在预期时间内能够达到生产优化调度或满意调度的可能程度.将调度规则与实际生产相结合,设计网络化制造环境下动态调度指令单管理系统,实现制造管理的信息化.本系统可以按照用户需求实时反映生产制造信息;根据企业情况确定调度规则,生成调度决策方案,最大程度保证企业利益. 展开更多
关键词 网络化制造 马尔可夫决策过程 制造执行系统(MES) 动态调度 系统响应时间 指令单管理
在线阅读 下载PDF
连续时间部分可观Markov决策过程的策略梯度估计 被引量:1
4
作者 唐波 李衍杰 殷保群 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第7期805-808,共4页
针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数... 针对连续时间部分可观Markov决策过程(CTPOMDP)的优化问题,本文提出一种策略梯度估计方法.运用一致化方法,将离散时间部分可观Markov决策过程(DTPOMDP)的梯度估计算法推广到连续时间模型,研究了算法的收敛性和误差估计问题,并用一个数值例子来说明该算法的应用. 展开更多
关键词 连续时间部分可观Markov决策过程 策略梯度估计 一致化 误差界
在线阅读 下载PDF
连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析 被引量:1
5
作者 朱益民 《浙江工业大学学报》 CAS 1999年第2期155-159,共5页
讨论了连续时间马氏决策过程中最优平稳策略对折扣因子的灵敏度问题,并将之化为一个多项式问题来求解。
关键词 马氏决策过程 最优策略 连续时间
在线阅读 下载PDF
随机模型检测连续时间Markov过程 被引量:2
6
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间Markov决策过程 模型检测 可信验证 可达概率
在线阅读 下载PDF
Q(f)-过程非唯一时连续时间折扣目标MDP
7
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1996年第3期7-12,共6页
考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的... 考虑的是可数状态空间连续时间MDP的折扣模型,与以往不同的是,我们放弃了由策略f所确定的Q(f)-过程唯一的传统假设.而首次考虑Q(f)-过程非唯一的情形,借助于Q-过程的构造理论,用拓扑分析的方法,证明了最优策略的存在性. 展开更多
关键词 连续时间 折扣目标 Q过程 马氏决策规划
在线阅读 下载PDF
连续时间可重入生产系统调度策略灵敏度分析 被引量:2
8
作者 王利存 郑应平 《计算机集成制造系统-CIMS》 EI CSCD 北大核心 2001年第2期10-14,共5页
对平均费用型连续时间马尔可夫过程 ,由其泊松方程 ,推导了系统品质指标对系统参数的梯度公式 ,并给出了相应的梯度估计算法 ;对可重入排队网络建立马尔可夫模型 ,通过仿真单个样本轨迹 ,应用给出的算法 ,研究了连续时间可重入生产系统... 对平均费用型连续时间马尔可夫过程 ,由其泊松方程 ,推导了系统品质指标对系统参数的梯度公式 ,并给出了相应的梯度估计算法 ;对可重入排队网络建立马尔可夫模型 ,通过仿真单个样本轨迹 ,应用给出的算法 ,研究了连续时间可重入生产系统品质指标对参数的灵敏度。 展开更多
关键词 可重入生产系统 调度策略 灵敏度分析 连续时间 马尔可夫过程
在线阅读 下载PDF
火控相控阵雷达的时间资源管理算法 被引量:9
9
作者 秦童 戴奉周 +1 位作者 刘宏伟 方明 《系统工程与电子技术》 EI CSCD 北大核心 2016年第3期545-550,共6页
对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,... 对于火控相控阵雷达,可以灵活地调整波束的指向方向,从而调整雷达用于跟踪的时间资源。针对这样的特性,提出了一种雷达用于跟踪的时间资源的管理算法,以提升雷达最大可跟踪目标的数量。该文以概率密度函数来描述雷达对目标的跟踪误差,综合考虑了测距与测速精度对跟踪误差产生影响。而后,采用马尔可夫决策的方法,对雷达照射目标的驻留时间与重访时间间隔进行求解。仿真结果表明,对于雷达场景中的目标数量较大情况下,相对于传统的雷达时间资源管理方法,该文提出的方法在保证跟踪精度符合要求的前提下,能够有效提高雷达最大可跟踪目标的数量。 展开更多
关键词 火控相控阵雷达 时间资源管理 马尔可夫决策过程
在线阅读 下载PDF
企业知识系统柔性战略的决策模型 被引量:14
10
作者 张新武 刘仲英 《管理科学学报》 CSSCI 2002年第6期65-70,共6页
通过形式化的模型,利用马尔可夫链过程描述企业知识状态的转移,通过对不同知识战略变化的净现值比较,得出知识战略的优劣.从柔性的时间维度与范围维度研究企业在3类不同知识状态下,所采用的知识状态变化的战略决策.
关键词 柔性战略 企业知识系统 决策模型 马尔可夫过程 时间维度 范围维度 净现值
在线阅读 下载PDF
基于深度强化学习的新能源配电网双时间尺度无功电压优化 被引量:29
11
作者 李鹏 姜磊 +2 位作者 王加浩 夏辉 潘有朋 《中国电机工程学报》 EI CSCD 北大核心 2023年第16期6255-6265,共11页
新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一... 新能源大量接入配电网,其波动性及间歇性容易导致配电网电压的频繁波动问题。传统基于模型的无功电压优化方法高度依托于电网的精准建模,其求解精度与计算速度难以满足含新能源配电网对于电压控制的要求。该文基于深度强化学习,提出一种双时间尺度配电网无功电压优化方法。该方法将电力系统无功电压优化问题转化为马尔可夫决策过程,统筹考虑无功补偿设备的差异化调节特性和不同深度强化学习算法的特点,设计针对离散型设备和连续型设备协调控制的双时间尺度优化方案。其中,长时间尺度上制定并联电容器组投切计划,以调整电压偏移,同时最小化全系统网损;短时间尺度上设置滚动预测窗,制定SVG出力计划,以跟踪电压变化,解决新能源并网带来的配电网电压频繁波动问题。最后通过IEEE33节点拓展系统验证该数据驱动方案在无功电压优化的实现速度和效果上所具有的优势。 展开更多
关键词 新能源配电网 深度强化学习 时间尺度 无功电压优化 马尔可夫决策过程
在线阅读 下载PDF
Polish空间上的折扣马氏过程量子化策略的渐近优化
12
作者 吴晓 孔荫莹 郭圳滨 《数学物理学报(A辑)》 CSCD 北大核心 2022年第2期594-604,共11页
该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对... 该文研究了Polish空间上、带折扣因子的连续时间马尔可夫决策过程(CTMDPs)的量子化平稳策略的渐近最优性问题.首先,建立了折扣最优方程(DOE)及其解的存在性和唯一性.其次,在适当的条件下证明了最优确定性平稳策略的存在性.此外,为了对行动空间进行离散化,构造了一列量子化策略,利用有限行动空间的策略来逼近一般(Polish)空间上的折扣CTMDPs最优平稳策略.最后,通过一个例子来说明该文的渐近逼近结果. 展开更多
关键词 连续时间马尔可夫决策过程 依赖状态折扣因子 折扣准则 量子化平稳策略 渐近最优性
在线阅读 下载PDF
配电系统双时间尺度电压管理的深度强化学习方法 被引量:10
13
作者 冯昌森 张瑜 +3 位作者 谢路耀 文福拴 张凯怡 张有兵 《电力系统自动化》 EI CSCD 北大核心 2022年第12期202-209,共8页
随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个... 随着可再生能源发电渗透率的不断增大,配电系统的电压越限问题愈发频繁,亟需高效的电压管理策略以保证配电系统的安全经济运行。首先,文中建立了双时间尺度的配电系统电压管理模型,实现不同时间响应特性的调压设备协调控制。然后,将2个时间尺度的电压管理模型建模为马尔可夫决策过程,在有效考虑两者的时间耦合关系和可控设备物理特性的基础上,分别利用多智能体深度确定性策略梯度算法和双深度Q网络算法求解模型,实现了双时间尺度的实时电压管理。最后,基于IEEE 33节点配电系统进行算例分析,验证了所提模型和方法的有效性。 展开更多
关键词 配电系统 电压管理 可再生能源发电 时间尺度 马尔可夫决策过程 深度强化学习
在线阅读 下载PDF
基于随机恢复时间的骨盆骨折创伤患者手术分配优化 被引量:2
14
作者 李清 苏强 邓国英 《运筹与管理》 CSSCI CSCD 北大核心 2023年第8期51-56,共6页
骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间... 骨盆骨折是一种高能量创伤且通常伴有多发伤,手术是主要的治疗方法,本文制定并优化创伤患者的手术分配计划。首先根据患者入院时的生命稳定状态,将手术患者分为恢复期和计划期两类;针对两类患者的不同特点,为恢复期患者设置随机恢复时间,以最大期望收益为目标建立马尔可夫决策过程模型;根据医院实际情况设计实验,采用后向迭代算法求解得到最优分配策略;改变惩罚函数形式和恢复期患者数量,制定不同场景的分配策略,提高医疗资源利用率。采用二次惩罚函数时,最优分配曲线呈现开关曲线形式;恢复期患者数量越多,其享有的优先权越高。 展开更多
关键词 骨盆骨折 马尔可夫决策过程 随机恢复时间
在线阅读 下载PDF
考虑不确定因素的多模式城市交通网络路径决策 被引量:4
15
作者 李浩楠 曹成铉 +1 位作者 柳雨彤 冯紫嫣 《科学技术与工程》 北大核心 2019年第12期319-324,共6页
由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提... 由于时间的波动性与突发事件的影响,多模式城市交通网络的运行时常伴随着各种不确定性情况的发生。通过考虑多模式交通网络的出行特点与交通网络不同的运行状态,建立了基于马尔可夫决策过程的多模式交通网络的路线决策模型与算法,所提方法应用到北京市多模式城市交通网络。结果显示,不同出发时间需要不同的路径决策以达到最小出行时间。基于马尔可夫决策过程的路径决策方法的有效性得到验证,它可以为出行者路线选择提供更合理的指示。 展开更多
关键词 多模式交通网络 路线决策 马尔可夫决策过程 出行时间
在线阅读 下载PDF
干扰惰性序列的连续决策模型模糊测试
16
作者 吴泊逾 王凯锐 +1 位作者 王亚文 王俊杰 《软件学报》 2025年第10期4645-4659,共15页
人工智能技术的应用已经从分类、翻译、问答等相对静态的任务延伸到自动驾驶、机器人控制、博弈等需要和环境进行一系列“交互-行动”才能完成的相对动态的任务.执行这类任务的模型核心是连续决策算法,由于面临更高的环境和交互的不确定... 人工智能技术的应用已经从分类、翻译、问答等相对静态的任务延伸到自动驾驶、机器人控制、博弈等需要和环境进行一系列“交互-行动”才能完成的相对动态的任务.执行这类任务的模型核心是连续决策算法,由于面临更高的环境和交互的不确定性,而且这些任务往往是安全攸关的系统,其测试技术面临极大的挑战.现有的智能算法模型测试技术主要集中在单一模型的可靠性、复杂任务多样性测试场景生成、仿真测试等方向,对连续决策模型的“交互-行动”决策序列没有关注,导致无法适应,或者成本效益低下.提出一个干预惰性“交互-行动”决策序列执行的模糊测试方法IIFuzzing,在模糊测试框架中,通过学习“交互-行动”决策序列模式,预测不会触发失效事故的惰性“交互-行动”决策序列,并中止这类序列的测试执行,以提高测试效能.在4种常见的测试配置中进行实验评估,结果表明,与最新的针对连续决策模型的模糊测试相比,IIFuzzing可以在相同时间内多探测16.7%–54.5%的失效事故,并且事故的多样性也优于基线方法. 展开更多
关键词 连续决策模型 马尔可夫决策过程 模糊测试
在线阅读 下载PDF
耦合级联失效系统可靠性建模与分析
17
作者 王琦 贾旭杰 +1 位作者 翁宇如 田美玉 《运筹与管理》 CSSCI CSCD 北大核心 2024年第1期90-94,共5页
现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背... 现实生活中绝大多数系统并不是孤立存在的,如通信网和电网,它们相互依存、相互影响,这种系统间的耦合关系使得级联失效范围变得更广,导致级联过程更为复杂,从而影响整个系统可靠性及其正常运行。针对此问题,论文以电力通信系统为研究背景,给出了耦合系统转移率的解析表达,分析了元件负载增加影响元件故障率的级联失效效应和子系统间的相依关系,建立了耦合级联失效系统的可靠性模型,并证明了系统可靠度的计算方法和解析式结果。并且利用一个算例展示了耦合系统发生级联失效的具体过程,以验证该方法的有效性与可行性。本文为基于负载和时间的耦合系统的级联研究提供了新的思路,可拓展至不同的耦合关系、耦合强度以及不同的负载分配模式来进一步研究系统的级联失效过程以及可靠度分析。 展开更多
关键词 相依关系 耦合系统 级联失效 连续时间马尔可夫过程 可靠度
在线阅读 下载PDF
受控排队系统的平均最优与约束平均最优 被引量:1
18
作者 张兰兰 郭先平 《控制理论与应用》 EI CAS CSCD 北大核心 2009年第2期139-144,共6页
根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与... 根据连续时间马尔可夫决策过程的平均准则,给出了一种特殊的马尔可夫决策过程—受控排队系统平均最优以及约束最优的新条件.这个新条件仅使用模型的初始数据,但利用了生灭过程的遍历性理论.可以证明受控排队系统存在平均最优平稳策略与约束平均最优策略. 展开更多
关键词 连续时间马尔可夫决策过程 平均准则 受控排队系统 平均最优平稳策略 约束平均最优策略
在线阅读 下载PDF
动态武器目标分配问题的研究现状与展望 被引量:47
19
作者 刘传波 邱志明 +1 位作者 吴玲 王航宇 《电光与控制》 北大核心 2010年第11期43-48,共6页
动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段... 动态武器目标分配(DWTA)是现代指控系统亟待解决的重要理论问题,由于时间因素和随机事件的影响,使得解决该问题的复杂程度进一步增加。在介绍DWTA问题研究基本内容的基础上,重点归纳和分析了目前解决DW-TA问题的一系列方法,包括分阶段求解法、马尔可夫决策过程及anytime算法等,提出了现阶段对于DWTA问题研究的不足和未来尚需解决的问题,并指出在充分考虑时空约束的基础上,寻求一种具有任意时间特性且能灵活处理随机事件的智能算法是解决DWTA问题的有效途径。 展开更多
关键词 动态武器目标分配 马尔可夫决策过程 时间 ANYTIME算法
在线阅读 下载PDF
互联电网CPS调节指令动态最优分配Q–学习算法 被引量:25
20
作者 余涛 王宇名 刘前进 《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页
控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。 展开更多
关键词 Q-学习 随机最优 离散时间马尔可夫决策过程 控制性能标准 自动发电控制
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部