检索结果-维普期刊中文期刊服务平台

基于马尔科夫决策的目标选择策略被引量：5: 1; 作者雷霆朱承张维明《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页; 目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模... 展开更多; 关键词目标选择目标体系与或树离散时间马尔科夫决策过程; 在线阅读下载PDF 职称材料

基于马尔科夫过程的钢骨混凝土耐久性预测被引量：2: 2; 作者哈娜王连广高学涛《混凝土》 CAS CSCD 北大核心 2009年第9期50-52,共3页; 为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨... 展开更多; 关键词时间连续状态离散马尔科夫过程钢骨混凝土结构耐久性预测; 在线阅读下载PDF 职称材料

基于离散Markov决策过程的发电公司多阶段决策被引量：2: 3; 作者张宏刚宋依群《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页; 采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换... 展开更多; 关键词电力市场离散时间Markov决策过程决策问题; 在线阅读下载PDF 职称材料

风险概率准则下的非平稳马氏决策过程: 4; 作者温馨徐小雅郭先平《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页; 本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假... 展开更多; 关键词非平稳离散马氏决策过程风险概率准则最优方程序列首达时间最优马氏策略; 在线阅读下载PDF 职称材料

一种基于随机投影的贝叶斯时间差分算法被引量：1: 5; 作者刘全于俊 +2 位作者王辉傅启明朱斐《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页; 在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来... 展开更多; 关键词强化学习马尔科夫决策过程高斯过程随机投影时间差分算法; 在线阅读下载PDF 职称材料

互联电网CPS调节指令动态最优分配Q–学习算法被引量：25: 6; 作者余涛王宇名刘前进《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页; 控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看... 展开更多; 关键词 Q-学习随机最优离散时间马尔可夫决策过程控制性能标准自动发电控制; 在线阅读下载PDF 职称材料

基于POMDP的认知无线电自适应频谱感知算法被引量：12: 7; 作者许瑞琛蒋挺《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页; 针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process... 展开更多; 关键词部分可观测马尔科夫决策过程自适应感知数据传输时间冲突概率频谱利用率; 在线阅读下载PDF 职称材料

基于面向对象的信息系统风险评估方法被引量：5: 8; 作者王桢珍武小悦谢永强《计算机工程与应用》 CSCD 北大核心 2009年第30期92-94,112,共4页; 风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导... 展开更多; 关键词风险评估面向对象体系结构离散时间马尔科夫过程; 在线阅读下载PDF 职称材料

题名基于马尔科夫决策的目标选择策略被引量：5: 1; 作者雷霆朱承张维明; 机构国防科技大学信息系统工程重点实验室军事科学院运筹所; 出处《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期161-167,共7页; 基金国家自然科学基金资助项目(61273322 71001105 91024006); 文摘目标选择是军事计划的关键要素之一。基于马尔科夫决策方法,解决具有复杂目标间关联的多阶段目标选择问题。使用与或树描述目标体系各层状态间的影响关联,并以目标体系整体失效为求解目的,建立了基于离散时间MDP的多阶段打击目标选择模型。在LRTDP算法基础上提出一种启发式方法,通过判断从当前目标体系状态到达体系失效状态的演化过程中的可能资源消耗和失败概率,来提供对当前状态的评估值,该方法能有效排除问题搜索空间中不能到达体系失效目的的中间状态,压缩了由于目标间复杂关联而增长的巨大状态空间。用实验验证了该方法有效性,实验结果表明,该方法直观实用,对目标间具有复杂关联关系的目标打击决策有一定参考价值。; 关键词目标选择目标体系与或树离散时间马尔科夫决策过程; Keywords target selecting target system of system and-or tree discrete time Markov decision process.; 分类号 E917 [军事]; 在线阅读下载PDF 职称材料

题名基于马尔科夫过程的钢骨混凝土耐久性预测被引量：2: 2; 作者哈娜王连广高学涛; 机构东北大学资源与土木工程学院; 出处《混凝土》 CAS CSCD 北大核心 2009年第9期50-52,共3页; 基金辽宁省高速公路桥梁管理系统推广应用技术研究(20080809) 辽宁省重点实验室资助项目(JG-200601); 文摘为了保证钢骨混凝土结构在服役期内完成的预定功能,掌握钢骨混凝土结构的退化过程,需要对钢骨混凝土结构进行预测。在总结国内外资料的基础上,运用时间连续状态离散马尔科夫过程的齐次泊松和非齐次泊松理论,给出了相关概念,总结了钢骨混凝土结构的预测过程,并采用算例实现了钢骨混凝土结构耐久性的预测,得到了等级与时间的关系曲线。研究结果表明:齐次泊松和非齐次泊松的预测结果相近,都是时间随着等级的增加而增加,预测结果也比较准确可靠。; 关键词时间连续状态离散马尔科夫过程钢骨混凝土结构耐久性预测; Keywords continuous time discrete state Markov process steel reinforced concrete structure durability prediction; 分类号 TU528.01 [建筑科学—建筑技术科学]; 在线阅读下载PDF 职称材料

题名基于离散Markov决策过程的发电公司多阶段决策被引量：2: 3; 作者张宏刚宋依群; 机构上海交通大学电气工程系; 出处《上海交通大学学报》 EI CAS CSCD 北大核心 2004年第8期1238-1240,1245,共4页; 文摘采用离散时间Markov决策过程(DTMDP)对以多阶段总利润最优为目标的发电公司决策问题进行研究.市场环境下,发电公司根据自身条件,其竞争策略可以是价格的接受者,也可以是价格的制定者.考虑了发电公司不同策略情况下市场均衡状态间的转换概率,分别给出了发电公司作为价格接受者和价格制定者时的多阶段决策模型.通过算例验证了所提模型的有效性和可行性.; 关键词电力市场离散时间Markov决策过程决策问题; Keywords Decision making Discrete time control systems Electric power systems Markov processes Optimization; 分类号 TM732 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

题名风险概率准则下的非平稳马氏决策过程: 4; 作者温馨徐小雅郭先平; 机构中山大学管理学院广东财经大学工商管理学院中山大学数学学院; 出处《应用概率统计》 CSCD 北大核心 2023年第4期589-603,共15页; 基金 The research was supported by the National Natural Science Foundation of China(Grant Nos.11931018,72101059) Guangdong Natural Science Foundation(Grant No.2020A1515010924).; 文摘本文研究一类非平稳离散马氏决策过程的风险概率最小化问题,其中转移概率和奖励函数随时间变化.与现有文献中的期望报酬/成本准则不同,本文考虑最小化系统在首次到达某个目标集之前获得的总报酬未能达到给定利润目标的概率.在合理的假设条件下,我们建立了相应的最优方程序列,验证了最优风险函数序列是最优方程序列的唯一解,并证明了最优马氏策略的存在性.; 关键词非平稳离散马氏决策过程风险概率准则最优方程序列首达时间最优马氏策略; Keywords nonstationary discrete-time Markov decision process risk probability criterion optimality equations first passage time optimal Markov policy; 分类号 O211.62 [理学—概率论与数理统计]; 在线阅读下载PDF 职称材料

题名一种基于随机投影的贝叶斯时间差分算法被引量：1: 5; 作者刘全于俊王辉傅启明朱斐; 机构苏州大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室软件新技术与产业化协同创新中心; 出处《电子学报》 EI CAS CSCD 北大核心 2016年第11期2752-2757,共6页; 基金国家自然科学基金(No.61272005 No.61303108 +8 种基金 No.61373094 No.61472262 No.61502323 No.61502329) No.SY201308); 文摘在强化学习方法中,大部分的算法都是基于值函数评估的算法.高斯过程时间差分算法利用贝叶斯方法来评估值函数,通过贝尔曼公式和贝叶斯规则,建立立即奖赏与值函数之间的概率生成模型.在状态空间中,通过在线核稀疏化并利用最小二乘方法来求解新样本的近似线性逼近,以提高算法的执行速度,但时间复杂度依然较高.针对在状态空间中近似状态的选择问题,在高斯过程框架下提出一种基于随机投影的贝叶斯时间差分算法,该算法利用哈希函数把字典状态集合中的元素映射成哈希值,根据哈希值进行分组,进而减少状态之间的比较.实验结果表明,该方法不仅能够提高算法的执行速度,而且较好地平衡了评估状态值函数精度和算法执行时间.; 关键词强化学习马尔科夫决策过程高斯过程随机投影时间差分算法; Keywords reinforcement learning markov decision process gaussian process random projection temporal differ-ence learning; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名互联电网CPS调节指令动态最优分配Q–学习算法被引量：25: 6; 作者余涛王宇名刘前进; 机构华南理工大学电力学院; 出处《中国电机工程学报》 EI CSCD 北大核心 2010年第7期62-69,共8页; 基金国家自然科学基金项目(50807016) 广东省自然科学基金项目(9151064101000049)~~; 文摘控制性能标准(control performance standard,CPS)下互联电网调度端的自动发电控制(automatic generation control,AGC)指令(简称CPS指令)到各类型AGC机组的动态优化分配是随机最优问题。将CPS指令分配的连续控制过程离散化,并可将其看作是一个离散时间马尔可夫决策过程,提出应用基于Q–学习的动态控制方法。根据优化目标的差异,设计不同的奖励函数,并将其引入到算法当中,有效结合水、火电机组的调节特性,并考虑水电机组的调节裕度,提高AGC系统调节能力。遗传算法和工程实用方法在标准两区域模型及南方电网模型的仿真研究显示,Q–学习有效提高了系统的适应性、鲁棒性和CPS考核合格率。; 关键词 Q-学习随机最优离散时间马尔可夫决策过程控制性能标准自动发电控制; Keywords Q-learning stochastic optimization discrete time Markov decision process control performance standard automatic generation control; 分类号 TM71 [电气工程—电力系统及自动化]; 在线阅读下载PDF 职称材料

题名基于POMDP的认知无线电自适应频谱感知算法被引量：12: 7; 作者许瑞琛蒋挺; 机构北京邮电大学信息与通信工程学院; 出处《通信学报》 EI CSCD 北大核心 2013年第6期49-56,共8页; 基金国家科技重大专项基金资助项目(2010ZX03006-006) 国家自然科学基金资助项目(61171176)~~; 文摘针对如何建立适合毫秒级频谱空洞场景的频谱感知机制这一问题,推导出最佳次级用户单次数据传输时间长度,解决了数据传输量最大化的问题;其次提出一种基于部分可观测马尔科夫决策过程(POMDP,partiallyobservable Markov decision process)的自适应频谱感知算法,解决了快速接入毫秒级频谱空洞的问题。该算法根据上一决策时段的信念向量和感知结果自适应确定在当前决策时段内进行频谱感知或数据传输行为。仿真结果表明,该自适应频谱感知算法能够有效控制次级用户和主用户的冲突概率并增加频谱利用率。; 关键词部分可观测马尔科夫决策过程自适应感知数据传输时间冲突概率频谱利用率; Keywords POMDP auto-adaptive spectrum sensing data transmission time collision probability spectrum utilization; 分类号 TN911.22 [电子电信—通信与信息系统]; 在线阅读下载PDF 职称材料

题名基于面向对象的信息系统风险评估方法被引量：5: 8; 作者王桢珍武小悦谢永强; 机构国防科技大学信息系统与管理学院中国电子设备系统工程公司研究所; 出处《计算机工程与应用》 CSCD 北大核心 2009年第30期92-94,112,共4页; 基金国家自然科学基金 No.70771109 国家部委预研项目~~; 文摘风险评估是信息系统安全保证的核心和关键。对现有的风险评估方法进行分析评价,将面向对象的系统分析思想引入信息系统的风险评估中,完善了系统风险评估方法。能够在信息系统建设初期确定系统中关键的、高风险组件或子系统,可有效指导系统安全防护工作的经济高效开展。; 关键词风险评估面向对象体系结构离散时间马尔科夫过程; Keywords risk evaluation object-oriented architecture discrete time Markov process; 分类号 TP309.2 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于马尔科夫决策的目标选择策略	雷霆朱承张维明	《国防科技大学学报》 EI CAS CSCD 北大核心	2014	5	在线阅读下载PDF 职称材料
2	基于马尔科夫过程的钢骨混凝土耐久性预测	哈娜王连广高学涛	《混凝土》 CAS CSCD 北大核心	2009	2	在线阅读下载PDF 职称材料
3	基于离散Markov决策过程的发电公司多阶段决策	张宏刚宋依群	《上海交通大学学报》 EI CAS CSCD 北大核心	2004	2	在线阅读下载PDF 职称材料
4	风险概率准则下的非平稳马氏决策过程	温馨徐小雅郭先平	《应用概率统计》 CSCD 北大核心	2023	0	在线阅读下载PDF 职称材料
5	一种基于随机投影的贝叶斯时间差分算法	刘全于俊王辉傅启明朱斐	《电子学报》 EI CAS CSCD 北大核心	2016	1	在线阅读下载PDF 职称材料
6	互联电网CPS调节指令动态最优分配Q–学习算法	余涛王宇名刘前进	《中国电机工程学报》 EI CSCD 北大核心	2010	25	在线阅读下载PDF 职称材料
7	基于POMDP的认知无线电自适应频谱感知算法	许瑞琛蒋挺	《通信学报》 EI CSCD 北大核心	2013	12	在线阅读下载PDF 职称材料
8	基于面向对象的信息系统风险评估方法	王桢珍武小悦谢永强	《计算机工程与应用》 CSCD 北大核心	2009	5	在线阅读下载PDF 职称材料