期刊文献+
共找到122篇文章
< 1 2 7 >
每页显示 20 50 100
Performance Potential-based Neuro-dynamic Programming for SMDPs 被引量:10
1
作者 TANGHao YUANJi-Bin LUYang CHENGWen-Juan 《自动化学报》 EI CSCD 北大核心 2005年第4期642-645,共4页
An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their... An alpha-uniformized Markov chain is defined by the concept of equivalent infinitesimalgenerator for a semi-Markov decision process (SMDP) with both average- and discounted-criteria.According to the relations of their performance measures and performance potentials, the optimiza-tion of an SMDP can be realized by simulating the chain. For the critic model of neuro-dynamicprogramming (NDP), a neuro-policy iteration (NPI) algorithm is presented, and the performanceerror bound is shown as there are approximate error and improvement error in each iteration step.The obtained results may be extended to Markov systems, and have much applicability. Finally, anumerical example is provided. 展开更多
关键词 决议过程 Smdp 执行电位 神经动力学 markov 优化设计
在线阅读 下载PDF
基于深度强化学习的外卖即时配送实时优化 被引量:1
2
作者 陈彦如 刘珂良 冉茂亮 《计算机工程》 北大核心 2025年第9期328-339,共12页
为了应对外卖配送任务在用餐高峰期运力紧张、订单延迟送达率高的挑战,提出一种基于深度强化学习(DRL)的外卖即时配送实时优化策略,以提升外卖平台长期客户服务水平。首先,充分考虑外卖配送中备餐时间、取送顺序、时间窗等约束,以最大... 为了应对外卖配送任务在用餐高峰期运力紧张、订单延迟送达率高的挑战,提出一种基于深度强化学习(DRL)的外卖即时配送实时优化策略,以提升外卖平台长期客户服务水平。首先,充分考虑外卖配送中备餐时间、取送顺序、时间窗等约束,以最大化期望平均客户服务水平为目标,建立考虑随机需求的外卖即时配送问题的马尔可夫决策过程(MDP)模型;其次,设计一种结合近似策略优化(PPO)算法和插入启发式(IH)算法的外卖即时配送优化策略PPO-IH。PPO-IH使用融合注意力机制的选择策略网络对订单-骑手进行匹配,通过PPO算法对网络进行训练,并使用插入启发式算法更新骑手路径。最后,通过与贪婪策略(Greedy)、最小差值策略、分配启发式以及两种深度强化学习算法进行对比实验,结果表明。PPO-IH分别在71.5%、95.5%、87.5%、79.5%与70.0%时段数据中表现更优,同时平均客户服务水平更高,平均每单配送时间更短、延迟送达率更低。此外,PPO-IH在不同骑手数、不同订单密度以及不同订单时间窗场景下具有一定的有效性和泛化性。 展开更多
关键词 外卖配送 实时优化 深度强化学习 马尔可夫决策过程 近似策略优化 注意力机制
在线阅读 下载PDF
动态电磁环境下多功能雷达一体化发射资源管理方案
3
作者 张鹏 严俊坤 +2 位作者 高畅 李康 刘宏伟 《雷达学报(中英文)》 北大核心 2025年第2期456-469,共14页
传统多功能雷达仅面向目标特性优化发射资源,在动态电磁环境下面临干扰智能时变、优化模型失配的问题。因此,该文提出一种基于数据驱动的一体化发射资源管理方案,旨在通过对动态干扰信息在线感知与利用提升多功能雷达在动态电磁环境下... 传统多功能雷达仅面向目标特性优化发射资源,在动态电磁环境下面临干扰智能时变、优化模型失配的问题。因此,该文提出一种基于数据驱动的一体化发射资源管理方案,旨在通过对动态干扰信息在线感知与利用提升多功能雷达在动态电磁环境下的多目标跟踪(MTT)性能。该方案首先建立马尔可夫决策过程,数学化描述雷达被敌方截获和干扰的风险。而后将该马尔可夫决策过程感知的干扰信息耦合进MTT精度计算,一体化发射资源管理方法被设计为具有约束动作空间的优化问题。最后提出一种贪婪排序回溯算法对其进行求解。仿真结果表明,所提方法在面向动态干扰环境时不仅可以降低敌方截获概率,还能在被干扰时降低干扰对雷达的影响,改善MTT性能。 展开更多
关键词 一体化发射资源管理 多目标跟踪 动态电磁环境 马尔可夫决策过程 优化问题
在线阅读 下载PDF
因果时空语义驱动的深度强化学习抽象建模方法
4
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(mdp)
在线阅读 下载PDF
云网融合环境下服务组合的未来属性验证 被引量:1
5
作者 王湛 张鹏程 +1 位作者 金惠颖 吉顺慧 《计算机工程》 北大核心 2025年第3期310-319,共10页
随着云网融合技术以及空天地一体化网络的快速发展,越来越多的服务开始在云网融合环境下运行。在云网融合环境下,用户呈现移动性特征,导致服务组合过程变得愈发复杂,服务组合验证变得尤为关键。同时,在云网融合环境下用户要求服务组合... 随着云网融合技术以及空天地一体化网络的快速发展,越来越多的服务开始在云网融合环境下运行。在云网融合环境下,用户呈现移动性特征,导致服务组合过程变得愈发复杂,服务组合验证变得尤为关键。同时,在云网融合环境下用户要求服务组合不仅在当前时间段内稳定运行,还需要在未来时间段内持续满足用户需求。为了解决以上问题,提出一种云网融合环境下的服务组合未来属性验证方法。首先,对云网融合中的服务组合过程进行形式化建模,同时考虑用户移动导致的云网环境下服务场景的转换关系;然后,为了准确描述用户需求,对云网融合场景下的用户需求进行形式化描述;最后,为了解决云网融合环境下用户对服务组合未来时间段内的验证需求,对服务组合未来时间段的服务属性进行预测,利用PRISM模型检验工具来进行云网融合环境下的服务组合验证,以确保在未来时间段内仍然满足性能和可用性要求。实验结果表明,在云网融合环境下,当服务数量达到1000时验证模型构建时间以及模型检测时间分别为3.372 s和0.075 s,通过云网融合环境下的服务组合案例说明了所提方法的有效性与可行性。 展开更多
关键词 云网融合 服务组合 马尔可夫决策过程 服务质量 形式化验证
在线阅读 下载PDF
基于MDP框架的飞行器隐蔽接敌策略 被引量:11
6
作者 徐安 于雷 +2 位作者 寇英信 徐保伟 李战武 《系统工程与电子技术》 EI CSCD 北大核心 2011年第5期1063-1068,共6页
基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)... 基于近似动态规划(approximate dynamic programming,ADP)对空战飞行器隐蔽接敌决策问题进行研究。基于作战飞行器的战术使用原则,提出了隐蔽接敌过程中的优势区域与暴露区域;构建了基于马尔科夫决策过程(Markov decision process,MDP)的隐蔽接敌策略的强化学习方法;通过态势得分函数对非连续的即时收益函数进行修正,给出了基于ADP方法的策略学习与策略提取方法。分别针对对手在有无信息源支持情况下的不同机动对策进行了仿真验证。仿真结果表明,将ADP方法应用于隐蔽接敌策略的学习是可行的,在不同态势下可获得较为有效的接敌策略。 展开更多
关键词 隐蔽接敌 马尔科夫决策过程 近似动态规划 空战决策 近似值函数
在线阅读 下载PDF
基于HMDP的无人机三维路径规划 被引量:8
7
作者 洪晔 房建成 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第1期100-103,共4页
路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV... 路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV航向改变频繁的缺点,提出一种基于状态聚类方法的HMDP(Hierarchical Markov Decision Processes)模型,并将其拓展到三维规划中.仿真实验证明:这种简单的规划模型可以有效解决UAV的三维全局路径规划问题,为其在实际飞行中的局部规划奠定了基础. 展开更多
关键词 无人机(UAV) 路径规划 马尔可夫决策过程(mdp) 分层马尔可夫决策过程(Hmdp) 仿真
在线阅读 下载PDF
含季节性氢储能的电力系统跨尺度全年时序生产模拟方法
8
作者 金昱烨 方家琨 +5 位作者 艾小猛 钟治垚 魏利屾 朱梦姝 崔世常 文劲宇 《电力系统自动化》 北大核心 2025年第14期120-129,共10页
氢储能是新型电力系统消纳大规模新能源、应对净负荷季节性不均衡问题的关键手段。为充分评估新型电力系统中氢储能对新能源的消纳作用,建立了含季节性氢储能的电力系统全年时序生产模拟模型。针对全年时序生产模拟模型时间跨度长、电... 氢储能是新型电力系统消纳大规模新能源、应对净负荷季节性不均衡问题的关键手段。为充分评估新型电力系统中氢储能对新能源的消纳作用,建立了含季节性氢储能的电力系统全年时序生产模拟模型。针对全年时序生产模拟模型时间跨度长、电力设备数量多、氢储能长时耦合特性所导致的优化计算困难的问题,提出一种基于马尔可夫决策过程(MDP)的全年时序生产模拟模型季节性策略迭代方法。该方法通过评估储氢量对未来时段总运行成本的影响来调整全年时序运行模拟决策,基于储氢量的值函数近似前瞻策略及其并行更新方法实现近似最优解的快速求解。以两个改进系统算例为例,验证了所建模型及其求解方法的有效性。 展开更多
关键词 新型电力系统 电氢耦合 氢储能 时序生产模拟 马尔可夫决策过程
在线阅读 下载PDF
一种无人机冲突探测与避让系统决策方法
9
作者 汤新民 李帅 +1 位作者 顾俊伟 管祥民 《电子与信息学报》 北大核心 2025年第5期1301-1309,共9页
针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些... 针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些策略作为MDP的动作空间,并设置合适的奖励函数和状态转移概率,建立MDP模型,探究不同折扣因子对无人机飞行避撞过程的影响。仿真结果表明:相比于DAIDALUS,本方法的效率提升27.2%;当折扣因子设置为0.99时,可以平衡长期与短期收益;净空入侵率为5.8%,威胁机与本机最近距离为343 m,该方法可以满足无人机飞行过程中避撞的要求。 展开更多
关键词 无人机系统 探测与避让 马尔可夫决策过程 奖励函数
在线阅读 下载PDF
平均和折扣准则MDP基于TD(0)学习的统一NDP方法 被引量:5
10
作者 唐昊 周雷 袁继彬 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第2期292-296,共5页
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行... 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. 展开更多
关键词 markov决策过程 性能势 TD(0)学习 神经元动态规划
在线阅读 下载PDF
基于内部结构MPoMDP模型的策略梯度学习算法 被引量:1
11
作者 张润梅 王浩 +2 位作者 张佑生 姚宏亮 方长胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期20-23,共4页
为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-PO... 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。 展开更多
关键词 马尔可夫决策过程 强化学习 MPOmdp模型 策略梯度算法
在线阅读 下载PDF
基于MDP的战机对抗导弹措施优化方法 被引量:1
12
作者 宋海方 肖明清 +1 位作者 陈游 胡阳光 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2017年第5期942-950,共9页
对战机对抗导弹的措施优化问题进行了研究,将该问题归结为不确定条件下的序贯决策问题,提出了一种基于Markov决策过程(MDP)的导弹对抗措施优化方法。首先,该方法根据作战过程将作战阶段分为不同的状态,将电子对抗措施(ECM)和战术机动作... 对战机对抗导弹的措施优化问题进行了研究,将该问题归结为不确定条件下的序贯决策问题,提出了一种基于Markov决策过程(MDP)的导弹对抗措施优化方法。首先,该方法根据作战过程将作战阶段分为不同的状态,将电子对抗措施(ECM)和战术机动作为可供战机选择的行动;然后,通过不同战术行动下状态之间的转移概率来反映行动的不确定性,以雷达搜索状态和导弹命中状态的期望值来表征不同策略下的飞机生存力;最后,通过建立Markov决策模型得到飞机生存力最大时各个状态对应的最佳行动。仿真结果表明:飞机生存力随着时间推移而逐渐降低;不同策略下飞机的生存力不同,基于MDP的策略可以有效提高飞机的生存力;单步优化措施不能提高战机的生存力,必须考虑长期状态转移的影响。 展开更多
关键词 飞机生存力 电子对抗措施(ECM) 战术机动 markov决策过程(mdp) 导弹对抗 序贯决策
在线阅读 下载PDF
基于MDP和动态规划的医疗检查预约调度优化方法研究 被引量:13
13
作者 梁峰 徐苹 《运筹与管理》 CSSCI CSCD 北大核心 2020年第5期17-25,共9页
医疗检查对医生诊断病人病情具有重要作用。针对医疗检查资源的预约调度问题,考虑两台设备、三类病人且各类病人所需检查时间不同的情况。以医院在检查设备方面收益最大化为目标,建立有限时域马尔可夫决策(Markov decision process,MDP... 医疗检查对医生诊断病人病情具有重要作用。针对医疗检查资源的预约调度问题,考虑两台设备、三类病人且各类病人所需检查时间不同的情况。以医院在检查设备方面收益最大化为目标,建立有限时域马尔可夫决策(Markov decision process,MDP)模型,并结合动态规划理论,得出系统最优的预约排程策略。通过matlab仿真模拟医院的检查预约情况,并结合调研数据,实例验证了该预约策略相对于传统预约策略的优越性。最后,对设备的最大可用时间和住院病人的预约请求到达率模型进行敏感性分析,研究了预约策略的适用性。 展开更多
关键词 医疗检查 预约调度 马尔可夫决策过程 动态规划
在线阅读 下载PDF
一种基于特征向量提取的FMDP模型求解方法 被引量:3
14
作者 张双民 石纯一 《软件学报》 EI CSCD 北大核心 2005年第5期733-743,共11页
在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为... 在诸如机器人足球赛等典型的可分解马尔可夫决策过程(factored Markov decision process,简称FMDP)模型中,不同状态属性在不同的状态下,对于状态评估的影响程度是不同的,其中存在若干关键状态属性,能够唯一或近似判断当前状态的好坏.为了解决FMDP模型中普遍存在的“维数灾”问题,在效用函数非线性的情况下,通过对状态特征向量的提取近似状态效用函数,同时根据对FMDP模型的认知程度,从线性规划和再励学习两种求解角度分别进行约束不等式组的化简和状态效用函数的高维移植,从而达到降低计算复杂度,加快联合策略生成速度的目的.以机器人足球赛任意球战术配合为背景进行实验来验证基于状态特征向量的再励学习算法的有效性和学习结果的可移植性.与传统再励学习算法相比,基于状态特征向量的再励学习算法能够极大地加快策略的学习速度.但更重要的是,还可以将学习到的状态效用函数方便地移植到更高维的FMDP模型中,从而直接计算出联合策略而不需要重新进行学习. 展开更多
关键词 群体Agent合作求解 可分解马尔可夫决策过程 线性规划 再励学习 维数灾
在线阅读 下载PDF
基于混合深度强化学习的云制造云边协同联合卸载策略
15
作者 张亚茹 郭银章 《计算机应用研究》 北大核心 2025年第6期1676-1683,共8页
针对基于云边协同的云制造环境下制造资源实时感知数据难以及时处理的问题,考虑边缘端有限的计算资源、动态变化的网络状态以及任务负载等不确定性因素,给出一种基于混合深度强化学习(mixedbased deep reinforcement learning,M-DRL)的... 针对基于云边协同的云制造环境下制造资源实时感知数据难以及时处理的问题,考虑边缘端有限的计算资源、动态变化的网络状态以及任务负载等不确定性因素,给出一种基于混合深度强化学习(mixedbased deep reinforcement learning,M-DRL)的云边协同联合卸载策略。首先,融合云端的离散模型卸载与边缘端的连续任务卸载建立联合卸载模型;其次,将一段连续时隙内综合时延与能耗总成本为目标的卸载优化问题形式化地定义为马尔可夫决策过程(MDP);最后,使用DDPG与DQN的集成探索策略、在网络架构中引入长短期记忆网络(LSTM)的M-DRL算法求解该优化问题。仿真结果表明,M-DRL与已有一些卸载算法相比具有良好的收敛性和稳定性,并显著降低了系统总成本,为制造资源感知数据及时处理提供了一种有效的解决方案。 展开更多
关键词 云制造 云边协同 联合卸载 LSTM强化学习 马尔可夫决策过程
在线阅读 下载PDF
基于马尔可夫决策过程的中国石油战略储备模型分析 被引量:1
16
作者 刘婧 侯孟睿 +1 位作者 刘冲昊 贾祥英 《中国矿业》 北大核心 2025年第2期126-138,共13页
石油被称为“国民经济的血液”,是国家的重要战略资源,在国家经济安全中发挥着战略支撑作用。当前国际环境变乱交织,大国间博弈逐步加剧,国际油价震荡不定,中国作为能源需求大国,石油对外依存度始终处于高位,为更好应对石油市场的不确... 石油被称为“国民经济的血液”,是国家的重要战略资源,在国家经济安全中发挥着战略支撑作用。当前国际环境变乱交织,大国间博弈逐步加剧,国际油价震荡不定,中国作为能源需求大国,石油对外依存度始终处于高位,为更好应对石油市场的不确定性及供应中断风险,制定科学合理的战略储备策略尤为重要。本文研究旨在运用马尔可夫决策过程,构建符合中国国情的石油战略储备模型,为保障国家能源安全提供决策依据。模型考虑石油价格波动、供应中断概率及持续时间等因素,通过定义时间阶段、石油价格、供应量、断供幅度等参数和变量,采用动态规划方法构建奖励函数,提出约束条件,通过情景分析研究各类不确定因素对储备策略的影响。研究结果表明,石油需求弹性、供应中断概率和储备成本系数等因素对储备规模和策略有显著影响,高中断持续时间风险会使最优储备规模显著增加,且不同中断持续时间下储备释放策略不同。模型计算结果在一定程度上反映了不同情景下中国石油战略储备的合理规模和调整策略,但实际情况更为复杂,需综合考虑多方面因素。模型结果为决策提供了重要参考依据,敏感性分析有助于深入理解各因素对储备决策的影响机制,从而在实际中制定更科学合理的石油战略储备策略。分析石油战略储备政策对矿业资本市场的潜在影响,可以通过优化储备策略来提高资源的高质化利用,增强中国在全球石油市场中的能源安全和经济稳定性。本文研究不仅为石油战略储备政策提供了决策支持,也为其他战略性矿产资源的管理提供了借鉴,为政策制定者提供了重要参考。 展开更多
关键词 石油战略储备 石油供应中断 马尔可夫决策过程 储备释放与获取策略 动态规划
在线阅读 下载PDF
受约束的非平稳Markov决策模型 被引量:1
17
作者 郭先平 《湖南师范大学自然科学学报》 CAS 1993年第2期107-113,共7页
本文用拓扑分析的方法,讨论了马氏策略类Π_m^d的拓扑结构,同时较简单地证明了存在一马氏策略在马氏策略类中是最优的.另外,利用引入Lagrange乘子的技巧和中间值定理,证明了约束最优策略的存在性,并进一步证明约束最优策略可取为马氏策... 本文用拓扑分析的方法,讨论了马氏策略类Π_m^d的拓扑结构,同时较简单地证明了存在一马氏策略在马氏策略类中是最优的.另外,利用引入Lagrange乘子的技巧和中间值定理,证明了约束最优策略的存在性,并进一步证明约束最优策略可取为马氏策略或两个马氏策略的凸组合. 展开更多
关键词 非平稳 马尔柯夫 决策模型 约束
在线阅读 下载PDF
一种MDP基于性能势的并行Q学习算法
18
作者 程文娟 唐昊 +1 位作者 李豹 周雷 《系统仿真学报》 CAS CSCD 北大核心 2009年第9期2670-2674,2678,共6页
在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给... 在性能势理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。仿真实验表明并行Q学习算法的有效性。 展开更多
关键词 Q学习 马尔可夫决策过程 性能势 并行算法
在线阅读 下载PDF
折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
19
作者 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第9期86-88,共3页
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。
关键词 机器学习 激励学习 SARSA(λ)算法 实例分析 mdps
在线阅读 下载PDF
干扰惰性序列的连续决策模型模糊测试
20
作者 吴泊逾 王凯锐 +1 位作者 王亚文 王俊杰 《软件学报》 北大核心 2025年第10期4645-4659,共15页
人工智能技术的应用已经从分类、翻译、问答等相对静态的任务延伸到自动驾驶、机器人控制、博弈等需要和环境进行一系列“交互-行动”才能完成的相对动态的任务.执行这类任务的模型核心是连续决策算法,由于面临更高的环境和交互的不确定... 人工智能技术的应用已经从分类、翻译、问答等相对静态的任务延伸到自动驾驶、机器人控制、博弈等需要和环境进行一系列“交互-行动”才能完成的相对动态的任务.执行这类任务的模型核心是连续决策算法,由于面临更高的环境和交互的不确定性,而且这些任务往往是安全攸关的系统,其测试技术面临极大的挑战.现有的智能算法模型测试技术主要集中在单一模型的可靠性、复杂任务多样性测试场景生成、仿真测试等方向,对连续决策模型的“交互-行动”决策序列没有关注,导致无法适应,或者成本效益低下.提出一个干预惰性“交互-行动”决策序列执行的模糊测试方法IIFuzzing,在模糊测试框架中,通过学习“交互-行动”决策序列模式,预测不会触发失效事故的惰性“交互-行动”决策序列,并中止这类序列的测试执行,以提高测试效能.在4种常见的测试配置中进行实验评估,结果表明,与最新的针对连续决策模型的模糊测试相比,IIFuzzing可以在相同时间内多探测16.7%–54.5%的失效事故,并且事故的多样性也优于基线方法. 展开更多
关键词 连续决策模型 马尔可夫决策过程 模糊测试
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部