期刊文献+
共找到139篇文章
< 1 2 7 >
每页显示 20 50 100
因果时空语义驱动的深度强化学习抽象建模方法
1
作者 田丽丽 杜德慧 +2 位作者 聂基辉 陈逸康 李荥达 《软件学报》 北大核心 2025年第8期3637-3654,共18页
随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运... 随着智能信息物理融合系统(intelligent cyber-physical system,ICPS)的快速发展,智能技术在感知、决策、规控等方面的应用日益广泛.其中,深度强化学习因其在处理复杂的动态环境方面的高效性,已被广泛用于ICPS的控制组件中.然而,由于运行环境的开放性和ICPS系统的复杂性,深度强化学习在学习过程中需要对复杂多变的状态空间进行探索,这极易导致决策生成时效率低下和泛化性不足等问题.目前对于该问题的常见解决方法是将大规模的细粒度马尔可夫决策过程(Markov decision process,MDP)抽象为小规模的粗粒度马尔可夫决策过程,从而简化模型的计算复杂度并提高求解效率.但这些方法尚未考虑如何保证原状态的时空语义信息、聚类抽象的系统空间和真实系统空间之间的语义一致性问题.针对以上问题,提出基于因果时空语义的深度强化学习抽象建模方法.首先,提出反映时间和空间价值变化分布的因果时空语义,并在此基础上对状态进行双阶段语义抽象以构建深度强化学习过程的抽象马尔可夫模型;其次,结合抽象优化技术对抽象模型进行调优,以减少抽象状态与相应具体状态之间的语义误差;最后,结合车道保持、自适应巡航、交叉路口会车等案例进行了大量的实验,并使用验证器PRISM对模型进行评估分析,结果表明所提出的抽象建模技术在模型的抽象表达能力、准确性及语义等价性方面具有较好的效果. 展开更多
关键词 深度强化学习 抽象建模 因果时空语义 智能信息物理融合系统(ICPS) 马尔可夫决策过程(MDP)
在线阅读 下载PDF
基于MADDPG的分布式测控网络群切换算法
2
作者 王慧琳 刘胜利 +1 位作者 谢岸宏 朱立东 《系统工程与电子技术》 北大核心 2025年第6期2036-2046,共11页
受到战争等特殊环境下部分节点导航拒止、节点移动性与环境干扰所带来的影响,快速进行测控网络拓扑重构是保证连续测控关键。为了解决上述问题,针对多体制无人集群测控网络的场景,提出一种基于多智能体深度确定性策略梯度(multi-agent d... 受到战争等特殊环境下部分节点导航拒止、节点移动性与环境干扰所带来的影响,快速进行测控网络拓扑重构是保证连续测控关键。为了解决上述问题,针对多体制无人集群测控网络的场景,提出一种基于多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)的分布式多智能体测控网络群切换算法。该算法运用局部可观测马尔可夫决策模型,并考虑最小连通度、能耗与测控精度设计奖励函数,构建可靠的测控定位系统。仿真结果表明,该算法在不同的干扰环境下能有效抵抗外界干扰,保证测控定位的正常运行,与传统切换算法相比切换成功率提升12%以上。 展开更多
关键词 拓扑重构 群切换 测控定位 局部可观测马尔可夫决策 最小连通度
在线阅读 下载PDF
非时齐部分可观察Markov决策规划的最优策略问题 被引量:1
3
作者 张继红 郭世贞 章芸 《运筹学学报》 CSCD 北大核心 2004年第2期81-87,共7页
本文讨论了一类非时齐部分可观察Markov决策模型.在不改变状态空间可列 性的条件下,把该模型转化为[5]中的一般化折扣模型,从而解决了其最优策略问题,并 且得到了该模型的有限阶段逼近算法,其中该算法涉及的状态是可列的.
关键词 部分可观察markov决策规划 最优策略 非时齐 折扣模型 逼近
在线阅读 下载PDF
随机模型检测连续时间Markov过程 被引量:2
4
作者 钮俊 曾国荪 +1 位作者 吕新荣 徐畅 《计算机科学》 CSCD 北大核心 2011年第9期112-115,125,共5页
功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision proc... 功能正确和性能可满足是复杂系统可信要求非常重要的两个方面。从定性验证和定量分析相结合的角度,对复杂并发系统进行功能验证和性能分析,统一地评估系统是否可信。连续时间Markov决策过程CTMDP(Continu-ous-time Markov decision process)能够统一刻画复杂系统的概率选择、随机时间及不确定性等重要特征。提出用CT-MDP作为系统定性验证和定量分析模型,将复杂系统的功能验证和性能分析转化为CTMDP中的可达概率求解,并证明验证过程的正确性,最终借助模型检测器MRMC(Markov Reward Model Checker)实现模型检测。理论分析表明,提出的针对CTMDP模型的验证需求是必要的,验证思路和方法具有可行性。 展开更多
关键词 功能性能 连续时间markov决策过程 模型检测 可信验证 可达概率
在线阅读 下载PDF
半Markov决策过程折扣模型与平均模型之间的关系 被引量:1
5
作者 殷保群 李衍杰 +2 位作者 唐昊 代桂平 奚宏生 《控制理论与应用》 EI CAS CSCD 北大核心 2006年第1期65-68,共4页
首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于... 首先分别在折扣代价与平均代价性能准则下,讨论了一类半M arkov决策问题.基于性能势方法,导出了由最优平稳策略所满足的最优性方程.然后讨论了两种模型之间的关系,表明了平均模型的有关结论,可以通过对折扣模型相应结论取折扣因子趋于零时的极限来得到. 展开更多
关键词 markov决策过程 折扣模型 平均模型 最优性方程 最优平稳策略
在线阅读 下载PDF
基于Markov决策过程的驾驶员行为模型 被引量:3
6
作者 许骏 李一兵 《汽车工程》 EI CSCD 北大核心 2008年第1期14-16,60,共4页
将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机... 将驾驶员-汽车看作统一的人机系统,利用驾驶员驾驶过程的本质是决策过程的性质,通过确定系统的决策时刻、决策报酬、状态转移速率和概率、抽象驾驶员的行为集合等建立了基于Markov决策过程的驾驶员行为模型,最后对所建模型进行了计算机仿真。 展开更多
关键词 驾驶员行为 markov决策过程 模型 人机系统
在线阅读 下载PDF
基于深度强化学习的中央空调冷水机组无模型控制
7
作者 王萌 傅启明 +3 位作者 何坤 陈建平 陆悠 王蕴哲 《计算机工程与设计》 北大核心 2025年第5期1526-1534,共9页
针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提... 针对当前中央空调冷水机组优化问题中基于模型控制对模型精确度依赖高和模型维护困难等问题,提出一种基于优先经验回放的深度强化学习无模型控制方法。将优化控制建模为马尔可夫决策过程,利用时间差分误差和总和树改进经验回放机制,提高样本利用效率,设计兼顾室内舒适性和节能需求的奖励函数。基于实测历史数据构建仿真平台,用于方法验证。实验结果表明,在保证舒适度的前提下,该方法节能性优于规则控制,接近于模型控制并具有更快的收敛性。 展开更多
关键词 深度强化学习 优先经验回放 无模型控制 马尔可夫决策过程 冷水机组优化 舒适性保持 节能优化
在线阅读 下载PDF
基于改进Transformer的多智能体供应链库存管理方法
8
作者 朴明杰 张冬冬 +2 位作者 卢鹄 李汝鹏 葛小丽 《计算机科学》 北大核心 2025年第S1期186-195,共10页
有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化... 有效的供应链库存管理对诸如民用飞机和汽车制造等大规模制造业至关重要,它能确保高效的生产运作。通常情况下,主制造商制定年度库存管理计划,并根据实际生产进度,在某些物料接近临界库存水平时与供应商进行联系。但实际生产情况的变化可能会导致年度库存管理计划的改变,因此根据实际生产情况和库存水平对未来物料采购情况进行决策相对更为灵活与高效。近年来,许多研究者关注采用强化学习方法来研究库存管理问题。当前的方法在解决具有多节点多物料模式的民用飞机制造供应链库存管理问题时虽然能够一定程度上提供高效管理,但是带来了较高的复杂度。为解决这一问题,将问题形式化为一个部分可观察马尔可夫决策过程模型,并提出了一种基于改进Transformer的多智能体供应链库存管理方法。该方法基于多智能体强化学习序列决策的本质,将多智能体强化学习问题转化为编码器-解码器架构的序列建模问题,从逻辑上降低算法的复杂度。实验结果表明,相较于现有的基于强化学习的方法,所提方法在保持性能相近的基础上,于复杂度方面约有90%的改善。 展开更多
关键词 多智能体强化学习 飞机供应链库存管理 部分可观察马尔可夫决策过程 TRANSFORMER
在线阅读 下载PDF
基于MADDPG的多无人机协同攻击方法
9
作者 张波 刘满国 刘梦焱 《弹箭与制导学报》 北大核心 2025年第3期344-350,共7页
多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定... 多无人机协同完成特定打击任务是未来无人机军事领域发展的重要方向。针对多无人机协同攻击问题,构建典型对抗场景。将多无人机协同攻击问题建模成分布式部分可观测马尔可夫决策过程(Dec-POMDP),设计独特奖励函数,采用多智能体深度确定性策略梯度(MADDPG)算法训练攻击策略。使用蒙特卡洛法分析仿真实验,结果表明在该多智能体强化学习算法训练之后,特定对抗场景下多无人机协同攻击任务完成率达到82.9%。 展开更多
关键词 多智能体 深度强化学习 分布式部分可观测马尔可夫决策过程(Dec-POMDP) 多智能体深度确定性策略梯度算法(MADDPG) 无人机集群
在线阅读 下载PDF
基于Markov决策过程的列控系统定量安全分析方法 被引量:1
10
作者 周果 赵会兵 《铁道学报》 EI CAS CSCD 北大核心 2016年第2期74-81,共8页
为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的... 为了在列控系统的设计阶段和安全评估阶段对系统隐患进行把握,对系统的设计进行定量安全分析是至关重要的。定量分析的结果可以用来判断和比较设计的优劣,也可用来评估隐患的风险,并根据分析结果判断所采取的隐患控制措施是否使隐患的风险被控制在可接受的范围内。本文应用以Markov决策过程为基础的建模方法,对列控系统中的双车追踪场景进行系统行为建模,集成系统正常行为和失效行为,提出综合系统行为模型CBM,并通过概率模型检验工具PRISM对危险失效概率进行准确计算,提出列控系统定量安全分析方法。 展开更多
关键词 列控系统 定量安全分析 markov决策过程 概率模型检验
在线阅读 下载PDF
基于Markov决策过程的输变电设备最佳检修决策 被引量:18
11
作者 贾京苇 侯慧娟 +3 位作者 杜修明 段大鹏 盛戈皞 江秀臣 《高电压技术》 EI CAS CSCD 北大核心 2017年第7期2323-2330,共8页
为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修... 为解决现有输变电设备检修决策很大程度依赖于决策人员经验的问题,应用Markov决策过程为检修决策提供定量、具体的决策依据。首先通过Markov过程求解设备的状态转移概率;然后运用策略迭代法对模型最优决策进行求解;最后将数据代入检修决策模型中,改变故障损失得到决策结果的变化。比较决策变化对应的设备故障损失和设备稳态概率可得知:所建立的基于状态的检修(CBM)模型适用于安装了在线监测装置的设备,而基于检测的检修(IBM)模型适用于无在线监测装置的设备;最优决策从维修成本最小的决策过渡到最后每次决策时都选择大修,整个变化过程证明了应用Markov决策可以折中维修成本和故障损失得到经济最优决策。研究结果可为检修决策人员提供定量的检修计划。 展开更多
关键词 输变电设备 检修决策 检修模型 markov过程 markov决策过程 策略迭代法
在线阅读 下载PDF
部分可观测Markov环境下的激励学习综述
12
作者 谢丽娟 陈焕文 《长沙电力学院学报(自然科学版)》 2002年第2期23-27,共5页
对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为... 对智能体在不确定环境下的学习与规划问题的激励学习技术进行了综述 .首先介绍了用于描述隐状态问题的部分可观测Markov决策理论 (POMDPs) ,在简单回顾其它POMDP求解技术后 ,重点讨论环境模型事先未知的激励学习技术 ,包括两类 :一类为基于状态的值函数学习 ;一类为策略空间的直接搜索 .最后分析了这些方法尚存在的问题 ,并指出了未来可能的研究方向 . 展开更多
关键词 激励学习 部分可观测markov决策过程 机器学习 人工智能 智能体 值函数学习 策略空间
在线阅读 下载PDF
考虑个体差异的系统退化建模与半Markov过程维修决策 被引量:3
13
作者 李琦 李婧 +1 位作者 蒋增强 边靖媛 《计算机集成制造系统》 EI CSCD 北大核心 2020年第2期331-339,共9页
为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础... 为了在采样不完全、个体差异明显的条件下对缓慢退化系统的维修策略进行研究,针对具有个体差异的缓慢退化系统,选择线性混合效应模型进行退化建模,并利用自回归方法对模型残差中的时间序列相关性进行调节,提高了模型的准确性。在此基础上构造合理的状态空间和维修决策空间,求解退化过程的状态转移概率,并使用策略迭代算法求解最小化单位时间长期预计成本的最优化维修策略。以激光退化实际案例求解了基于半Markov决策过程的维修策略,并与经典的基于役龄的维修策略和周期检查的维修策略进行比较,证明了所提方法能够更加精确地刻画系统的退化过程,并可帮助制定兼顾成本与可靠性的维修策略。 展开更多
关键词 markov决策过程 缓慢退化系统 线性混合效应模型 策略迭代算法
在线阅读 下载PDF
Modeling of UAV path planning based on IMM under POMDP framework 被引量:4
14
作者 YANG Qiming ZHANG Jiandong SHI Guoqing 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第3期545-554,共10页
In order to enhance the capability of tracking targets autonomously of unmanned aerial vehicle (UAV), the partially observable Markov decision process (POMDP) model for UAV path planning is established based on the PO... In order to enhance the capability of tracking targets autonomously of unmanned aerial vehicle (UAV), the partially observable Markov decision process (POMDP) model for UAV path planning is established based on the POMDP framework. The elements of the POMDP model are analyzed and described. The state transfer law in the model can be described by the method of interactive multiple model (IMM) due to the diversity of the target motion law, which is used to switch the motion model to accommodate target maneuvers, and hence improving the tracking accuracy. The simulation results show that the model can achieve efficient planning for the UAV route, and effective tracking for the target. Furthermore, the path planned by this model is more reasonable and efficient than that by using the single state transition law. 展开更多
关键词 partially observable markov decision process (POMDP) interactive multiple model (IMM) filtering path planning target tracking state transfer law
在线阅读 下载PDF
Probabilistic Analysis and Multicriteria Decision for Machine Assignment Problem with General Service Times
15
作者 Wang, Jing 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 1994年第1期53-61,共9页
In this paper we carried out a probabilistic analysis for a machine repair system with a general service-time distribution by means of generalized Markov renewal processes. Some formulas for the steady-state performan... In this paper we carried out a probabilistic analysis for a machine repair system with a general service-time distribution by means of generalized Markov renewal processes. Some formulas for the steady-state performance measures. such as the distribution of queue sizes, average queue length, degree of repairman utilization and so on. are then derived. Finally, the machine repair model and a multiple critcria decision-making method are applied to study machine assignment problem with a general service-time distribution to determine the optimum number of machines being serviced by one repairman. 展开更多
关键词 Machine assignment problem Queueing model Multicriteria decision markov processes
在线阅读 下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
16
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
在线阅读 下载PDF
基于深度注意力Q网络的机器人路径规划研究
17
作者 马海杰 薛安虎 《传感器与微系统》 CSCD 北大核心 2024年第12期66-70,75,共6页
针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的... 针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的局限性,提出融合注意力机制的改进DQN算法,充分利用和挖掘包含历史数据的感知信息;其次,基于人工势场(APF)法,设计机器人移动距离和方向的奖励机制,提升路径规划的准确性;最后,在二维栅格地图仿真环境下验证DAQN算法的有效性。结果表明:DAQN算法在部分可观测环境中的路径规划表现显著优于其他算法,该算法能够在复杂环境中实现更加优越的路径规划效果。 展开更多
关键词 机器人 路径规划 部分可观测马尔可夫决策过程 深度强化学习 注意力机制
在线阅读 下载PDF
基于近端策略优化算法和Mask-TIT网络的多功能雷达干扰决策方法
18
作者 娄雨璇 孙闽红 尹帅 《数据采集与处理》 CSCD 北大核心 2024年第6期1355-1369,共15页
为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对... 为应对愈加智能的多功能雷达给对抗方带来的挑战,本文提出一种基于近端策略优化(Proximal policy optimization,PPO)算法和Mask?TIT(Mask?Transformer in Transformer)网络的干扰决策方法。首先,从一种现实场景出发,将干扰机与雷达的对抗场景建模为部分可观察马尔可夫决策过程(Partially observable Markov decision process,POMDP),根据雷达工作原理设计了新的状态转移函数和奖励函数,并根据多功能雷达层级模型设计了观测空间。其次,利用Transformer对序列数据的表征能力和雷达干扰样式的特点设计了一种Mask?TIT网络结构,用于构建更强大的Actor?Critic网络架构。最后,使用近端策略优化算法进行优化学习。实验结果表明,该算法较现有方法收敛所需交互数据平均减少25.6%,并且收敛后的方差显著降低。 展开更多
关键词 雷达干扰决策 部分可观察马尔可夫决策过程 强化学习 TRANSFORMER 近端策略优化
在线阅读 下载PDF
基于深度强化学习的动态频谱智能干扰算法研究
19
作者 张兰 张彪 +1 位作者 梁天一 朱辉杰 《南京邮电大学学报(自然科学版)》 北大核心 2024年第6期1-11,共11页
随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分... 随着人工智能技术的不断发展,强化学习技术在提高电磁频谱控制和干扰对抗效率方面展现出巨大潜力。针对跳频通信系统抗干扰能力强、传统干扰方法效果不佳的问题,利用深度强化学习技术实现在动态频谱环境下的电磁智能干扰。首先引入部分可观测马尔可夫决策过程对干扰机与跳频通信用户之间的通信对抗过程进行建模,然后基于卷积神经网络和长短期记忆网络设计了一个具有频谱特征挖掘和记忆回溯功能的干扰决策网络,实现基于深度强化学习的动态频谱智能干扰(Dynamic Spectrum Intelligent Jamming,DSIJ)算法。仿真实验结果表明,相较于传统DQN算法,所提DSIJ算法的干扰成功率提升了约18%。与传统的扫频干扰方法相比,其干扰成功率更是提升了约68%,从而充分证明了所提出的算法在动态频谱环境下实现智能干扰策略的有效性与显著优势。 展开更多
关键词 深度强化学习 跳频通信 智能干扰决策 部分可观测马尔可夫决策过程
在线阅读 下载PDF
部分可观察马尔科夫决策过程优化不稳定型心绞痛中西医结合临床治疗方案的建模方法与验证研究 被引量:13
20
作者 冯妍 冯奇 +3 位作者 王以新 邱禹 周雪忠 徐浩 《中国全科医学》 CAS 北大核心 2020年第17期2181-2185,共5页
背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医... 背景部分可观察马尔科夫决策过程(POMDP)是一种解决序列决策问题的数学算法,在医学领域中常应用于复杂治疗方案的动态优化。其在不稳定型心绞痛(UA)中西医结合临床治疗方案优化中的应用已进行了初步尝试。目的详细描述POMDP在UA中西医结合临床治疗方案优化过程中的建模方法并对模型的可靠性做出初步验证。方法收集中国中医科学院西苑医院、中国中医科学院广安门医院、中日友好医院、北京市中医院、通州区中医院、东直门医院、怀柔中医医院、北京大学人民医院2008-2010年2212例UA患者结构化住院病历111060条记录。将UA证候要素类型为气虚、血瘀的患者随机分为测试组732例和验证组732例,对测试组患者应用POMDP得出一组最优治疗方案的核心处方,在验证组患者中筛选符合方案的患者(作为优化组),与不符合方案的患者(作为对照组)进行血瘀证积分、远期终点事件(主要终点事件包括心血管死亡、非致命性心肌梗死、血运重建术,次要终点事件包括脑卒中、因急性冠脉综合征再住院、心功能不全、其他血栓并发症)发生情况的比较,验证方案的临床疗效。结果气虚优化组(n=152)、血瘀优化组(n=127)患者血瘀证积分降分分别为(5.29±2.64)、(4.87±3.04)分,均高于对照组,差异有统计学意义(P<0.05)。气虚优化组、血瘀优化组远期终点事件发生率分别为16.4%(25/152)、12.6%(16/127),与对照组比较,差异无统计学意义(P>0.05)。结论POMDP可以实现UA中西医结合临床治疗方案的优化,模型经验证较为稳定可靠,可尝试为其他疾病临床方案的制定提供更为细化、深入的优化方案。 展开更多
关键词 心绞痛 不稳定型 冠心病 部分可观察马尔科夫决策过程 建模 验证
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部