期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一种基于最优策略概率分布的POMDP值迭代算法 被引量:4
1
作者 刘峰 王崇骏 骆斌 《电子学报》 EI CAS CSCD 北大核心 2016年第5期1078-1084,共7页
随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该... 随着应用中POMDP问题的规模不断扩大,基于最优策略可达区域的启发式方法成为了目前的研究热点.然而目前已有的算法虽然保证了全局最优,但选择最优动作还不够精确,影响了算法的效率.本文提出一种基于最优策略概率的值迭代方法 PBVIOP.该方法在深度优先的启发式探索中,根据各个动作值函数在其上界和下界之间的分布,用蒙特卡罗法计算动作最优的概率,选择概率最大的动作作为最优探索策略.在4个基准问题上的实验结果表明PBVIOP算法能够收敛到全局最优解,并明显提高了收敛效率. 展开更多
关键词 部分可观测马尔科夫决策过程 基于最优策略概率的值迭代算法 蒙特卡罗法
在线阅读 下载PDF
基于策略迭代和值迭代的POMDP算法 被引量:7
2
作者 孙湧 仵博 冯延蓬 《计算机研究与发展》 EI CSCD 北大核心 2008年第10期1763-1768,共6页
部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和... 部分可观察Markov决策过程是通过引入信念状态空间将非Markov链问题转化为Markov链问题来求解,其描述真实世界的特性使它成为研究随机决策过程的重要分支.介绍了部分可观察Markov决策过程的基本原理和决策过程,提出一种基于策略迭代和值迭代的部分可观察Markov决策算法,该算法利用线性规划和动态规划的思想,解决当信念状态空间较大时出现的"维数灾"问题,得到Markov决策的逼近最优解.实验数据表明该算法是可行的和有效的. 展开更多
关键词 部分可观察Markov决策 决策算法 智能体 策略
在线阅读 下载PDF
受控M/G/1排队系统的性能优化及迭代算法 被引量:3
3
作者 代桂平 殷保群 +1 位作者 王肖龙 奚宏生 《系统仿真学报》 CAS CSCD 2004年第8期1683-1685,共3页
通过嵌入Markov链的方法,讨论了受控M/G/1排队系统,在无限水平平均代价准则下的最优平稳策略问题。定义了平均Poisson方程,导出了平均代价模型在紧致行动集上的最优性方程。最后给出了一个求解最优平稳策略的迭代算法,并给出了一个仿真... 通过嵌入Markov链的方法,讨论了受控M/G/1排队系统,在无限水平平均代价准则下的最优平稳策略问题。定义了平均Poisson方程,导出了平均代价模型在紧致行动集上的最优性方程。最后给出了一个求解最优平稳策略的迭代算法,并给出了一个仿真实例来说明该算法的应用。 展开更多
关键词 受控M/G/1排队系统 平均价准则 紧致行动集 最优平稳策略 算法
在线阅读 下载PDF
考虑阻力约束的列车能量最优驾驶问题建模及分离迭代求解策略
4
作者 刘良杰 冯江华 +2 位作者 王斌 胡云卿 黎向宇 《铁道学报》 EI CAS CSCD 北大核心 2020年第11期36-44,共9页
根据列车的动力学模型,牵引、制动特性,阻力,限速等条件,建立列车能量最优驾驶问题的数学模型。由于坡道阻力和运行阻力的引入,约束条件中的微分方程组(ODEs)增广成为复杂的微分代数方程组(DAEs),使得问题难以求解。首先在时间域内将状... 根据列车的动力学模型,牵引、制动特性,阻力,限速等条件,建立列车能量最优驾驶问题的数学模型。由于坡道阻力和运行阻力的引入,约束条件中的微分方程组(ODEs)增广成为复杂的微分代数方程组(DAEs),使得问题难以求解。首先在时间域内将状态变量和控制变量离散化,将问题转化为一般非线性规划问题;针对该非线性规划问题,提出一种分离迭代策略将其转化为一系列凸二次规划问题,最后采用原-对偶预测校正内点算法求解。算例结果表明,所提出的分离迭代策略在满足列车约束条件下可以实现能量消耗最小。 展开更多
关键词 能量最优 一般非线性规划问题 凸二次规划问题 分离策略 原-对偶预测校正内点算法
在线阅读 下载PDF
基于强化学习的异构多智能体系统最优输出调节
5
作者 熊春萍 马倩 《控制理论与应用》 北大核心 2025年第3期491-498,共8页
本文研究了异构多智能体系统的最优输出调节问题.通信网络拓扑含有向生成树.首先,设计了外部系统状态补偿器和状态反馈控制器,应用图论和Lyapunov稳定性理论证明了所设计的补偿器和控制器可以解决一般输出调节问题.然后,通过最小化预定... 本文研究了异构多智能体系统的最优输出调节问题.通信网络拓扑含有向生成树.首先,设计了外部系统状态补偿器和状态反馈控制器,应用图论和Lyapunov稳定性理论证明了所设计的补偿器和控制器可以解决一般输出调节问题.然后,通过最小化预定义的成本方程,解决最优输出调节问题.结合最优控制理论和强化学习技术,提出了两种求解最优控制器的算法,即基于模型的策略迭代算法和无模型off-policy算法.利用无模型算法获取最优控制器的过程既不需要求解输出调节方程也不需要使用系统动态信息.最后,通过数值仿真验证了本文所提出的算法的有效性. 展开更多
关键词 异构多智能体系统 最优输出调节 策略 无模型算法 强化学习
在线阅读 下载PDF
一类动态规划模型的分时段迭代算法
6
作者 何志明 吴沧浦 《兵工学报》 EI CAS 1988年第3期21-27,共7页
本文提出对于一类动态规划模型的分时段迭代算法。此方法在计算上是有效的,并且具有较小的存贮量。该方法可以有效地克服多维状态动态决策问题中的维数困难。本文结合两种动态规划模型详细研究了该算法的收敛性质,得到了相应的理论结果。
关键词 规划模型 算法 分时段 最优策略
在线阅读 下载PDF
连续时间MCP在紧致行动集上的最优策略(英文) 被引量:12
7
作者 奚宏生 唐昊 殷保群 《自动化学报》 EI CSCD 北大核心 2003年第2期206-211,共6页
文中研究了一类连续时间Markov控制过程 (CTMCP)无穷水平平均代价性能的最优控制决策问题 .文章采用无穷小生成元和性能势的基本性质 ,直接导出了平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 ,提出了求解ε 最优平稳控... 文中研究了一类连续时间Markov控制过程 (CTMCP)无穷水平平均代价性能的最优控制决策问题 .文章采用无穷小生成元和性能势的基本性质 ,直接导出了平均代价模型在紧致行动集上的最优性方程及其解的存在性定理 ,提出了求解ε 最优平稳控制策略的数值迭代算法 ,并给出了这种算法的收敛性证明 .最后通过分析一个数值例子来说明这种方法的应用 . 展开更多
关键词 MCP 紧致行动集 最优策略 性能势 平均价准则 算法 ε-最优平衡控制策略
在线阅读 下载PDF
多状态退化系统最优故障维修策略 被引量:4
8
作者 姜国 胡飞 覃刚 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2010年第4期492-496,共5页
针对多状态半马尔可夫退化系统,研究了系统发生故障后的维修模型.在系统的退化过程中,有多个不可逆的工作状态和故障状态.系统的所有故障均能修复且可忽略故障修复时间,修复后系统回到正常的工作状态.当系统发生故障时,系统的故障检测... 针对多状态半马尔可夫退化系统,研究了系统发生故障后的维修模型.在系统的退化过程中,有多个不可逆的工作状态和故障状态.系统的所有故障均能修复且可忽略故障修复时间,修复后系统回到正常的工作状态.当系统发生故障时,系统的故障检测设备首先确定出当前所处的故障状态,然后采取相应的维修措施.基于系统长期平均成本率最低的决策准则,运用半马尔可夫决策过程的策略迭代算法给出了系统处于不同故障状态下的最优维修策略.以实例说明了求解最优故障维修策略的迭代过程. 展开更多
关键词 多状态退化系统 长期平均成本率 半马尔可夫决策过程 策略算法 最优故障维修策略
在线阅读 下载PDF
基于自适应缩放比例因子的差分进化算法 被引量:8
9
作者 沈佳杰 江红 王肃 《计算机工程与设计》 CSCD 北大核心 2014年第1期261-266,共6页
针对于差分进化算法在高维多峰函数环境下易早熟和迭代收敛速度较慢的问题,通过引入自适应的缩放比例因子的方法,提出了一个基于自适应缩放比例因子的差分进化算法。通过理论推导改进的差分进化算法可以有效提高差分进化算法对于高维多... 针对于差分进化算法在高维多峰函数环境下易早熟和迭代收敛速度较慢的问题,通过引入自适应的缩放比例因子的方法,提出了一个基于自适应缩放比例因子的差分进化算法。通过理论推导改进的差分进化算法可以有效提高差分进化算法对于高维多峰函数全局最优值搜索能力和差分进化算法对于高维优化问题的收敛速度,并且通过形式化证明的方法分析了其可以提高着这些性能的具体原因,实验结果表明了理论推导以及对于改进差分进化算法性质分析的正确性。 展开更多
关键词 差分进化算法 自适应比例因子 高维多峰函数 速度 最优查找
在线阅读 下载PDF
基于多变异个体的多目标差分进化改进算法 被引量:2
10
作者 沈佳杰 江红 王肃 《计算机工程》 CAS CSCD 2014年第5期203-208,215,共7页
针对多目标差分进化算法在高维函数下收敛速度慢和易早熟的问题,提出一种基于多变异个体的多目标差分进化改进算法。通过在多目标差分进化算法的个体变异及交叉操作中,引入多个变异个体,使得在高维多目标函数情况下,多目标差分进化算法... 针对多目标差分进化算法在高维函数下收敛速度慢和易早熟的问题,提出一种基于多变异个体的多目标差分进化改进算法。通过在多目标差分进化算法的个体变异及交叉操作中,引入多个变异个体,使得在高维多目标函数情况下,多目标差分进化算法种群可以更好地保持多样性,减少种群陷入局部最优解的可能性,从而提高该算法在高维多目标优化问题环境下,最优值解的搜索速度及全局最优值解的查找能力。实验结果表明,在高维多目标环境下,与标准多目标差分进化算法相比,该算法可以更快速地找到多个目标函数组的非劣最优值解集。 展开更多
关键词 多目标化问题 差分进化算法 多变异个体 计算智能 最优搜索 速度
在线阅读 下载PDF
基于Voronoi图表和进化策略的图像特征点配准方法 被引量:1
11
作者 孙焘 王秀坤 +2 位作者 邵刚 贺明峰 冯林 《大连理工大学学报》 EI CAS CSCD 北大核心 2005年第3期443-448,共6页
针对传统的特征点配准算法时间复杂度高、容易陷入局部最优解的不足,提出一种基于Voronoi图表和进化策略的图像特征点配准方法.该方法以匹配点对的欧几里德距离均方的极小值作为优化目标,通过区域填充算法生成参考图像点集的Voronoi图表... 针对传统的特征点配准算法时间复杂度高、容易陷入局部最优解的不足,提出一种基于Voronoi图表和进化策略的图像特征点配准方法.该方法以匹配点对的欧几里德距离均方的极小值作为优化目标,通过区域填充算法生成参考图像点集的Voronoi图表,将参考图像划分为若干不相交区域,每个子区域中含且只含一个特征点,且对给定子区域中的任意一点,离其最近的特征点即为该区域所含的特征点.在迭代过程中利用Voronoi图表信息并通过SVD方法和进化策略的混合算法求解目标函数.将该方法应用于多模医学图像配准,并与传统的ICP算法比较,结果表明在速度上该方法明显优于ICP算法,并且能够有效避免陷入局部最优解. 展开更多
关键词 VORONOI 图像特征点 进化策略 配准方法 图表 算法时间复杂度 局部最优 欧几里德距离 区域填充算法 医学图像配准 SVD方法 ICP算法 化目标 方法应用 目标函数 混合算法 过程 算法比较 子区域 极小 不相交 传统
在线阅读 下载PDF
非线性时间序列的最优相关维数估计 被引量:1
12
作者 滕丽娜 陈兆能 佟德纯 《上海交通大学学报》 EI CAS CSCD 北大核心 2002年第8期1214-1217,共4页
提出以能量谱中的截断频率之倒数作为相空间重构过程中的窗长 ,在窗长固定情况下 ,利用奇异值分解算法确定嵌入维数和时间延迟两个参数 ,克服了不考虑窗长单独选择嵌入维数和时间延迟造成的相关维数收敛性差的缺点 ,大大提高了计算效率 ... 提出以能量谱中的截断频率之倒数作为相空间重构过程中的窗长 ,在窗长固定情况下 ,利用奇异值分解算法确定嵌入维数和时间延迟两个参数 ,克服了不考虑窗长单独选择嵌入维数和时间延迟造成的相关维数收敛性差的缺点 ,大大提高了计算效率 .采用迭代奇异值分解算法对含噪声的信号进行降噪 ,降低了噪声对相关维数计算结果的影响 。 展开更多
关键词 非线性时间序列 最优相关维数估计 奇异分解 相空间重构 嵌入维数 时间延迟 降噪算法
在线阅读 下载PDF
16QAM调制下BICM-ID系统的最优多维映射
13
作者 宫丰奎 江桂芳 葛建华 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第21期5745-5747,共3页
研究16QAM星座调制下比特交织编码调制迭代译码(BICM-ID)系统的多维映射设计。通过对渐进误比特概率的分析,得到用以映射设计的距离准则。进一步利用修正的分段二进制切换算法(MBSA)搜索,得到准静态瑞利衰落信道下渐进性能近最优的四维1... 研究16QAM星座调制下比特交织编码调制迭代译码(BICM-ID)系统的多维映射设计。通过对渐进误比特概率的分析,得到用以映射设计的距离准则。进一步利用修正的分段二进制切换算法(MBSA)搜索,得到准静态瑞利衰落信道下渐进性能近最优的四维16QAM映射。仿真结果表明,采用四维16QAM映射的BICM-ID系统大幅改善了系统的渐进性能。 展开更多
关键词 比特交织编码调制译码 最优多维映射 二进制切换算法 渐进误比特概率
在线阅读 下载PDF
基于半马氏的无限阶段指数效用最优模型
14
作者 温鲜 霍海峰 《应用概率统计》 CSCD 北大核心 2023年第4期577-588,共12页
本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,... 本文考虑半马氏决策过程的指数效用最优问题,其中状态和行动空间均为Borel集,报酬函数非负.最优准则是最大化系统无限阶段内获取总报酬指数效用的期望值.首先,建立标准正则性条件确保状态过程非爆炸,连续-紧条件确保最优策略存在.其次,基于这些条件,利用值迭代和嵌入链技术,证明了值函数是相应最优方程的唯一解以及最优策略的存在性.最后,通过实例展示了如何利用值迭代算法计算值函数和最优策略. 展开更多
关键词 半马氏决策过程 指数效用 最优方程 最优策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部