期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于分层马尔可夫决策过程的AUV全局路径规划研究 被引量:3
1
作者 洪晔 王宏健 边信黔 《系统仿真学报》 EI CAS CSCD 北大核心 2008年第9期2361-2363,2367,共4页
自主路径规划是自治式水下机器人(AUV)自主能力的重要体现,是保障AUV在大范围复杂海洋环境中自主完成使命作业的关键技术之一。提出了基于马尔可夫决策过程的路径规划方法;并建立了基本的马尔可夫决策模型和结合状态聚类的分层马尔可夫... 自主路径规划是自治式水下机器人(AUV)自主能力的重要体现,是保障AUV在大范围复杂海洋环境中自主完成使命作业的关键技术之一。提出了基于马尔可夫决策过程的路径规划方法;并建立了基本的马尔可夫决策模型和结合状态聚类的分层马尔可夫决策模型,同时给出了两种规划的仿真实验及结果分析。实验证明,此类方法能够很好地求解大范围复杂环境内AUV的二维路径规划问题。 展开更多
关键词 自治式水下机器人 马尔可夫决策过程 分层马尔可夫决策过程 路径规划 仿真
在线阅读 下载PDF
分层网络中基于马尔可夫决策过程的能效优先的接纳控制和业务转移算法 被引量:1
2
作者 潘军 张文逸 《中国科学技术大学学报》 CAS CSCD 北大核心 2014年第2期138-146,共9页
在分层蜂窝网络中,为了改善网络的性能,同时部署了宏基站和家庭基站.考虑各种切换以及新到达业务,以阻塞率和掉话率为约束条件,以最大化系统平均能量效用回报函数为目标,将宏基站/家庭基站分层网络的接纳控制和业务转移问题建模成马尔... 在分层蜂窝网络中,为了改善网络的性能,同时部署了宏基站和家庭基站.考虑各种切换以及新到达业务,以阻塞率和掉话率为约束条件,以最大化系统平均能量效用回报函数为目标,将宏基站/家庭基站分层网络的接纳控制和业务转移问题建模成马尔可夫决策过程优化问题.当家庭基站中有空闲资源时,可以将连接到宏基站而处在家庭基站覆盖范围的业务切换到家庭基站中.通过求解线性方程得到最优的接纳策略.仿真结果表明,最优接纳和转移策略在获得最大的平均效用的情况下,有效提高了家庭基站的资源利用率,降低了业务阻塞率和掉话率;同时,宏基站的资源利用率降低使得它可以为更大覆盖范围内的用户提供服务. 展开更多
关键词 接纳控制 家庭基站 分层网络 马尔可夫决策过程
在线阅读 下载PDF
基于HMDP的无人机三维路径规划 被引量:8
3
作者 洪晔 房建成 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第1期100-103,共4页
路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV... 路径规划是UAV(Unmanned Aerial Vehicle)自主飞行的重要保障.初步建立了基于MDP(Markov Decision Processes)的全局路径规划模型,把UAV的路径规划看作是给定环境模型和奖惩原则的情况下,寻求最优策略的问题;为解决算法时空开销大、UAV航向改变频繁的缺点,提出一种基于状态聚类方法的HMDP(Hierarchical Markov Decision Processes)模型,并将其拓展到三维规划中.仿真实验证明:这种简单的规划模型可以有效解决UAV的三维全局路径规划问题,为其在实际飞行中的局部规划奠定了基础. 展开更多
关键词 无人机(UAV) 路径规划 马尔可夫决策过程(MDP) 分层马尔可夫决策过程(hmdp) 仿真
在线阅读 下载PDF
分层强化学习研究进展 被引量:7
4
作者 彭志平 李绍平 《计算机应用研究》 CSCD 北大核心 2008年第4期974-978,共5页
首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强... 首先介绍了半马尔可夫决策过程、分层与抽象等分层强化学习的理论基础;其次,较全面地比较HAM、options、MAXQ和HEXQ四种典型的学习方法,从典型学习方法的拓展、学习分层、部分感知马尔可夫决策过程、并发和多agent合作等方面讨论分层强化学习的研究现状;最后指出分层强化学习未来的发展方向。 展开更多
关键词 分层强化学习 马尔可夫决策过程 抽象
在线阅读 下载PDF
基于分层POMDP的智能轮椅行为控制方法 被引量:3
5
作者 陶永 王田苗 +1 位作者 魏洪兴 陈殿生 《高技术通讯》 CAS CSCD 北大核心 2010年第6期613-617,共5页
针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综... 针对部分可观察马尔可夫决策过程(POMDP)模型在智能轮椅控制上的应用因模型参数难以确定而受到限制的问题,将POMDP模型决策过程中的动作空间分成一系列较小动作子集,进而提出了一种基于分层POMDP模型的智能轮椅行为控制方法。该方法综合了动作的不确定性和状态的部分可观测性,通过对环境的观测和信息的采集,得到不确定环境下的最优策略选择,进而选择相应的最优动作,从而提高了动作的执行效率。在室内家居环境下进行的交互任务与导航控制试验以及对实验结果进行的分析验证了这一方法的实时性、有效性和可靠性。 展开更多
关键词 智能轮椅 行为控制方法 分层的部分可观测马尔可夫决策过程(POMDP)模型
在线阅读 下载PDF
基于符号知识的选项发现方法
6
作者 王麒迪 沈立炜 吴天一 《计算机科学》 北大核心 2025年第1期277-288,共12页
基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结... 基于选项(Option)的层次化策略学习是分层强化学习领域的一种主要实现方式。其中,选项表示特定动作的时序抽象,一组选项以多层次组合的方式可解决复杂的强化学习任务。针对选项发现这一目标,已有的研究工作使用监督或无监督方式从非结构化演示轨迹中自动发现有意义的选项。然而,基于监督的选项发现过程需要人为分解任务问题并定义选项策略,带来了大量的额外负担;无监督方式发现的选项则难以包含丰富语义,限制了后续选项的重用。为此,提出一种基于符号知识的选项发现方法,只需对环境符号建模,所得知识可指导环境中多种任务的选项发现,并为发现的选项赋予符号语义,从而在新任务执行时被重复使用。将选项发现过程分解为轨迹切割和行为克隆两阶段步骤:轨迹切割旨在从演示轨迹提取具备语义的轨迹片段,为此训练一个面向演示轨迹的切割模型,引入符号知识定义强化学习奖励评价切割的准确性;行为克隆根据切割得到的数据监督训练选项,旨在使选项模仿轨迹行为。使用所提方法在多个包括离散和连续空间的领域环境中分别进行了选项发现和选项重用实验。选项发现中轨迹切割部分的实验结果显示,所提方法在离散和连续空间环境中的切割准确率均高出基线方法数个百分点,并在复杂环境任务的切割中提高到20%。另外,选项重用实验的结果证明,相较于基线方法,赋予符号语义增强的选项在新任务重用上拥有更快的训练速度,并在基线方法无法完成的复杂任务中仍然得到良好收敛。 展开更多
关键词 分层强化学习 演示学习 选项发现 马尔可夫决策过程
在线阅读 下载PDF
深度分层强化学习研究与发展 被引量:9
7
作者 黄志刚 刘全 +2 位作者 张立华 曹家庆 朱斐 《软件学报》 EI CSCD 北大核心 2023年第2期733-760,共28页
深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒... 深度分层强化学习是深度强化学习领域的一个重要研究方向,它重点关注经典深度强化学习难以解决的稀疏奖励、顺序决策和弱迁移能力等问题.其核心思想在于:根据分层思想构建具有多层结构的强化学习策略,运用时序抽象表达方法组合时间细粒度的下层动作,学习时间粗粒度的、有语义的上层动作,将复杂问题分解为数个简单问题进行求解.近年来,随着研究的深入,深度分层强化学习方法已经取得了实质性的突破,且被应用于视觉导航、自然语言处理、推荐系统和视频描述生成等生活领域.首先介绍了分层强化学习的理论基础;然后描述了深度分层强化学习的核心技术,包括分层抽象技术和常用实验环境;详细分析了基于技能的深度分层强化学习框架和基于子目标的深度分层强化学习框架,对比了各类算法的研究现状和发展趋势;接下来介绍了深度分层强化学习在多个现实生活领域中的应用;最后,对深度分层强化学习进行了展望和总结. 展开更多
关键词 人工智能 强化学习 深度强化学习 马尔可夫决策过程 深度分层强化学习
在线阅读 下载PDF
分层强化学习综述 被引量:21
8
作者 周文吉 俞扬 《智能系统学报》 CSCD 北大核心 2017年第5期590-594,共5页
强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方... 强化学习(reinforcement learning)是机器学习和人工智能领域的重要分支,近年来受到社会各界和企业的广泛关注。强化学习算法要解决的主要问题是,智能体如何直接与环境进行交互来学习策略。但是当状态空间维度增加时,传统的强化学习方法往往面临着维度灾难,难以取得好的学习效果。分层强化学习(hierarchical reinforcement learning)致力于将一个复杂的强化学习问题分解成几个子问题并分别解决,可以取得比直接解决整个问题更好的效果。分层强化学习是解决大规模强化学习问题的潜在途径,然而其受到的关注不高。本文将介绍和回顾分层强化学习的几大类方法。 展开更多
关键词 人工智能 机器学习 强化学习 分层强化学习 深度强化学习 马尔可夫决策过程 马尔可夫决策过程 维度灾难
在线阅读 下载PDF
基于深度强化学习的家庭能量管理分层优化策略 被引量:17
9
作者 张甜 赵奇 +3 位作者 陈中 王瑞升 邢强 田江 《电力系统自动化》 EI CSCD 北大核心 2021年第21期149-158,共10页
为实现需求侧最大效益,提出一种能够应对复杂环境的基于深度强化学习(DRL)的分层能量调度方法。首先,构建家庭能量管理系统(HEMS)双层框架,通过改变第2层储能系统的充放电功率解决第1层因满足用户用电需求和减少电费所造成负荷集中至低... 为实现需求侧最大效益,提出一种能够应对复杂环境的基于深度强化学习(DRL)的分层能量调度方法。首先,构建家庭能量管理系统(HEMS)双层框架,通过改变第2层储能系统的充放电功率解决第1层因满足用户用电需求和减少电费所造成负荷集中至低电价时段导致的功率越限,而后根据各用电设备的负荷特性对其进行分类和建模。其次,采用马尔可夫决策过程(MDP)对能量管理问题进行建模,利用奖励函数代替目标函数和约束条件。然后,引入Rainbow算法优化策略以最大化长期收益,实现经济且高效的在线调度。最后,对一个包括光伏板、储能系统、各种用电设备以及电动汽车的家庭进行仿真,验证了所提方法在应对不确定性问题上的有效性和优越性。 展开更多
关键词 家庭能量管理系统 需求响应 分层能量调度 马尔可夫决策过程 深度强化学习 Rainbow算法
在线阅读 下载PDF
基于动作空间划分的MAXQ自动分层方法
10
作者 王奇 秦进 《计算机应用》 CSCD 北大核心 2017年第5期1357-1362,共6页
针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划... 针对分层强化学习需要人工给出层次结构这一问题,同时考虑到基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想的情况,提出一种基于动作空间的自动构造层次结构方法。首先,根据动作影响的状态分量将动作集合划分为多个不相交的子集;然后,分析Agent在不同状态下的可用动作,并识别瓶颈动作;最后,由瓶颈动作与执行次序确定动作子集之间的上下层关系,并构造层次结构。此外,对MAXQ方法中子任务的终止条件进行修改,使所提算法构造的层次结构可以通过MAXQ方法找到最优策略。实验结果表明,所提算法可以自动构造层次结构,而不会受环境变化的干扰。与Q学习、Sarsa算法相比,MAXQ方法根据该结构得到最优策略的时间更短,获得回报更高。验证了所提算法能够有效地自动构造MAXQ层次结构,并使寻找最优策略更加高效。 展开更多
关键词 强化学习 分层强化学习 自动分层方法 马尔可夫决策过程 子任务
在线阅读 下载PDF
基于分层强化学习的智能化攻击路径发现方法 被引量:4
11
作者 曾庆伟 张国敏 +1 位作者 邢长友 宋丽华 《计算机科学》 CSCD 北大核心 2023年第7期308-316,共9页
智能化攻击路径发现是开展自动化渗透测试的一项关键技术,但现有方法面临着状态、动作空间呈指数型增长和奖励稀疏等问题,导致算法难以收敛。为此,提出了一种基于分层强化学习的智能化攻击路径发现方法iPathD(Intelligent Path Discove... 智能化攻击路径发现是开展自动化渗透测试的一项关键技术,但现有方法面临着状态、动作空间呈指数型增长和奖励稀疏等问题,导致算法难以收敛。为此,提出了一种基于分层强化学习的智能化攻击路径发现方法iPathD(Intelligent Path Discovery)。iPathD将攻击路径发现过程构建为一个分层的马尔可夫决策过程,以分别描述上层的主机间渗透路径发现和下层的单主机内部攻击路径发现,并在此基础上提出并实现了一种基于分层强化学习的攻击路径发现算法。实验结果表明,与传统基于DQN(Deep Q Learning)及其改进算法的方法相比,iPathD路径发现方法更加快速有效,并且随着主机中漏洞数目的增加,iPathD的效果更好,且适用于大规模的网络场景。 展开更多
关键词 渗透测试 马尔可夫决策过程 分层强化学习 攻击路径发现 DQN算法
在线阅读 下载PDF
电力线路巡检飞行机器人三维轨迹生成方法 被引量:2
12
作者 柳长安 杨国田 +1 位作者 吴华 周宏 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第12期1822-1827,共6页
在马尔可夫模型的基础上,研究了一种电力线路巡检飞行机器人的轨迹生成方法.结合电力线路巡检飞行机器人控制的基本标准并利用三维空间的高度分层,提出了一种基于状态聚类方法的分层马尔可夫决策过程模型.在飞行机器人原有轨迹上,得到... 在马尔可夫模型的基础上,研究了一种电力线路巡检飞行机器人的轨迹生成方法.结合电力线路巡检飞行机器人控制的基本标准并利用三维空间的高度分层,提出了一种基于状态聚类方法的分层马尔可夫决策过程模型.在飞行机器人原有轨迹上,得到一种符合其动力学约束的飞行轨迹.最后,利用电力线巡检飞行机器人仿真实验工具,把该方法策略应用于其中,验证了其有效性和正确性. 展开更多
关键词 电力线路巡检飞行机器人 分层马尔可夫决策过程 三维轨迹生成
在线阅读 下载PDF
家庭基站网络中基于移动和业务的接纳控制算法
13
作者 潘军 张文逸 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2014年第1期139-144,共6页
在分层蜂窝网络中,为改善网络容量,同时部署宏基站和家庭基站.本文对该网络中家庭基站的接纳控制进行研究.根据数据业务的到达/离开和用户移动性之间的时序关系,将家庭基站小区接受的数据业务分成4类.基于部分可观测的马尔可夫决策过程... 在分层蜂窝网络中,为改善网络容量,同时部署宏基站和家庭基站.本文对该网络中家庭基站的接纳控制进行研究.根据数据业务的到达/离开和用户移动性之间的时序关系,将家庭基站小区接受的数据业务分成4类.基于部分可观测的马尔可夫决策过程理论,提出针对分层网络的接纳控制分析模型,同时考虑带宽资源利用时间和信令开销.仿真结果证明了所提算法的有效性. 展开更多
关键词 接纳控制 家庭基站小区 分层无线网络 部分可观测的马尔可夫决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部