期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于Sarsa算法的城轨列车节能控制策略研究 被引量:2
1
作者 孟建军 蒋小一 +1 位作者 陈晓强 胥如迅 《铁道标准设计》 北大核心 2024年第8期8-14,共7页
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连... 针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。 展开更多
关键词 城市轨道交通 节能 强化学习 sarsa算法 控制策略
在线阅读 下载PDF
基于SARSA(λ)的实时交通信号控制模型 被引量:8
2
作者 戈军 周莲英 《计算机工程与应用》 CSCD 北大核心 2015年第24期244-248,共5页
针对现有交通灯控制器缺乏过去经验的学习能力,导致其无法适应实际交通环境的动态变化,提出了一种基于SARSA(λ)的实时交通信号控制模型,并给出了一种交通信号优化模型及算法,该模型采用强化学习算法,得出交通控制的最优调度策略。仿真... 针对现有交通灯控制器缺乏过去经验的学习能力,导致其无法适应实际交通环境的动态变化,提出了一种基于SARSA(λ)的实时交通信号控制模型,并给出了一种交通信号优化模型及算法,该模型采用强化学习算法,得出交通控制的最优调度策略。仿真实验结果表明,所提模型优于现有交通控制模型,能更好地促进实时动态交通控制实现。 展开更多
关键词 状态-动作-回报-状态-动作 实时交通信号控制 强化学习 交通评价指标 时序差分学习
在线阅读 下载PDF
基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法 被引量:6
3
作者 肖飞 刘全 +2 位作者 傅启明 孙洪坤 高龙 《通信学报》 EI CSCD 北大核心 2013年第1期77-88,共12页
针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基... 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。 展开更多
关键词 强化学习 sarsa(λ) 梯度下降 势函数 塑造奖赏
在线阅读 下载PDF
一个因素化SARSA(λ)激励学习算法 被引量:8
4
作者 陈焕文 谢建平 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2001年第1期88-92,共5页
基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问... 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 . 展开更多
关键词 激励学习 状态聚类 MDPs sarsa(λ)学习
在线阅读 下载PDF
在策略SARSA算法在互联电网CPS最优控制中的应用 被引量:16
5
作者 余涛 张水平 《电力系统保护与控制》 EI CSCD 北大核心 2013年第1期211-216,共6页
CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统... CPS标准下的互联电网的自动发电控制(AGC)系统是一个典型的不确定随机系统,提出一种新型应用于AGC系统的随机最优控制策略——基于SARSA算法的互联电网CPS最优控制策略。SARSA算法更多地考虑控制策略动作的花费,倾向于避开进入随机系统中搜索一些危险的状态,相对于离策略(off-policy)的Q学习算法,在策略(on-policy)SARSA算法的学习试错过程中对受控系统影响更小。仿真结果表明,基于SARSA算法的CPS控制器较Q学习算法有更好的鲁棒性和适应性,能够获得更佳的CPS指标。 展开更多
关键词 随机控制 自动发电控制 CPS标准 sarsa算法 强化学习
在线阅读 下载PDF
一种最大集合期望损失的多目标Sarsa(λ)算法 被引量:3
6
作者 刘全 李瑾 +2 位作者 傅启明 崔志明 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2013年第8期1469-1473,共5页
针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练... 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算法LRGM-Sarsa(λ)算法.该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产生最优联合策略.在单个目标训练的过程中,采用基于改进MSBR误差函数的Sarsa(λ)算法,并对动作选择概率函数和步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题.将该算法应用到RoboCup射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 展开更多
关键词 多目标 自适应sarsa(λ) 最大集合期望损失 强化学习 机器人足球
在线阅读 下载PDF
基于强化学习的超高层建筑非法入侵情景推演方法
7
作者 胡今鸣 胡啸峰 +2 位作者 石磊 石拓 滕腾 《智能系统学报》 北大核心 2025年第4期958-968,共11页
为计算超高层建筑潜在非法入侵者的“最优”入侵路径,本文提出了一种基于强化学习的情景推演方法。该方法将建筑公共走廊抽象为拓扑结构,利用贝叶斯网络计算入侵者通过每个拓扑节点的概率,结合强化学习算法获得外部人员的最优入侵路径,... 为计算超高层建筑潜在非法入侵者的“最优”入侵路径,本文提出了一种基于强化学习的情景推演方法。该方法将建筑公共走廊抽象为拓扑结构,利用贝叶斯网络计算入侵者通过每个拓扑节点的概率,结合强化学习算法获得外部人员的最优入侵路径,为超高层建筑非法入侵的高效防范提供精准依据。为验证方法的有效性,以北京市CBD地区某超高层建筑为例,将入侵终点设置为顶层,设计了3种不同的入侵情景。情景推演结果表明:在初始状态下(未进行任何优化措施),SARSA模型的训练性能最佳。优化安防系统后发现,在建筑内的层间节点增加安防系统投入最有效。该优化情景下,安防系统投入与风险值的非线性拟合结果显示,随着安防系统投入的增加,入侵风险显著降低。 展开更多
关键词 非法入侵 情景推演 超高层建筑 强化学习 贝叶斯网络 安防系统 sarsa模型 非线性回归
在线阅读 下载PDF
一种基于状态聚类的SARSA(λ)强化学习算法 被引量:3
8
作者 李春贵 吴沧浦 刘永信 《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页
为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法... 为求解大状态空间的强化学习问题,提出了一种基于状态聚类的SARSA(λ)强化学习算法,其基本思想是利用先验知识或事先训练控制器,对状态空间进行聚类,分为不同的簇,然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类,算法将可得到一个相对好的近似值函数. 展开更多
关键词 sarsa(λ)强化学习算法 状态聚类 强化学习 函数近似 sarsa学习 人工神经网络
在线阅读 下载PDF
一种集成规划的SARSA(λ)强化学习算法 被引量:2
9
作者 李春贵 吴沧浦 刘永信 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第3期325-327,共3页
提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出... 提出一种新的集成规划的 SARSA(λ)强化学习算法 .该算法的主要思想是充分利用已有的经验数据 ,在无模型学习的同时估计系统模型 ,每进行一次无模型学习的试验后 ,利用模型在所记忆的状态 /行动对组成的表中进行规划 ,同时利用该表给出了在学习和规划之间的量化折中参考 .实验结果表明 ,本算法比单纯的无模型学习SARSA(λ) 展开更多
关键词 强化学习 MARKOV决策过程 sarsa学习 规划
在线阅读 下载PDF
基于SARSA算法的水库长期随机优化调度研究 被引量:12
10
作者 李文武 张雪映 +1 位作者 Daniel Eliote Mbanze 吴巍 《水电能源科学》 北大核心 2018年第9期72-75,共4页
针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解... 针对水库长期随机调度的维数灾问题,在描述来水随机过程的基础上,提出基于强化学习理论的水库长期随机优化调度模型。采用机器学习中有模型的SARSA算法,且考虑入库随机变量的马尔可夫特性,通过贪婪决策与近似值迭代,调整学习参数,求解出近似最优决策序列。实例分析表明,对比随机动态规划(SDP)方法,SARSA算法在获得高质量解的同时,计算时间约减少41%,该算法高效求解能力与较少计算时长为水库长期随机调度问题提供了一种新的求解思路。 展开更多
关键词 水库调度 随机动态规划 强化学习 值迭代 sarsa
在线阅读 下载PDF
基于5要素试错更新算法SARSA(λ)的自动发电控制 被引量:2
11
作者 余涛 张水平 《控制理论与应用》 EI CAS CSCD 北大核心 2013年第10期1246-1251,共6页
本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal con... 本文提出了一种基于5要素试错更新算法SARSA(λ)强化学习的随机最优自动发电控制方法.该方法不依赖任何系统模型和先验知识并通过试错机理寻求最优控制策略.以控制性能标准(control performance standards,CPS)和区域控制偏差(areal control error,ACE)瞬时滚动值为基础设计了即时奖励函数,有效提高了该方法的收敛速度和控制效果,并在算法中融入了资格迹以解决二次调频过程的延时问题.本文所提出的控制方法在进行状态空间搜索时,能有效摆脱避免搜索较大扰动状态,以此获得更佳的控制效果.标准两区域和南方电网仿真模型研究表明,本算法能给系统提供更加安全的控制策略,具有比Q(λ)算法更好的控制性能,有效提高CPS考核的合格率. 展开更多
关键词 sarsa(λ)算法 自动发电控制 强化学习 控制性能标准(CPS)
在线阅读 下载PDF
基于Sarsa算法的无人直升机悬停控制 被引量:1
12
作者 蔡文澜 王俊生 +1 位作者 税海涛 马宏绪 《兵工自动化》 2007年第7期54-56,共3页
无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网... 无人直升机悬停控制,利用Sarsa增强学习算法设计。将Sarsa增强学习算法与多层前馈神经网络相结合,对控制器参数进行在线调整,实现对微小型无人直升机悬停控制性能的在线优化。增强学习的值函数逼近器采用N10-12-16结构的多层前馈神经网络,权值学习采用直接梯度下降的近似梯度迭代算法,用ε-Greed策略进行行为选择。 展开更多
关键词 无人直升机 悬停控制 sarsa增强学习算法 多层前馈神经网络
在线阅读 下载PDF
基于SARSA算法的风电——抽蓄联合系统日随机优化研究 被引量:8
13
作者 李文武 郑凯新 +1 位作者 刘江鹏 贺中豪 《水电能源科学》 北大核心 2020年第11期72-76,共5页
针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方... 针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方最小为目标函数的日随机优化模型;最后说明利用SARSA算法求解该问题的步骤。算例应用结果表明,利用SARSA算法求解该问题需迭代一定次数才收敛,且算法的学习率随迭代次数增加而减小时可加快算法收敛速度;将SARSA算法与随机动态规划算法相比,在优化结果接近的情况下,SARSA算法计算时间减少约35%,该算法为解决随机多能互补问题提供了新思路。 展开更多
关键词 风蓄随机优化调度 强化学习 sarsa算法 学习率
在线阅读 下载PDF
基于SARSA算法的水声通信自适应调制 被引量:5
14
作者 王安义 李萍 张育芝 《科学技术与工程》 北大核心 2020年第16期6505-6509,共5页
水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SA... 水声信道复杂多变,自适应调制系统中反馈信息存在较大的时延,实际信道状态与接收到的反馈信息无法匹配,带来反馈信道状态信息过时问题,发送端不能准确做出自适应决策进而导致传输误码高及吞吐量低等问题。针对该问题,利用强化学习中的SARSA算法学习信道的变化并进行行为策略的选择,根据信道的变化,择优选出最佳的调制方式,以改善系统的传输误码和通信吞吐量。对比固定调制方式和直接反馈情况下的系统的误码率和吞吐量,结果表明,经强化学习后的系统误码率和吞吐量均优于其他两种方式,可见,强化学习算法在时变水声信道自适应调制中改善传输误码和吞吐量的问题上是有效可行的。 展开更多
关键词 水声通信 自适应调制 强化学习 sarsa算法
在线阅读 下载PDF
一种新的基于值函数迁移的快速Sarsa算法 被引量:3
15
作者 傅启明 刘全 +2 位作者 尤树华 黄蔚 章晓芳 《电子学报》 EI CAS CSCD 北大核心 2014年第11期2157-2161,共5页
知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息... 知识迁移是当前机器学习领域的一个新的研究热点.其基本思想是通过将经验知识从历史任务到目标任务的迁移,达到提高算法收敛速度和收敛精度的目的.针对当前强化学习领域中经典算法收敛速度慢的问题,提出在学习过程中通过迁移值函数信息,减少算法收敛所需要的样本数量,加快算法的收敛速度.基于强化学习中经典的在策略Sarsa算法的学习框架,结合值函数迁移方法,优化算法初始值函数的设置,提出一种新的基于值函数迁移的快速Sarsa算法——VFT-Sarsa.该算法在执行前期,通过引入自模拟度量方法,在状态空间以及动作空间一致的情况下,对目标任务中的状态与历史任务中的状态之间的距离进行度量,对其中相似并满足一定条件的状态进行值函数迁移,而后再通过学习算法进行学习.将VTF-Sarsa算法用于Random Walk问题,并与经典的Sarsa算法、Q学习算法以及具有较好收敛速度的QV算法进行比较,实验结果表明,该算法在保证收敛精度的基础上,具有更快的收敛速度. 展开更多
关键词 强化学习 VFT-sarsa算法 自模拟度量 值函数迁移
在线阅读 下载PDF
基于组合神经网络的Sarsa(λ)学习算法
16
作者 殷苌茗 付超红 +1 位作者 薛丽华 李立云 《计算机工程与设计》 CSCD 北大核心 2008年第22期5817-5819,5823,共4页
标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对。为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进... 标准的Sarsa(λ)算法对状态空间的要求是离散的且空间较小,而实际问题中很多系统的状态空间是连续的或尽管是离散的但空间较大,这就需要很大的内存来存储状态动作对。为此提出组合神经网络,首先用自组织映射(SOM)神经网络对状态空间进行自适应量化,然后在此基础上用BP网络拟合Q函数。该方法实现了Sarsa(λ)算法在连续和大规模状态空间的泛化。最后,实验结果表明了该方法的有效性。 展开更多
关键词 组合神经网络 强化学习 自组织映射 BP网络 sarsa算法
在线阅读 下载PDF
移动机器人模糊Sarsa(λ)学习导航研究
17
作者 陈卫东 关永贞 +1 位作者 朱奇光 赵成龙 《小型微型计算机系统》 CSCD 北大核心 2013年第11期2599-2602,共4页
针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,... 针对复杂未知环境下难以获得完善的模糊导航控制规则以及传统的强化学习算法不能解决连续状态空间和连续动作空间的学习问题,提出了一种模糊强化学习算法.通过将模糊推理系统和强化学习算法相结合,设计了一种模糊强化学习系统,一方面,在缺乏专家经验的情况下,利用强化学习中的Sarsa(λ)学习算法来获取模糊逻辑控制器的模糊规则库,另一方面,利用模糊推理系统所具有的广泛逼近性,使机器人在学习时可以遍历到每一个状态动作对.同时将有限的专家经验引入到模糊推理系统,使Sarsa(λ)学习具备一定的先验知识,从而加快学习速度.仿真实验表明,该方法具有较好的实时性和鲁棒性,能够有效解决移动机器人在未知复杂环境中的导航问题. 展开更多
关键词 sarsa(λ)学习 模糊强化学习算法 模糊推理系统 机器人导航
在线阅读 下载PDF
基于SARSA在线规划的软件体系结构自适应
18
作者 周勇 王苹 《计算机应用研究》 CSCD 北大核心 2012年第5期1756-1760,共5页
提出基于SARSA算法的在线规划软件体系结构自适应方法,用来解决由于环境内在固有的不确定性、复杂性和不可预见性而产生的离线规划的局限性。在线规划方法指可以根据当前的环境状况自动选择行动的规划方法。结合Robocode的实例详细阐述... 提出基于SARSA算法的在线规划软件体系结构自适应方法,用来解决由于环境内在固有的不确定性、复杂性和不可预见性而产生的离线规划的局限性。在线规划方法指可以根据当前的环境状况自动选择行动的规划方法。结合Robocode的实例详细阐述了实现基于SARSA算法的在线规划方法的三个关键问题和过程策略;为解决自适应的状态和行动表述、适应度和可受理集合关键问题,提出了自适应在线规划的策略。最后用Robocode的坦克战斗实例,证明了基于SARSA在线规划软件体系结构自适应方法的可行性和有效性。 展开更多
关键词 自适应 软件体系结构 在线规划 sarsa
在线阅读 下载PDF
基于SARSA学习算法的USB块传输研究
19
作者 张秋云 江虹 《中山大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第5期73-78,共6页
目前USB在PC外设中应用越来越多,传输数据量不断增加对USB传输效率要求越来越高。但实际应用中因USB系统软件、设备自身特性等因素的影响,使得数据传输过程中USB带宽资源浪费严重。针对该问题,利用SARSA学习算法设计一种USB块传输事务... 目前USB在PC外设中应用越来越多,传输数据量不断增加对USB传输效率要求越来越高。但实际应用中因USB系统软件、设备自身特性等因素的影响,使得数据传输过程中USB带宽资源浪费严重。针对该问题,利用SARSA学习算法设计一种USB块传输事务调度方法,根据当前状态智能的分配每一帧中的事务。仿真结果表明,在多种块传输情况下,该方法与系统方式相比明显提高了USB带宽有效利用率和吞吐量。 展开更多
关键词 USB sarsa 块传输 USB带宽有效利用率
在线阅读 下载PDF
折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析
20
作者 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第9期86-88,共3页
分析了折扣激励学习存在的问题,对MDPs的SARSA(λ)算法进行了折扣的比较实验分析,讨论了平均奖赏常量对无折扣SARSA(()算法的影响。
关键词 机器学习 激励学习 sarsa(λ)算法 实例分析 MDPs
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部