期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
多步截断SARSA强化学习算法 被引量:5
1
作者 李春贵 林海涛 刘永信 《广西工学院学报》 CAS 2002年第1期1-4,共4页
提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ)
关键词 强化学习 MARKOV决策过程 Q学习 SQRSA学习 机器学习 多步截断sarsa强化学习算法
在线阅读 下载PDF
基于Sarsa算法的城轨列车节能控制策略研究 被引量:2
2
作者 孟建军 蒋小一 +1 位作者 陈晓强 胥如迅 《铁道标准设计》 北大核心 2024年第8期8-14,共7页
针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连... 针对城市轨道交通节能运行问题,提出一种基于Sarsa强化学习算法的城轨列车节能控制策略,实现了城轨列车在自动驾驶状态下,面对不同路况,执行减少能源消耗驾驶策略的同时兼顾准时性和舒适性。根据线路条件将列车状态进行离散化处理,将连续的驾驶过程分为若干个子区间进行分段求解。结合区间限速、初始状态、终末状态等限制条件,基于能耗及运行时间分别构造适当的奖励函数。同时,用当前状态下可达的最大速度与最小速度对可选速度集合进行限制,缩小探索空间,加快算法收敛。最后,通过对北京铁路亦庄线小红门站至肖村站的实例进行仿真。实验结果表明,与传统的动态规划方法相比,Sarsa算法在满足舒适性和准时性要求的情况下节能9.32%。相比于强化学习中的Q学习算法,在速度的选取过程中,超速次数也有明显下降。仿真结果证明Sarsa算法具有更好的节能效果和安全性。在算法参数不变的情况下,调整限速条件,与传统动态规划算法进行二次对比,依旧节能4.21%,验证了算法的鲁棒性。 展开更多
关键词 城市轨道交通 节能 强化学习 sarsa算法 控制策略
在线阅读 下载PDF
强化学习的模型、算法及应用 被引量:9
3
作者 战忠丽 王强 陈显亭 《电子科技》 2011年第1期47-49,共3页
强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函... 强化学习不需要具有先验知识,通过试错与环境交互获得策略的改进,具有自学习和在线学习能力,是构造智能体的核心技术之一。文中首先综述了强化学习模型和基本原理,然后介绍了强化学习的主要算法,包括Sarsa算法、TD算法、Q-学习算法及函数估计算法,最后介绍了强化学习的应用情况及未来研究方向。 展开更多
关键词 强化学习 sarsa算法 瞬时差分算法 Q-学习算法 函数估计
在线阅读 下载PDF
强化学习算法在雷达智能抗干扰中的应用 被引量:13
4
作者 汪浩 王峰 《现代雷达》 CSCD 北大核心 2020年第3期40-44,48,共6页
雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强... 雷达在工作过程中所应对的干扰场景复杂且多变,所具有的反干扰措施难以穷举。人工设计的反干扰流程与抑制策略在面对这些对抗场景时,由于受限于专家的经验知识,其反干扰性能难以保证。对此,文中从雷达抗干扰的应用需求出发,通过引入强化学习方法,提出一种基于强化学习模型的智能抗干扰方法。分别利用Q学习与Sarsa两种典型的强化学习算法对反干扰模型中的值函数进行了计算并迭代,使得反干扰策略具备了自主更新与优化功能。仿真结果表明,强化学习算法在训练过程中能够收敛并实现反干扰策略的优化。相比于传统的反干扰设计手段,雷达反干扰的智能化程度得到了有效提升。 展开更多
关键词 智能雷达 强化学习 干扰抑制 策略优化 Q学习 sarsa算法
在线阅读 下载PDF
基于改进Sarsa算法的拖轮动态调度方法
5
作者 李佳琛 段兴锋 《重庆科技学院学报(自然科学版)》 CAS 2024年第3期42-48,共7页
从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动... 从优化Sarsa算法的角度展开拖轮动态调度方法研究。采用强化学习框架并结合拖轮的状态和环境信息,建立状态-动作函数,进而搜索拖轮调度最佳策略。改进Sarsa算法中Q函数的更新方式,以克服收敛速度慢的问题。同时,根据学习率选择模式和动作选择方式,对探索策略与利用策略加以平衡,以提高算法的收敛速度和性能。算例仿真实验结果表明,采用该算法可有效缩短船舶等待时间,进而提升拖轮资源的利用效率。 展开更多
关键词 sarsa算法 拖轮 自适应调度 强化学习 算法策略
在线阅读 下载PDF
基于隐偏向信息学习的强化学习算法 被引量:4
6
作者 李学勇 欧阳柳波 李国徽 《南华大学学报(理工版)》 2004年第2期10-16,共7页
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信... 传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率. 展开更多
关键词 强化学习 MARKOV决策过程 隐偏向信息 sarsa算法 复杂度
在线阅读 下载PDF
强化学习方法在移动机器人导航中的应用 被引量:8
7
作者 陆军 徐莉 周小平 《哈尔滨工程大学学报》 EI CAS CSCD 2004年第2期176-179,共4页
路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.... 路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力. 展开更多
关键词 强化学习 sarsa(A)算法 CMAC神经网络 局部路径规划
在线阅读 下载PDF
基于SARSA算法的风电——抽蓄联合系统日随机优化研究 被引量:7
8
作者 李文武 郑凯新 +1 位作者 刘江鹏 贺中豪 《水电能源科学》 北大核心 2020年第11期72-76,共5页
针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方... 针对随机动态规划在求解风电—抽蓄联合系统日随机优化时出现的维数灾问题,提出采用强化学习的SARSA算法来解决。首先分析了风电出力随机性并采用Beta分布来表示风电出力的概率分布;然后建立了风蓄联合系统实际出力与计划出力偏差平方最小为目标函数的日随机优化模型;最后说明利用SARSA算法求解该问题的步骤。算例应用结果表明,利用SARSA算法求解该问题需迭代一定次数才收敛,且算法的学习率随迭代次数增加而减小时可加快算法收敛速度;将SARSA算法与随机动态规划算法相比,在优化结果接近的情况下,SARSA算法计算时间减少约35%,该算法为解决随机多能互补问题提供了新思路。 展开更多
关键词 风蓄随机优化调度 强化学习 sarsa算法 学习
在线阅读 下载PDF
基于n步Q-learning算法的风电抽水蓄能联合系统日随机优化调度研究 被引量:5
9
作者 李文武 马浩云 +1 位作者 贺中豪 徐康 《水电能源科学》 北大核心 2022年第1期206-210,共5页
针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分... 针对Q-learning算法求解风电抽蓄联合系统日随机优化调度中,存在功率偏差大及收敛速度慢的问题,提出基于n步Q-learning算法的风电抽蓄日随机优化调度方法。先将风电出力随机过程视为Markov过程并建立风电抽蓄日随机优化调度模型;其次分析n步Q-learning算法应用于优化调度模型中的优势;最后按照应用流程求解优化调度模型。算例表明,n步Q-learning算法的优化结果与n步和学习率取值有关,当两个参数取值适中时能得到最优功率偏差结果,在求解该问题上对比n步Q-learning与Q-learning算法,前者能更快收敛且较后者功率偏差降低7.4%、求解时间降低10.4%,验证了n步Q-learning算法的求解优越性。 展开更多
关键词 风蓄随机优化调度 强化学习 Q-learning算法 n自举法
在线阅读 下载PDF
基于Q-学习算法的矿井自适应OFDM调制研究 被引量:1
10
作者 朱静茹 张育芝 +1 位作者 王安义 李萍 《工矿自动化》 北大核心 2021年第6期109-115,共7页
针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自... 针对传统基于固定信噪比门限的自适应OFDM(正交频分复用)调制技术应用于复杂矿井信道时,由于反馈信道状态与实际信道状态不能完全匹配,导致误码率高和吞吐量低的问题,提出了一种基于Q-学习算法的自适应OFDM调制方法,并将其应用于矿井自适应OFDM调制系统。该系统由发送端、矿井无线信道和接收端组成,发送端为矿井下装有传感器的小车,可以在狭长的巷道内自由移动。发送端利用Q-学习算法在与矿井无线信道的动态交互中不断更新状态-动作值函数,并根据更新的状态-动作值函数,采用贪婪策略来选择调制方式,逼近最优自适应调制策略,以达到降低系统误码率、提高通信吞吐量的目的。与基于SARSA算法、固定信噪比门限的2种矿井自适应OFDM调制系统性能进行仿真对比,结果表明:矿井小车在匀速和移动速度变化状态下,基于Q-学习算法的自适应OFDM调制系统平均误码率分别为1.1×10-3,2.1×10-3,总吞吐量分别为3115 bit,2719 bit,均优于基于SARSA算法和固定信噪比门限的自适应OFDM调制系统,且系统中Q-学习算法收敛速度优于SARSA算法。 展开更多
关键词 矿井无线通信 信道自适应调制 正交频分复用 强化学习 Q-学习算法 sarsa算法 OFDM
在线阅读 下载PDF
命名数据网络中的一种主动拥塞控制机制研究 被引量:1
11
作者 王亚东 张悦 +1 位作者 陈延祥 张宇 《载人航天》 CSCD 北大核心 2020年第1期69-75,共7页
命名数据网络由于缓存的作用及多路径和多播的传输特点,使得传统的拥塞控制策略不再适用。从命名数据网络转发策略的角度出发,结合强化学习中的Sarsa(λ)算法,提出了一种以最小时延为目标的拥塞控制算法。该算法考虑了链路延迟和中断的... 命名数据网络由于缓存的作用及多路径和多播的传输特点,使得传统的拥塞控制策略不再适用。从命名数据网络转发策略的角度出发,结合强化学习中的Sarsa(λ)算法,提出了一种以最小时延为目标的拥塞控制算法。该算法考虑了链路延迟和中断的影响,利用NDN中路由节点的计算和学习能力,使用Sarsa(λ)算法实现命名数据网络中网络包的智能转发。在基于ns-3的ndnSIM仿真平台下进行性能测试,并和已有的采用滑窗机制的Best route算法、Multicast算法和RF算法做比较。仿真结果表明,提出的智能转发策略能有效增加网络的数据递交率,减少丢包数量和网络平均时延,有效地减少拥塞。 展开更多
关键词 命名数据网络 拥塞控制 强化学习 sarsa(λ)算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部