期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于多步回溯Q(λ)学习算法的多目标最优潮流计算 被引量:7
1
作者 余涛 胡细兵 刘靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 展开更多
关键词 电力系统 最优潮流 q(λ)学习算法 多目标优化 强化学习
在线阅读 下载PDF
基于启发式Q(λ)学习的铁路绝缘子定位研究 被引量:1
2
作者 付虹 王国志 +2 位作者 柯坚 邓斌 吴文海 《铁道标准设计》 北大核心 2018年第4期151-155,共5页
智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找... 智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找到绝缘子。首先建立铁路绝缘子水冲洗环境模型,接着为解决传统Q(λ)学习算法盲目学习导致收敛速度慢的问题,通过搜索支柱特征调整奖赏函数,设计启发式策略函数并融入Q(λ)学习中,提高算法的学习和收敛速度。最后分别对传统Q(λ)学习算法和启发式Q(λ)学习算法进行Matlab仿真实验,确定最佳参数设置,仿真结果表明启发式Q(λ)算法的正确性和可行性。 展开更多
关键词 电气化铁路 铁路绝缘子 启发式q(λ)学习 定位
在线阅读 下载PDF
基于矢量量化的强化学习及其在机器人行为学习中的应用 被引量:1
3
作者 段勇 伊婧 +1 位作者 张永赫 徐心和 《高技术通讯》 CAS CSCD 北大核心 2011年第2期179-184,共6页
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学... 针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学习的状态空间分割问题,并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化,以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性,实验表明,此方法能够较好地解决复杂未知环境的机器人导航问题。 展开更多
关键词 强化学习(RL) 矢量量化(Vq) 码书 q(λ)学习 自组织特征映射
在线阅读 下载PDF
强化学习算法在高速铁路运营调度中的应用 被引量:1
4
作者 吴越 袁志明 +3 位作者 代学武 崔东亮 程丽娟 岳鹏 《铁路计算机应用》 2022年第7期92-98,共7页
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规... 随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢。文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况。仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法。 展开更多
关键词 高速铁路 调度算法 股道运用计划 资格迹 q(λ)学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部