期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于多步回溯Q(λ)学习算法的多目标最优潮流计算
被引量:
7
1
作者
余涛
胡细兵
刘靖
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成...
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性.
展开更多
关键词
电力系统
最优潮流
q
(λ)
学习
算法
多目标优化
强化
学习
在线阅读
下载PDF
职称材料
基于启发式Q(λ)学习的铁路绝缘子定位研究
被引量:
1
2
作者
付虹
王国志
+2 位作者
柯坚
邓斌
吴文海
《铁道标准设计》
北大核心
2018年第4期151-155,共5页
智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找...
智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找到绝缘子。首先建立铁路绝缘子水冲洗环境模型,接着为解决传统Q(λ)学习算法盲目学习导致收敛速度慢的问题,通过搜索支柱特征调整奖赏函数,设计启发式策略函数并融入Q(λ)学习中,提高算法的学习和收敛速度。最后分别对传统Q(λ)学习算法和启发式Q(λ)学习算法进行Matlab仿真实验,确定最佳参数设置,仿真结果表明启发式Q(λ)算法的正确性和可行性。
展开更多
关键词
电气化铁路
铁路绝缘子
启发式
q
(λ)
学习
定位
在线阅读
下载PDF
职称材料
基于矢量量化的强化学习及其在机器人行为学习中的应用
被引量:
1
3
作者
段勇
伊婧
+1 位作者
张永赫
徐心和
《高技术通讯》
CAS
CSCD
北大核心
2011年第2期179-184,共6页
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学...
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学习的状态空间分割问题,并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化,以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性,实验表明,此方法能够较好地解决复杂未知环境的机器人导航问题。
展开更多
关键词
强化
学习
(RL)
矢量量化(V
q
)
码书
q
(λ)
学习
自组织特征映射
在线阅读
下载PDF
职称材料
强化学习算法在高速铁路运营调度中的应用
被引量:
1
4
作者
吴越
袁志明
+3 位作者
代学武
崔东亮
程丽娟
岳鹏
《铁路计算机应用》
2022年第7期92-98,共7页
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规...
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢。文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况。仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法。
展开更多
关键词
高速铁路
调度算法
股道运用计划
资格迹
q
(λ)
学习
在线阅读
下载PDF
职称材料
题名
基于多步回溯Q(λ)学习算法的多目标最优潮流计算
被引量:
7
1
作者
余涛
胡细兵
刘靖
机构
华南理工大学电力学院
出处
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第10期139-145,共7页
基金
国家自然科学基金资助项目(50807016)
广东省自然科学基金资助项目(9151064101000049)
中央高校基本科研业务费专项资金资助项目(2009ZM0251)
文摘
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性.
关键词
电力系统
最优潮流
q
(λ)
学习
算法
多目标优化
强化
学习
Keywords
electric power system
optimal power flow
q
(λ) learning algorithm
multi-objective optimization
reinforcement learning
分类号
TM761 [电气工程—电力系统及自动化]
TP273 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于启发式Q(λ)学习的铁路绝缘子定位研究
被引量:
1
2
作者
付虹
王国志
柯坚
邓斌
吴文海
机构
西南交通大学机械工程学院
出处
《铁道标准设计》
北大核心
2018年第4期151-155,共5页
文摘
智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找到绝缘子。首先建立铁路绝缘子水冲洗环境模型,接着为解决传统Q(λ)学习算法盲目学习导致收敛速度慢的问题,通过搜索支柱特征调整奖赏函数,设计启发式策略函数并融入Q(λ)学习中,提高算法的学习和收敛速度。最后分别对传统Q(λ)学习算法和启发式Q(λ)学习算法进行Matlab仿真实验,确定最佳参数设置,仿真结果表明启发式Q(λ)算法的正确性和可行性。
关键词
电气化铁路
铁路绝缘子
启发式
q
(λ)
学习
定位
Keywords
Electrified railway
Railway insulator
Heuristic
q
(A ) Learning
Location
分类号
U225.43 [交通运输工程—道路与铁道工程]
TP23 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于矢量量化的强化学习及其在机器人行为学习中的应用
被引量:
1
3
作者
段勇
伊婧
张永赫
徐心和
机构
沈阳工业大学信息科学与工程学院
东北大学信息科学与工程学院
出处
《高技术通讯》
CAS
CSCD
北大核心
2011年第2期179-184,共6页
基金
国家青年科学基金(60905054)资助项目.
文摘
针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题,提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法,该方法用矢量量化器的码书矢量来逼近强化学习的状态空间,从而有效地解决了强化学习的状态空间分割问题,并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化,以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性,实验表明,此方法能够较好地解决复杂未知环境的机器人导航问题。
关键词
强化
学习
(RL)
矢量量化(V
q
)
码书
q
(λ)
学习
自组织特征映射
Keywords
reinforcement learning (RL), vector
q
uantization (V
q
), codebook,
q
(λ) learning, self-organizing feature maps
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
强化学习算法在高速铁路运营调度中的应用
被引量:
1
4
作者
吴越
袁志明
代学武
崔东亮
程丽娟
岳鹏
机构
东北大学流程工业综合自动化国家重点实验室
中国铁道科学研究院集团有限公司通信信号研究所
出处
《铁路计算机应用》
2022年第7期92-98,共7页
基金
国家自然科学基金项目(61790574,U1834211)
辽宁省自然科学基金(2020-MS-093)。
文摘
随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢。文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况。仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法。
关键词
高速铁路
调度算法
股道运用计划
资格迹
q
(λ)
学习
Keywords
high-speed railway
dispatching algorithm
track utilization plan
eligibility trace
q
(λ)-Learning
分类号
U284.59 [交通运输工程—交通信息工程及控制]
U238 [交通运输工程—道路与铁道工程]
TP39 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于多步回溯Q(λ)学习算法的多目标最优潮流计算
余涛
胡细兵
刘靖
《华南理工大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010
7
在线阅读
下载PDF
职称材料
2
基于启发式Q(λ)学习的铁路绝缘子定位研究
付虹
王国志
柯坚
邓斌
吴文海
《铁道标准设计》
北大核心
2018
1
在线阅读
下载PDF
职称材料
3
基于矢量量化的强化学习及其在机器人行为学习中的应用
段勇
伊婧
张永赫
徐心和
《高技术通讯》
CAS
CSCD
北大核心
2011
1
在线阅读
下载PDF
职称材料
4
强化学习算法在高速铁路运营调度中的应用
吴越
袁志明
代学武
崔东亮
程丽娟
岳鹏
《铁路计算机应用》
2022
1
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部