检索结果-维普期刊中文期刊服务平台

基于多步回溯Q(λ)学习算法的多目标最优潮流计算被引量：7: 1; 作者余涛胡细兵刘靖《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页; 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 展开更多; 关键词电力系统最优潮流 q(λ)学习算法多目标优化强化学习; 在线阅读下载PDF 职称材料

基于启发式Q(λ)学习的铁路绝缘子定位研究被引量：1: 2; 作者付虹王国志 +2 位作者柯坚邓斌吴文海《铁道标准设计》北大核心 2018年第4期151-155,共5页; 智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找... 展开更多; 关键词电气化铁路铁路绝缘子启发式q(λ)学习定位; 在线阅读下载PDF 职称材料

基于矢量量化的强化学习及其在机器人行为学习中的应用被引量：1: 3; 作者段勇伊婧 +1 位作者张永赫徐心和《高技术通讯》 CAS CSCD 北大核心 2011年第2期179-184,共6页; 针对强化学习（RL）中状态空间过大所引起的学习时间过长或算法难于收敛等问题，提出了一种基于矢量量化（VQ）技术的表格型强化学习方法——VQRL方法，该方法用矢量量化器的码书矢量来逼近强化学习的状态空间，从而有效地解决了强化学... 展开更多; 关键词强化学习(RL) 矢量量化(Vq) 码书 q(λ)学习自组织特征映射; 在线阅读下载PDF 职称材料

强化学习算法在高速铁路运营调度中的应用被引量：1: 4; 作者吴越袁志明 +3 位作者代学武崔东亮程丽娟岳鹏《铁路计算机应用》 2022年第7期92-98,共7页; 随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规... 展开更多; 关键词高速铁路调度算法股道运用计划资格迹 q(λ)学习; 在线阅读下载PDF 职称材料

题名基于多步回溯Q(λ)学习算法的多目标最优潮流计算被引量：7: 1; 作者余涛胡细兵刘靖; 机构华南理工大学电力学院; 出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页; 基金国家自然科学基金资助项目(50807016) 广东省自然科学基金资助项目(9151064101000049) 中央高校基本科研业务费专项资金资助项目(2009ZM0251); 文摘为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性.; 关键词电力系统最优潮流 q(λ)学习算法多目标优化强化学习; Keywords electric power system optimal power flow q（λ） learning algorithm multi-objective optimization reinforcement learning; 分类号 TM761 [电气工程—电力系统及自动化] TP273 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于启发式Q(λ)学习的铁路绝缘子定位研究被引量：1: 2; 作者付虹王国志柯坚邓斌吴文海; 机构西南交通大学机械工程学院; 出处《铁道标准设计》北大核心 2018年第4期151-155,共5页; 文摘智能化冲洗是解决电气化铁路绝缘子人工冲洗弊端的有效途径,而智能化冲洗的关键在于绝缘子识别、定位。通过对现有智能冲洗设备的分析,提出一种铁路绝缘子定位、跟踪方法,该方法基于传感器信息,采用启发式Q(λ)学习算法,可快速、准确找到绝缘子。首先建立铁路绝缘子水冲洗环境模型,接着为解决传统Q(λ)学习算法盲目学习导致收敛速度慢的问题,通过搜索支柱特征调整奖赏函数,设计启发式策略函数并融入Q(λ)学习中,提高算法的学习和收敛速度。最后分别对传统Q(λ)学习算法和启发式Q(λ)学习算法进行Matlab仿真实验,确定最佳参数设置,仿真结果表明启发式Q(λ)算法的正确性和可行性。; 关键词电气化铁路铁路绝缘子启发式q(λ)学习定位; Keywords Electrified railway Railway insulator Heuristic q（A ） Learning Location; 分类号 U225.43 [交通运输工程—道路与铁道工程] TP23 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于矢量量化的强化学习及其在机器人行为学习中的应用被引量：1: 3; 作者段勇伊婧张永赫徐心和; 机构沈阳工业大学信息科学与工程学院东北大学信息科学与工程学院; 出处《高技术通讯》 CAS CSCD 北大核心 2011年第2期179-184,共6页; 基金国家青年科学基金（60905054）资助项目.; 文摘针对强化学习（RL）中状态空间过大所引起的学习时间过长或算法难于收敛等问题，提出了一种基于矢量量化（VQ）技术的表格型强化学习方法——VQRL方法，该方法用矢量量化器的码书矢量来逼近强化学习的状态空间，从而有效地解决了强化学习的状态空间分割问题，并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射（SOFM）神经网络用于矢量量化，以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性，实验表明，此方法能够较好地解决复杂未知环境的机器人导航问题。; 关键词强化学习(RL) 矢量量化(Vq) 码书 q(λ)学习自组织特征映射; Keywords reinforcement learning （RL）, vector quantization （Vq）, codebook, q （λ） learning, self-organizing feature maps; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名强化学习算法在高速铁路运营调度中的应用被引量：1: 4; 作者吴越袁志明代学武崔东亮程丽娟岳鹏; 机构东北大学流程工业综合自动化国家重点实验室中国铁道科学研究院集团有限公司通信信号研究所; 出处《铁路计算机应用》 2022年第7期92-98,共7页; 基金国家自然科学基金项目(61790574,U1834211) 辽宁省自然科学基金(2020-MS-093)。; 文摘随着我国高速铁路(简称:高铁)通达范围和行车密度的不断提高,运行计划调整日趋复杂,利用计算机和人工智能等技术手段辅助调度员制定阶段调整计划是高铁智能调度的发展趋势。高铁运行计划调整问题是一个多阶段决策问题,具有决策链长、规模大、约束多等特点,导致传统的强化学习方法Q学习算法的学习效率低、收敛缓慢。文章提出一种基于Q(λ)学习的高铁运行计划智能调整算法,采用累积式资格迹设计多步奖励更新机制,有效解决稀疏奖励下收敛慢的问题,目标函数设计中充分考虑了股道运用计划,更适合反应行车密度增大时到发线的使用情况。仿真实验表明,Q(λ)学习算法在学习效率、收敛速度和收敛结果上均优于传统的Q学习算法。; 关键词高速铁路调度算法股道运用计划资格迹 q(λ)学习; Keywords high-speed railway dispatching algorithm track utilization plan eligibility trace q(λ)-Learning; 分类号 U284.59 [交通运输工程—交通信息工程及控制] U238 [交通运输工程—道路与铁道工程] TP39 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于多步回溯Q(λ)学习算法的多目标最优潮流计算	余涛胡细兵刘靖	《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心	2010	7	在线阅读下载PDF 职称材料
2	基于启发式Q(λ)学习的铁路绝缘子定位研究	付虹王国志柯坚邓斌吴文海	《铁道标准设计》北大核心	2018	1	在线阅读下载PDF 职称材料
3	基于矢量量化的强化学习及其在机器人行为学习中的应用	段勇伊婧张永赫徐心和	《高技术通讯》 CAS CSCD 北大核心	2011	1	在线阅读下载PDF 职称材料
4	强化学习算法在高速铁路运营调度中的应用	吴越袁志明代学武崔东亮程丽娟岳鹏	《铁路计算机应用》	2022	1	在线阅读下载PDF 职称材料