期刊文献+
共找到79篇文章
< 1 2 4 >
每页显示 20 50 100
基于改进Q学习算法和组合模型的超短期电力负荷预测 被引量:11
1
作者 张丽 李世情 +2 位作者 艾恒涛 张涛 张宏伟 《电力系统保护与控制》 EI CSCD 北大核心 2024年第9期143-153,共11页
单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的... 单一模型在进行超短期负荷预测时会因负荷波动而导致预测精度变差,针对此问题,提出一种基于深度学习算法的组合预测模型。首先,采用变分模态分解对原始负荷序列进行分解,得到一系列的子序列。其次,分别采用双向长短期记忆网络和优化后的深度极限学习机对每个子序列进行预测。然后,利用改进Q学习算法对双向长短期记忆网络的预测结果和深度极限学习机的预测结果进行加权组合,得到每个子序列的预测结果。最后,将各个子序列的预测结果进行求和,得到最终的负荷预测结果。以某地真实负荷数据进行预测实验,结果表明所提预测模型较其他模型在超短期负荷预测中表现更佳,预测精度达到98%以上。 展开更多
关键词 q学习算法 负荷预测 双向长短期记忆 深度极限学习 灰狼算法
在线阅读 下载PDF
融合Q学习算法和人工势场算法的无人机航迹规划方法 被引量:3
2
作者 刘冬 余文泉 +2 位作者 霍文健 李瑞 姜伟月 《火力与指挥控制》 CSCD 北大核心 2024年第2期119-124,共6页
针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的... 针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的航段采用改进的人工势场法进行重新规划。实验结果显示,提出的融合方法能够在牺牲少量轨迹长度和时间的情况下,得到与静态障碍物避免发生碰撞的最短路径。 展开更多
关键词 航迹规划 q学习算法 人工势场 无人机
在线阅读 下载PDF
大用户直购中基于Q学习算法的多代理两阶段谈判策略 被引量:11
3
作者 张森林 屈少青 +3 位作者 陈皓勇 张浩 荆朝霞 匡卫洪 《电力系统自动化》 EI CSCD 北大核心 2010年第6期37-41,共5页
利用多代理对大用户直购电中不同类型交易者的谈判行为进行了模拟,采取基于历史报价数据的Q学习算法增加了代理的自主学习能力,使代理能根据对手动作及时调整己方报价。此外,为保证市场竞争的公平性,提出了基于"谈判+拍卖"的... 利用多代理对大用户直购电中不同类型交易者的谈判行为进行了模拟,采取基于历史报价数据的Q学习算法增加了代理的自主学习能力,使代理能根据对手动作及时调整己方报价。此外,为保证市场竞争的公平性,提出了基于"谈判+拍卖"的两阶段谈判机制,给予因对谈判形势估计不足致使谈判破裂但又拥有成本优势的发电商再一次出价的机会,使得合同电价反映出不同发电成本间的真实差异,以此激励发电商以降低成本的方式来换取谈判中的主动权。 展开更多
关键词 一对多谈判 q学习算法 电力市场 大用户直购电 双边合同
在线阅读 下载PDF
基于Q学习算法和遗传算法的动态环境路径规划 被引量:17
4
作者 于乃功 王琛 +1 位作者 默凡凡 蔡建羡 《北京工业大学学报》 CAS CSCD 北大核心 2017年第7期1009-1016,共8页
针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索... 针对Q学习算法在动态连续环境中应用时因状态连续、数量过多,导致Q值表出现存储空间不足和维数灾的问题,提出了一种新的Q值表设计方法,并设计了适用于连续环境的R值和动作.不同于以状态-动作为索引,将时间离散化为时刻,以时刻-动作为索引来建立Q值表.将在某状态应选择某一动作的问题转化为在某时刻应选择某一动作的问题,实现了Q学习算法在动态连续环境中的应用.采用了先利用遗传算法进行静态全局路径规划,然后利用Q学习算法进行动态避障.整个方法为一种先"离线"后"在线"的分层路径规划方法,成功实现了移动机器人的路径规划.仿真结果验证了所提出方法的有效性. 展开更多
关键词 动态环境 连续环境 路径规划 q学习算法
在线阅读 下载PDF
集装箱码头集卡调度模型与Q学习算法 被引量:37
5
作者 曾庆成 杨忠振 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第1期1-4,共4页
研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与... 研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 展开更多
关键词 集装箱码头 强化学习 集卡调度 q学习算法
在线阅读 下载PDF
Q学习算法在库存控制中的应用 被引量:20
6
作者 蒋国飞 吴沧浦 《自动化学报》 EI CSCD 北大核心 1999年第2期236-241,共6页
Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的... Q学习算法是Watkins提出的求解信息不完全马尔可夫决策问题的一种强化学习方法.这里提出了一种新的探索策略,并将该策略和Q学习算法有效结合来求解一类典型的有连续状态和决策空间的库存控制问题.仿真表明,该方法所求解的控制策略和用值迭代法在模型已知的情况下所求得的最优策略非常逼近,从而证实了Q学习算法在一些系统模型未知的工程控制问题中的应用潜力. 展开更多
关键词 马尔可夫决策 库存控制 运筹学 q学习算法
在线阅读 下载PDF
基于Q学习算法的综合能源系统韧性提升方法 被引量:11
7
作者 吴熙 唐子逸 +1 位作者 徐青山 周亦洲 《电力自动化设备》 EI CSCD 北大核心 2020年第4期146-152,共7页
将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算... 将综合能源系统随机动态优化问题建模为马尔可夫决策过程,并引入Q学习算法实现该复杂问题的求解。针对Q学习算法的弊端,对传统的Q学习算法做了2个改进:改进了Q值表初始化方法,采用置信区间上界算法进行动作选择。仿真结果表明:Q学习算法在实现问题求解的同时保证了较好的收敛性,改进的初始化方法和采用的置信区间上界算法能显著提高计算效率,使结果收敛到更优解;与常规混合整数线性规划模型相比,Q学习算法具有更好的优化结果。 展开更多
关键词 综合能源系统 孤岛运行 马尔可夫决策过程 q学习算法 韧性
在线阅读 下载PDF
基于Q学习算法的摘挂列车调车作业计划优化 被引量:5
8
作者 施俊庆 陈林武 +2 位作者 林柏梁 孟国连 夏顺娅 《中国铁道科学》 EI CAS CSCD 北大核心 2022年第1期163-170,共8页
针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机... 针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机车为智能体,以车组下落的股道编号为动作,以待编车列的下落情况为状态,形成车组挂车、摘车具体条件和车辆重组流程,并依据车组下落的连接状态和车辆重组后产生的总调车程设计奖励函数。改进Q学习算法求解模型,以最小化调车程为目标,建立待编车列与最优调车作业计划之间的映射关系,智能体学习充分后即可求解得到最优的调车作业计划。通过3组算例对比验证本方法效果,结果表明:相较于统筹对口法和排序二叉树法,本方法使用的股道数量更少、调车作业计划更优;相较于分支定界法,本方法可在更短时间内求解质量近似的调车作业计划。因而,本方法有助于提高车站调车作业计划编制的智能化决策水平。 展开更多
关键词 铁路运输 调车作业 强化学习 摘挂列车 q学习算法
在线阅读 下载PDF
基于Q学习算法的两交叉口信号灯博弈协调控制 被引量:4
9
作者 赵晓华 李振龙 +1 位作者 于泉 荣建 《系统仿真学报》 EI CAS CSCD 北大核心 2007年第18期4253-4256,共4页
Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策... Q学习和博弈论相结合解决相邻两交叉口信号灯协调控制问题。在基本Q学习算法的基础上引入博弈论,以Q值作为赢得函数建立赢得矩阵。相邻两交叉口之间的协调关系属于二人非零和合作博弈,采用Nash公理方法求得其谈判解,并以此作为Q学习策略选择的依据实现两交叉口协调控制。应用Paramics交通仿真软件进行算法仿真,结果表明该方法的有效性。 展开更多
关键词 博弈论 q学习算法 Nash公理方法 两交叉口信号灯协调控制
在线阅读 下载PDF
基于Q学习算法的发电公司决策新模型 被引量:8
10
作者 宋依群 吴炯 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第4期568-571,共4页
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模... 提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 展开更多
关键词 电力市场 q学习算法 MARKOV决策过程 策略行为
在线阅读 下载PDF
基于Q学习算法的变论域模糊控制新算法 被引量:4
11
作者 余涛 于文俊 李章文 《控制理论与应用》 EI CAS CSCD 北大核心 2011年第11期1645-1650,共6页
变论域模糊控制器的控制函数被"复制"到后代中,往往存在着"失真"现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基... 变论域模糊控制器的控制函数被"复制"到后代中,往往存在着"失真"现象,这种现象的后果是造成算法本身的误差.针对这一问题,本文提出了一种基于Q学习算法的变论域模糊控制优化设计方法.本算法在变论域模糊控制算法基础上提出了一种利用伸缩因子、等比因子相互协调来调整论域的构想,且通过用Q学习算法来寻优参数使控制器性能指标最小,使其在控制过程中能够降低"失真率",从而进一步提高控制器性能.最后,把算法运用于一个二阶系统与非最小相位系统,实验表明,该算法不但具有很好的鲁棒性及动态性能,且与变论域模糊控制器比较起来,其控制性能也更加提高. 展开更多
关键词 变论域模糊控制 q学习算法 伸缩因子 等比因子
在线阅读 下载PDF
Q学习算法中网格离散化方法的收敛性分析 被引量:9
12
作者 蒋国飞 高慧琪 吴沧浦 《控制理论与应用》 EI CAS CSCD 北大核心 1999年第2期194-198,共5页
Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连... Q学习算法是Watkins[1] 提出的求解信息不完全马尔可夫决策问题的一种强化学习方法 .要用Q学习算法来求解有连续状态和决策空间的随机最优控制问题 ,则需要先离散化问题的状态和决策空间 .在本文中 ,我们证明了在满足一定的Lipschitz连续性和有关集合为紧集的条件下 ,随着网格密度的增加 ,空间离散化后Q学习算法求得的最优解依概率 展开更多
关键词 q学习算法 网格离散化 收敛性 马尔可夫决策
在线阅读 下载PDF
基于有限样本的最优费用关联值递归Q学习算法 被引量:4
13
作者 殷苌茗 陈焕文 谢丽娟 《计算机工程与应用》 CSCD 北大核心 2002年第11期65-67,共3页
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信... 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。 展开更多
关键词 有限样本 最优费用 关联值递归 q学习算法 人工智能
在线阅读 下载PDF
样本有限关联值递归Q学习算法及其收敛性证明 被引量:4
14
作者 殷苌茗 陈焕文 谢丽娟 《计算机研究与发展》 EI CSCD 北大核心 2002年第9期1064-1070,共7页
一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息... 一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息不完全 Markov决策问题的一种有效激励学习方法 .Watkins提出了 Q学习的基本算法 ,尽管他证明了在满足一定条件下 Q值学习的迭代公式的收敛性 ,但是在他给出的算法中 ,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响 .因此提出的关联值递归 Q学习算法改进了原来的 Q学习算法 ,并且这种算法有比较好的收敛性质 .从求解最优费用函数的方法出发 ,给出了 Q学习的关联值递归算法 ,这种方法的建立可以使得动态规划 (DP)算法中的许多结论直接应用到 Q学习的研究中来 . 展开更多
关键词 关联值递归 q学习算法 收敛性证明 激励学习 最优费用函数 MARKOV决策过程 人工智能
在线阅读 下载PDF
基于预测状态表示的Q学习算法 被引量:3
15
作者 刘云龙 李人厚 刘建书 《西安交通大学学报》 EI CAS CSCD 北大核心 2008年第12期1472-1475,1485,共5页
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能... 针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同. 展开更多
关键词 不确定环境规划 预测状态表示 q学习算法 奶酪迷宫
在线阅读 下载PDF
农业采摘机械手路径规划——基于云平台和Q学习算法 被引量:8
16
作者 司国斌 王春霞 《农机化研究》 北大核心 2021年第10期23-27,共5页
首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境... 首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境中的障碍物,且整个运动曲线路径偏差较小,充分证实了该系统的优越性。 展开更多
关键词 采摘机器人 机械手 路径规划 云平台 q学习算法
在线阅读 下载PDF
基于动态Q学习算法的情感自动机模型研究 被引量:1
17
作者 于冬梅 方建安 《计算机科学》 CSCD 北大核心 2008年第5期172-173,176,共3页
让计算机具有认知和表达自己情感的能力,培养其智能地对人类的情感做出反应是现阶段信息科学研究的热点内容。本文构建了基于动态Q学习算法的情感自动机模型,在该模型中,定义了情感元的概念,情感元应用动态Q学习算法来预测并感知环境的... 让计算机具有认知和表达自己情感的能力,培养其智能地对人类的情感做出反应是现阶段信息科学研究的热点内容。本文构建了基于动态Q学习算法的情感自动机模型,在该模型中,定义了情感元的概念,情感元应用动态Q学习算法来预测并感知环境的变化,从而改变自身情感来适应周围环境。 展开更多
关键词 动态q学习算法 情感自动机 情感元
在线阅读 下载PDF
基于Q学习算法的情感交互可计算模型研究
18
作者 于冬梅 韩晓新 +1 位作者 李玎 夏旻 《计算机工程》 CAS CSCD 2012年第10期277-279,283,共4页
情感本身不能交互,但可以通过它的载体(如人或Agent)进行交互。利用该特点,提出一种基于Q学习算法的情感交互可计算模型。定义情感元的概念,情感元之间的交互实际上是情感Agent之间的交互,采用Q学习算法得到情感元的交互结果,构建齐次Ma... 情感本身不能交互,但可以通过它的载体(如人或Agent)进行交互。利用该特点,提出一种基于Q学习算法的情感交互可计算模型。定义情感元的概念,情感元之间的交互实际上是情感Agent之间的交互,采用Q学习算法得到情感元的交互结果,构建齐次Markov链的情感元之间的交互模型,并通过实验结果验证了情感的多变性与复杂性。 展开更多
关键词 q学习算法 情感元 情感Agent 情感状态 情感交互 MARKOV链
在线阅读 下载PDF
基于糊糙集的改进Q学习算法
19
作者 过金超 刘杰 崔光照 《郑州轻工业学院学报(自然科学版)》 CAS 2013年第3期42-45,共4页
针对Q学习算法容易出现错误的时间间隔重叠和高估Q值的情况,进而导致收敛速度慢、学习性能下降的问题,提出了一种改进的Q学习算法,即粗糙集Q学习算法.该算法通过有效处理不完备信息和不确定性知识,使Q值所引起的误差最小化,进而减少Q值... 针对Q学习算法容易出现错误的时间间隔重叠和高估Q值的情况,进而导致收敛速度慢、学习性能下降的问题,提出了一种改进的Q学习算法,即粗糙集Q学习算法.该算法通过有效处理不完备信息和不确定性知识,使Q值所引起的误差最小化,进而减少Q值的高估,提高学习性能.基于2种算法的机器人自主导航实验结果表明,粗糙集Q学习算法有更高的学习效率和更强的避障能力. 展开更多
关键词 q学习算法 粗糙集 机器人导航
在线阅读 下载PDF
基于改进Q学习算法的导航认知图构建 被引量:7
20
作者 赵辰豪 吴德伟 +2 位作者 何晶 韩昆 来磊 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2020年第2期53-60,共8页
针对导航认知图构建效率低,方向信息不准确等问题,提出了一种基于改进Q学习算法的导航认知图构建方法。首先,利用径向基(RBF)神经网络学习生成网格细胞到位置细胞的映射关系,并利用位置细胞对空间进行表征;其次,采用改进Q学习算法学习... 针对导航认知图构建效率低,方向信息不准确等问题,提出了一种基于改进Q学习算法的导航认知图构建方法。首先,利用径向基(RBF)神经网络学习生成网格细胞到位置细胞的映射关系,并利用位置细胞对空间进行表征;其次,采用改进Q学习算法学习位置细胞面向目标的Q值大小;最后,根据重心估计原理计算面向目标的方向信息,并生成导航认知图。仿真结果表明:与传统Q学习算法相比,文中算法生成导航认知图的学习次数从2 000次缩减至1 000次,提高了导航认知图的构建效率;学习值(指面向目标的方向信息)的相对误差最大降低了15%,提高了认知图的准确性。 展开更多
关键词 类脑导航 网格细胞 位置细胞 改进q学习算法 导航认知图
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部