期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
融合Q学习算法和人工势场算法的无人机航迹规划方法 被引量:2
1
作者 刘冬 余文泉 +2 位作者 霍文健 李瑞 姜伟月 《火力与指挥控制》 CSCD 北大核心 2024年第2期119-124,共6页
针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的... 针对基于Q学习算法规划出的航线存在与静态障碍物发生碰撞危险的问题,提出融合Q学习算法和人工势场算法的航迹规划方法。该方法首先利用Q学习算法规划出一条航线,其次根据地图统计该航线每个航段内包含的障碍物,最后对每个包含障碍物的航段采用改进的人工势场法进行重新规划。实验结果显示,提出的融合方法能够在牺牲少量轨迹长度和时间的情况下,得到与静态障碍物避免发生碰撞的最短路径。 展开更多
关键词 航迹规划 q学习算法 人工势场 无人机
在线阅读 下载PDF
集装箱码头集卡调度模型与Q学习算法 被引量:37
2
作者 曾庆成 杨忠振 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第1期1-4,共4页
研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与... 研究集装箱码头装卸过程中集卡调度问题,建立了集卡调度动态模型,目的是使装卸桥等待时间最小.设计了基于Q学习算法的求解方法,获得在不同状态下的集卡调度策略.提出了应用Q学习算法求解集卡最优调度时系统状态、动作规则、学习步长与折扣因子的选择方法.结果表明,随着集卡数量的增加,Q学习算法获得的结果优于最长等待时间、最远距离、固定分配集卡等调度策略. 展开更多
关键词 集装箱码头 强化学习 集卡调度 q学习算法
在线阅读 下载PDF
基于Q学习算法的摘挂列车调车作业计划优化 被引量:5
3
作者 施俊庆 陈林武 +2 位作者 林柏梁 孟国连 夏顺娅 《中国铁道科学》 EI CAS CSCD 北大核心 2022年第1期163-170,共8页
针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机... 针对摘挂列车编组调车作业计划编制问题,基于强化学习技术和Q学习算法,提出1种调车作业计划优化方法。在表格调车法的基础上,将调车作业计划分为下落和重组2个部分。通过动作、状态和奖励3要素构建调车作业问题的强化学习模型,以调车机车为智能体,以车组下落的股道编号为动作,以待编车列的下落情况为状态,形成车组挂车、摘车具体条件和车辆重组流程,并依据车组下落的连接状态和车辆重组后产生的总调车程设计奖励函数。改进Q学习算法求解模型,以最小化调车程为目标,建立待编车列与最优调车作业计划之间的映射关系,智能体学习充分后即可求解得到最优的调车作业计划。通过3组算例对比验证本方法效果,结果表明:相较于统筹对口法和排序二叉树法,本方法使用的股道数量更少、调车作业计划更优;相较于分支定界法,本方法可在更短时间内求解质量近似的调车作业计划。因而,本方法有助于提高车站调车作业计划编制的智能化决策水平。 展开更多
关键词 铁路运输 调车作业 强化学习 摘挂列车 q学习算法
在线阅读 下载PDF
基于Q学习算法的发电公司决策新模型 被引量:8
4
作者 宋依群 吴炯 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第4期568-571,共4页
提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模... 提出了基于Q学习的发电公司决策新模型,应用于求解发电公司在具有不完全信息的电力市场环境下为获取最优长期利润而制定的决策问题.以电力市场重复运行具有的典型Markov过程特性,应用Q学习算法构建以长期利润最优为目标的发电公司决策模型,并通过算例仿真验证了该模型的有效性.所提出的决策新模型可以根据发电公司对市场状态变化的不同预估状态转移概率模拟该公司在市场环境下的不同竞价策略,并给出不确定市场环境下的最优决策. 展开更多
关键词 电力市场 q学习算法 MARKOV决策过程 策略行为
在线阅读 下载PDF
基于预测状态表示的Q学习算法 被引量:3
5
作者 刘云龙 李人厚 刘建书 《西安交通大学学报》 EI CAS CSCD 北大核心 2008年第12期1472-1475,1485,共5页
针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能... 针对不确定环境的规划问题,提出了基于预测状态表示的Q学习算法.将预测状态表示方法与Q学习算法结合,用预测状态表示的预测向量作为Q学习算法的状态表示,使得到的状态具有马尔可夫特性,满足强化学习任务的要求,进而用Q学习算法学习智能体的最优策略,可解决不确定环境下的规划问题.仿真结果表明,在发现智能体的最优近似策略时,算法需要的学习周期数与假定环境状态已知情况下需要的学习周期数大致相同. 展开更多
关键词 不确定环境规划 预测状态表示 q学习算法 奶酪迷宫
在线阅读 下载PDF
农业采摘机械手路径规划——基于云平台和Q学习算法 被引量:8
6
作者 司国斌 王春霞 《农机化研究》 北大核心 2021年第10期23-27,共5页
首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境... 首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境中的障碍物,且整个运动曲线路径偏差较小,充分证实了该系统的优越性。 展开更多
关键词 采摘机器人 机械手 路径规划 云平台 q学习算法
在线阅读 下载PDF
基于糊糙集的改进Q学习算法
7
作者 过金超 刘杰 崔光照 《郑州轻工业学院学报(自然科学版)》 CAS 2013年第3期42-45,共4页
针对Q学习算法容易出现错误的时间间隔重叠和高估Q值的情况,进而导致收敛速度慢、学习性能下降的问题,提出了一种改进的Q学习算法,即粗糙集Q学习算法.该算法通过有效处理不完备信息和不确定性知识,使Q值所引起的误差最小化,进而减少Q值... 针对Q学习算法容易出现错误的时间间隔重叠和高估Q值的情况,进而导致收敛速度慢、学习性能下降的问题,提出了一种改进的Q学习算法,即粗糙集Q学习算法.该算法通过有效处理不完备信息和不确定性知识,使Q值所引起的误差最小化,进而减少Q值的高估,提高学习性能.基于2种算法的机器人自主导航实验结果表明,粗糙集Q学习算法有更高的学习效率和更强的避障能力. 展开更多
关键词 q学习算法 粗糙集 机器人导航
在线阅读 下载PDF
基于改进Q学习算法的导航认知图构建 被引量:7
8
作者 赵辰豪 吴德伟 +2 位作者 何晶 韩昆 来磊 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2020年第2期53-60,共8页
针对导航认知图构建效率低,方向信息不准确等问题,提出了一种基于改进Q学习算法的导航认知图构建方法。首先,利用径向基(RBF)神经网络学习生成网格细胞到位置细胞的映射关系,并利用位置细胞对空间进行表征;其次,采用改进Q学习算法学习... 针对导航认知图构建效率低,方向信息不准确等问题,提出了一种基于改进Q学习算法的导航认知图构建方法。首先,利用径向基(RBF)神经网络学习生成网格细胞到位置细胞的映射关系,并利用位置细胞对空间进行表征;其次,采用改进Q学习算法学习位置细胞面向目标的Q值大小;最后,根据重心估计原理计算面向目标的方向信息,并生成导航认知图。仿真结果表明:与传统Q学习算法相比,文中算法生成导航认知图的学习次数从2 000次缩减至1 000次,提高了导航认知图的构建效率;学习值(指面向目标的方向信息)的相对误差最大降低了15%,提高了认知图的准确性。 展开更多
关键词 类脑导航 网格细胞 位置细胞 改进q学习算法 导航认知图
在线阅读 下载PDF
基于DE-Q学习算法的移动机器人路径规划 被引量:2
9
作者 马泽伦 袁亮 +1 位作者 肖文东 何丽 《火力与指挥控制》 CSCD 北大核心 2023年第3期152-156,163,共6页
针对使用Q学习算法对移动机器人进行路径规划时存在收敛速度较慢的问题,提出了一种基于Q学习的改进算法来选择全局路径规划的最优方案。通过方向奖惩机制与估价函数改进Q学习算法的奖励机制,提高Q学习算法的收敛效率。最后使用MATLAB对... 针对使用Q学习算法对移动机器人进行路径规划时存在收敛速度较慢的问题,提出了一种基于Q学习的改进算法来选择全局路径规划的最优方案。通过方向奖惩机制与估价函数改进Q学习算法的奖励机制,提高Q学习算法的收敛效率。最后使用MATLAB对改进的Q学习算法进行了仿真实验,实验结果表明,通过设置方向奖惩机制和估价函数可以加速Q学习算法的收敛。 展开更多
关键词 q学习算法 方向奖惩机制 估价函数 路径规划
在线阅读 下载PDF
基于Q学习算法的城轨列车智能控制策略 被引量:8
10
作者 金则灵 武晓春 《铁道标准设计》 北大核心 2022年第1期166-172,共7页
牵引能耗是列车能耗的主要组成部分,针对城轨列车节能运行的问题,将列车运行状态离散化,以列车对速度控制作为动作空间,时间和能耗作为奖励函数,提出一种基于Q学习算法的城轨列车智能控制策略。在不使用离线优化速度曲线的情况下,根据... 牵引能耗是列车能耗的主要组成部分,针对城轨列车节能运行的问题,将列车运行状态离散化,以列车对速度控制作为动作空间,时间和能耗作为奖励函数,提出一种基于Q学习算法的城轨列车智能控制策略。在不使用离线优化速度曲线的情况下,根据列车当前位置和速度实时计算最优控制策略;同时,在传统Q学习基础上,将ε-greedy策略与司机驾驶经验相结合,减少探索次数,提高算法学习效率;最后,以杭州地铁5号线三坝-萍水站线路为例,验证该算法在满足准点运行的情况下,较传统动态规划算法,可减少列车站间牵引能耗3.79%。在原线路增加临时限速后,验证该算法仍具有实效性。 展开更多
关键词 城轨列车 牵引能耗 节能运行 列车智能控制策略 q学习算法
在线阅读 下载PDF
基于Q学习算法的高速铁路列车节能优化研究 被引量:10
11
作者 张淼 张琦 张梓轩 《铁道运输与经济》 北大核心 2019年第12期111-117,共7页
随着我国高速铁路运营里程的增加,在带动经济增长的同时,也产生了巨大的能源消耗,为优化高速铁路列车节能,实现我国高速铁路可持续发展,阐述高速铁路列车节能现状,以高速列车站间运行全过程的牵引能耗和准时性为目标,综合考虑线路和列... 随着我国高速铁路运营里程的增加,在带动经济增长的同时,也产生了巨大的能源消耗,为优化高速铁路列车节能,实现我国高速铁路可持续发展,阐述高速铁路列车节能现状,以高速列车站间运行全过程的牵引能耗和准时性为目标,综合考虑线路和列车等约束条件,建立列车节能驾驶控制模型。在此基础上,设计一种基于Q学习算法的列车运行能耗优化模型,并以京沈客运专线黑山北-阜新站间线路为例,对节能优化策略进行了仿真验证。结果表明,该算法能够在满足所有约束条件下,有效减少列车站间运行能耗。 展开更多
关键词 高速铁路列车 强化学习 q学习算法 节能优化 京沈客运专线
在线阅读 下载PDF
基于仿生学内在动机的Q学习算法移动机器人路径规划研究 被引量:5
12
作者 李福进 张俊琴 任红格 《现代电子技术》 北大核心 2019年第17期133-137,共5页
针对移动机器人在未知环境中避障和路径规划自适应能力差的问题,受心理学方面内在动机启发,以加入引力势场的Q学习理论为基础,提出一种基于内在动机机制的引力场Q( IM GPF Q)学习算法。该算法以Q学习为理论框架,加入引力势场为算法提供... 针对移动机器人在未知环境中避障和路径规划自适应能力差的问题,受心理学方面内在动机启发,以加入引力势场的Q学习理论为基础,提出一种基于内在动机机制的引力场Q( IM GPF Q)学习算法。该算法以Q学习为理论框架,加入引力势场为算法提供先验知识,以内在动机作为内部奖励,与外部信号一起生成取向评价值,指引机器人学会自主选择最优路径。通过模拟客厅环境和两种具有陷阱的环境中进行的仿真实验,结果表明该算法能使机器人通过与外界未知环境进行交互获得认知,最终完成路径规划任务,与传统强化学习方法相比具有更快的收敛速度以及更好的自学习和自适应能力。 展开更多
关键词 移动机器人 路径规划 内在动机 q学习算法 引力势场 智能发育
在线阅读 下载PDF
基于Q学习算法的再生制动能量回收控制策略 被引量:2
13
作者 马什鹏 尹燕莉 +2 位作者 张刘锋 马永娟 黄学江 《汽车工程师》 2021年第5期52-55,共4页
针对前轴驱动混合动力汽车再生制动过程中电液制动力矩分配问题,提出基于Q学习算法的再生制动能量回收控制策略。文章以制动能量回收效率最大为优化目标,通过Q学习算法优化得到制动力矩分配系数,从而对前后轮机械摩擦制动力和再生制动... 针对前轴驱动混合动力汽车再生制动过程中电液制动力矩分配问题,提出基于Q学习算法的再生制动能量回收控制策略。文章以制动能量回收效率最大为优化目标,通过Q学习算法优化得到制动力矩分配系数,从而对前后轮机械摩擦制动力和再生制动力进行分配。并基于MATLAB/Simulink软件进行仿真验证,结果表明:与理想制动力分配策略相比,制动能量回收效率提升了6.5%。提出的控制策略能够在保证制动安全的前提下,进一步提高了制动能量回收效率,对于制动能量回收的研究具有重要意义。 展开更多
关键词 再生制动 q学习算法 制动力矩分配
在线阅读 下载PDF
基于Q学习算法的Ad Hoc网络自适应DSR协议研究
14
作者 迟凯 《舰船电子对抗》 2014年第2期115-120,共6页
提出了一种用于Ad Hoc网络改进的基于Q学习算法的自适应动态源路由(DSR)协议。该协议能在网络状态较好的情况下减小开销,在网络状况较差的情况下改善端到端时延和吞吐量性能。仿真结果表明,自适应Q-DSR协议能够提升传统DSR协议的性能,... 提出了一种用于Ad Hoc网络改进的基于Q学习算法的自适应动态源路由(DSR)协议。该协议能在网络状态较好的情况下减小开销,在网络状况较差的情况下改善端到端时延和吞吐量性能。仿真结果表明,自适应Q-DSR协议能够提升传统DSR协议的性能,是简单高效的路由协议。 展开更多
关键词 Ad HOC网络 动态源路由协议 q学习算法 自适应协议
在线阅读 下载PDF
基于Q学习算法的燃煤机组深度调峰协调控制优化 被引量:1
15
作者 赵涵 杨锋 《通信电源技术》 2023年第23期128-130,共3页
常规的燃煤机组调峰协调控制方法以储能负荷控制为主,减少了节流损失,增加了煤耗量,影响深度调峰协调控制的经济性效果。因此,设计了基于Q学习算法的燃煤机组深度调峰协调控制优化方法。确定燃煤机组调峰协调控制优化参数,在满足调度中... 常规的燃煤机组调峰协调控制方法以储能负荷控制为主,减少了节流损失,增加了煤耗量,影响深度调峰协调控制的经济性效果。因此,设计了基于Q学习算法的燃煤机组深度调峰协调控制优化方法。确定燃煤机组调峰协调控制优化参数,在满足调度中心给定负荷指令的基础上,将经济性指标作为协调控制优化的约束条件,简化燃煤机组深度调峰的协调步骤。基于Q学习算法控制燃煤机组深度调峰均衡负荷,令机组实际供电负荷之和与全厂总负荷指令相等,从而满足深度调峰协调控制的经济性需求。通过对比实验证实,文章所提优化方法的经济性能更高,能够应用于实际生活。 展开更多
关键词 q学习算法 燃煤机组 深度调峰 协调控制 优化方法
在线阅读 下载PDF
基于Q学习算法的能源互联网分层优化研究 被引量:1
16
作者 董香栾 赵琰 王昱日 《沈阳工程学院学报(自然科学版)》 2022年第2期8-13,共6页
能源互联网由于分布式设备数量剧增,优化调度决策需要分析处理海量数据,对功率流的分析将会面临重重困难。分层优化是针对非线性高维问题及海量数据处理难题的解决策略,其基本思路是将系统按照一定标准,划分为若干层次,再按照系统物理... 能源互联网由于分布式设备数量剧增,优化调度决策需要分析处理海量数据,对功率流的分析将会面临重重困难。分层优化是针对非线性高维问题及海量数据处理难题的解决策略,其基本思路是将系统按照一定标准,划分为若干层次,再按照系统物理特征划分为不同的区域,给每个区域分配智能体来负责设备的调控,重点研究考虑电、气、热系统结构的潮流分布。结合Q学习基本原理,详细研究了如何将能源互联网系统潮流转化为Q学习模型,并通过仿真算例分析,验证所提出算法的有效性。 展开更多
关键词 能源互联网 分层优化 智能体 q学习算法
在线阅读 下载PDF
基于改进DQN算法的应召搜潜无人水面艇路径规划方法 被引量:2
17
作者 牛奕龙 杨仪 +3 位作者 张凯 穆莹 王奇 王英民 《兵工学报》 EI CAS CSCD 北大核心 2024年第9期3204-3215,共12页
针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surf... 针对应召反潜中无人水面艇航向和航速机动的情形,提出一种基于改进深度Q学习(Deep Q-learning,DQN)算法的无人艇路径规划方法。结合应召搜潜模型,引入改进的深度强化学习(Improved-DQN,I-DQN)算法,通过联合调整无人水面艇(Unmanned Surface Vessel,USV)的动作空间、动作选择策略和奖励等,获取一条最优路径。算法采用时变动态贪婪策略,根据环境和神经网络的学习效果自适应调整USV动作选择,提高全局搜索能力并避免陷入局部最优解;结合USV所处的障碍物环境和当前位置设置分段非线性奖惩函数,保证不避碰的同时提升算法收敛速度;增加贝塞尔算法对路径平滑处理。仿真结果表明,在相同环境下新方法规划效果优于DQN算法、A^(*)算法和人工势场算法,具有更好的稳定性、收敛性和安全性。 展开更多
关键词 无人水面艇 路径规划 深度q学习算法 应召搜索
在线阅读 下载PDF
基于Q学习异构网络干扰协调算法 被引量:1
18
作者 钱进 郭士增 王孝 《现代电子技术》 北大核心 2016年第23期13-16,共4页
在LTE-A中采用异构网络能提高用户的性能,但是由于小区间使用相同的频谱资源,产生了小区间干扰,影响了用户性能,从而需要采用小区间干扰协调技术来控制小区间干扰(ICI)。虽然现有的小区间干扰协调技术可以降低小区间干扰,但是存在Macro... 在LTE-A中采用异构网络能提高用户的性能,但是由于小区间使用相同的频谱资源,产生了小区间干扰,影响了用户性能,从而需要采用小区间干扰协调技术来控制小区间干扰(ICI)。虽然现有的小区间干扰协调技术可以降低小区间干扰,但是存在Macro用户性能影响较大的问题。为此,提出了基于Q学习的ETPS算法,在不影响Macro用户性能的前提下,降低小区间干扰。仿真结果表明,QL-ETPS算法较传统固定ABS/RP-ABS子帧配置方案性能更优,可以在尽量不影响Macro基站用户的前提下,提高Pico基站边缘用户的吞吐量。 展开更多
关键词 干扰协调 异构网络 q学习算法 Macro—Pico 吞吐量
在线阅读 下载PDF
基于多步回溯Q(λ)学习算法的多目标最优潮流计算 被引量:7
19
作者 余涛 胡细兵 刘靖 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第10期139-145,共7页
为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成... 为了克服传统的最优化算法面对复杂、非线性描述的多目标最优潮流时无法满足电力系统实时调度运行的这一缺点,提出了一种基于半马尔可夫决策过程的多步Q(λ)学习算法,该算法不依赖于对象模型,将最优潮流问题中的约束、动作和目标转换成算法中的状态、动作与奖励,通过不断的试错、回溯、迭代来动态寻找最优的动作.将该算法在多个IEEE标准算例中与其他算法进行比较,取得了良好的效果,验证了多步Q(λ)学习算法在处理多目标最优潮流问题时的可行性和有效性. 展开更多
关键词 电力系统 最优潮流 q(λ)学习算法 多目标优化 强化学习
在线阅读 下载PDF
基于DAQL算法的动态频谱接入方案 被引量:3
20
作者 吴启晖 刘琼俐 《解放军理工大学学报(自然科学版)》 EI 2008年第6期607-611,共5页
针对传统的动态频谱接入方案一般没有考虑自主性,不具备普适性这一缺点,提出了一种基于双动作Q学习算法DAQL(double action Q-learning)的频谱接入方案,该方案将DAQL引入到多授权用户存在的环境下频谱接入问题中,用以降低接入未知频谱... 针对传统的动态频谱接入方案一般没有考虑自主性,不具备普适性这一缺点,提出了一种基于双动作Q学习算法DAQL(double action Q-learning)的频谱接入方案,该方案将DAQL引入到多授权用户存在的环境下频谱接入问题中,用以降低接入未知频谱环境时的冲突概率。仿真结果表明,提出的方案与随机接入方案相比,不但有更小的冲突概率,而且能动态适应环境的变化,适合认知无线电的需要。 展开更多
关键词 强化学习 q学习 双动作q学习算法 冲突概率
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部