期刊文献+
共找到3,092篇文章
< 1 2 155 >
每页显示 20 50 100
基于Q-learning算法的机场航班延误预测 被引量:1
1
作者 刘琪 乐美龙 《航空计算技术》 2025年第1期28-32,共5页
将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延... 将改进的深度信念网络(DBN)和Q-learning算法结合建立组合预测模型。首先将延误预测问题建模为一个标准的马尔可夫决策过程,使用改进的深度信念网络来选择关键特征。经深度信念网络分析,从46个特征变量中选择出27个关键特征类别作为延误时间的最终解释变量输入Q-learning算法中,从而实现对航班延误的实时预测。使用北京首都国际机场航班数据进行测试实验,实验结果表明,所提出的模型可以有效预测航班延误,平均误差为4.05 min。将提出的组合算法性能与4种基准方法进行比较,基于DBN的Q-learning算法的延误预测准确性高于另外四种算法,具有较高的预测精度。 展开更多
关键词 航空运输 航班延误预测 深度信念网络 q-learning 航班延误
在线阅读 下载PDF
基于改进Q-learning算法智能仓储AGV路径规划
2
作者 耿华 冯涛 《现代信息科技》 2025年第2期171-175,共5页
作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用... 作为智能物流系统中重要运输工具的自动引导车(Automated Guided Vehicle,AGV),AGV路径规划与避障算法是移动机器人领域重要研究热点之一。为了解决现有仓储环境下的AGV在运用Q-learning算法进行路径规划时的前期收敛速度慢且探索利用不平衡的问题,提出一种结合引力势场改进Q-learning的算法,同时对贪婪系数进行动态调整。首先,针对传统的Q-learning算法规划时学习效率低问题,构建从AGV到目标点的引力场,引导AGV始终朝着目标点方向移动,减少算法初期盲目性,加强初始阶段的目标性。然后,解决算法探索利用平衡问题,对贪婪系数进行动态改进。仿真实验表明,探索速率提升的同时,算法稳定性也有一定的提升。 展开更多
关键词 q-learning算法 强化学习 人工势场算法 AGV 路径规划
在线阅读 下载PDF
基于Q-Learning的航空器滑行路径规划研究
3
作者 王兴隆 王睿峰 《中国民航大学学报》 CAS 2024年第3期28-33,共6页
针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规... 针对传统算法规划航空器滑行路径准确度低、不能根据整体场面运行情况进行路径规划的问题,提出一种基于Q-Learning的路径规划方法。通过对机场飞行区网络结构模型和强化学习的仿真环境分析,设置了状态空间和动作空间,并根据路径的合规性和合理性设定了奖励函数,将路径合理性评价值设置为滑行路径长度与飞行区平均滑行时间乘积的倒数。最后,分析了动作选择策略参数对路径规划模型的影响。结果表明,与A*算法和Floyd算法相比,基于Q-Learning的路径规划在滑行距离最短的同时,避开了相对繁忙的区域,路径合理性评价值高。 展开更多
关键词 滑行路径规划 机场飞行区 强化学习 q-learning
在线阅读 下载PDF
Combining deep reinforcement learning with heuristics to solve the traveling salesman problem
4
作者 Li Hong Yu Liu +1 位作者 Mengqiao Xu Wenhui Deng 《Chinese Physics B》 2025年第1期96-106,共11页
Recent studies employing deep learning to solve the traveling salesman problem(TSP)have mainly focused on learning construction heuristics.Such methods can improve TSP solutions,but still depend on additional programs... Recent studies employing deep learning to solve the traveling salesman problem(TSP)have mainly focused on learning construction heuristics.Such methods can improve TSP solutions,but still depend on additional programs.However,methods that focus on learning improvement heuristics to iteratively refine solutions remain insufficient.Traditional improvement heuristics are guided by a manually designed search strategy and may only achieve limited improvements.This paper proposes a novel framework for learning improvement heuristics,which automatically discovers better improvement policies for heuristics to iteratively solve the TSP.Our framework first designs a new architecture based on a transformer model to make the policy network parameterized,which introduces an action-dropout layer to prevent action selection from overfitting.It then proposes a deep reinforcement learning approach integrating a simulated annealing mechanism(named RL-SA)to learn the pairwise selected policy,aiming to improve the 2-opt algorithm's performance.The RL-SA leverages the whale optimization algorithm to generate initial solutions for better sampling efficiency and uses the Gaussian perturbation strategy to tackle the sparse reward problem of reinforcement learning.The experiment results show that the proposed approach is significantly superior to the state-of-the-art learning-based methods,and further reduces the gap between learning-based methods and highly optimized solvers in the benchmark datasets.Moreover,our pre-trained model M can be applied to guide the SA algorithm(named M-SA(ours)),which performs better than existing deep models in small-,medium-,and large-scale TSPLIB datasets.Additionally,the M-SA(ours)achieves excellent generalization performance in a real-world dataset on global liner shipping routes,with the optimization percentages in distance reduction ranging from3.52%to 17.99%. 展开更多
关键词 traveling salesman problem deep reinforcement learning simulated annealing algorithm transformer model whale optimization algorithm
在线阅读 下载PDF
基于改进Q-learning算法的移动机器人路径规划 被引量:1
5
作者 井征淼 刘宏杰 周永录 《火力与指挥控制》 CSCD 北大核心 2024年第3期135-141,共7页
针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖... 针对传统Q-learning算法应用在路径规划中存在收敛速度慢、运行时间长、学习效率差等问题,提出一种将人工势场法和传统Q-learning算法结合的改进Q-learning算法。该算法引入人工势场法的引力函数与斥力函数,通过对比引力函数动态选择奖励值,以及对比斥力函数计算姿值,动态更新Q值,使移动机器人具有目的性的探索,并且优先选择离障碍物较远的位置移动。通过仿真实验证明,与传统Q-learning算法、引入引力场算法对比,改进Q-learning算法加快了收敛速度,缩短了运行时间,提高了学习效率,降低了与障碍物相撞的概率,使移动机器人能够快速地找到一条无碰撞通路。 展开更多
关键词 移动机器人 路径规划 改进的q-learning 人工势场法 强化学习
在线阅读 下载PDF
基于Q-Learning的动态BLE Mesh网络高能效路由算法 被引量:2
6
作者 蒋龙荣 刘静 +1 位作者 刘文超 王兰 《无线电通信技术》 北大核心 2024年第4期664-673,共10页
针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节... 针对动态低功耗蓝牙(Bluetooth Low Energy, BLE)Mesh网络规范采用的管理式泛洪路由机制所导致的数据包冗余和高能耗的问题,提出了动态BLE Mesh网络高能效路由算法。通过建立基于Q-Learning的BLE Mesh网络路由模型,将BLE Mesh网络中节点的剩余能量、转发成本、移动因子以及接收信号强度指示(Received Signal Strength Indicator, RSSI)纳入到奖励函数的设计中。同时对BLE Mesh网络中的心跳机制进行改进,使网络中的节点更加高效地获取环境信息。采用基于探索的路由发现机制来更新网络中节点的Q值,使其能更加准确反映节点移动所导致的网络拓扑变化。仿真结果表明,该算法在节点能耗和网络开销上均优于传统的管理式泛洪路由机制。 展开更多
关键词 低功耗蓝牙 MESH网络 物联网应用 q-learning
在线阅读 下载PDF
基于Q-learning的搜救机器人自主路径规划
7
作者 褚晶 邓旭辉 岳颀 《南京航空航天大学学报》 CAS CSCD 北大核心 2024年第2期364-374,共11页
当人为和自然灾害突然发生时,在极端情况下快速部署搜救机器人是拯救生命的关键。为了完成救援任务,搜救机器人需要在连续动态未知环境中,自主进行路径规划以到达救援目标位置。本文提出了一种搜救机器人传感器配置方案,应用基于Q⁃tabl... 当人为和自然灾害突然发生时,在极端情况下快速部署搜救机器人是拯救生命的关键。为了完成救援任务,搜救机器人需要在连续动态未知环境中,自主进行路径规划以到达救援目标位置。本文提出了一种搜救机器人传感器配置方案,应用基于Q⁃table和神经网络的Q⁃learning算法,实现搜救机器人的自主控制,解决了在未知环境中如何避开静态和动态障碍物的路径规划问题。如何平衡训练过程的探索与利用是强化学习的挑战之一,本文在贪婪搜索和Boltzmann搜索的基础上,提出了对搜索策略进行动态选择的混合优化方法。并用MATLAB进行了仿真,结果表明所提出的方法是可行有效的。采用该传感器配置的搜救机器人能够有效地响应环境变化,到达目标位置的同时成功避开静态、动态障碍物。 展开更多
关键词 搜救机器人 路径规划 传感器配置 q⁃learning 神经网络
在线阅读 下载PDF
一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案
8
作者 崔云凯 张伟 《北京信息科技大学学报(自然科学版)》 2024年第4期81-87,95,共8页
针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应... 针对处理器安全性模糊测试在进行细粒度变异时遗传算法存在一定的盲目性,易使生成的测试用例触发相同类型漏洞的问题,提出了一种基于Q-learning强化学习的导向性处理器安全性模糊测试方案。通过测试用例的状态值和所触发的漏洞类型对应的权值构造奖励函数,使用强化学习指导生成具有针对性和导向性的测试用例,快速地触发不同类型的漏洞。在Hikey970平台上的实验验证了基于ARMv8的测试用例生成框架的有效性,并且相较于传统使用遗传算法作为反馈的策略,本文方案在相同时间内生成有效测试用例的的数量多19.15%,发现漏洞类型的数量多80.00%。 展开更多
关键词 处理器漏洞检测 模糊测试 q-learning强化学习 ARMv8 分支预测类漏洞
在线阅读 下载PDF
Navigating challenges and opportunities of machine learning in hydrogen catalysis and production processes: Beyond algorithm development
9
作者 Mohd Nur Ikhmal Salehmin Sieh Kiong Tiong +5 位作者 Hassan Mohamed Dallatu Abbas Umar Kai Ling Yu Hwai Chyuan Ong Saifuddin Nomanbhay Swee Su Lim 《Journal of Energy Chemistry》 SCIE EI CAS CSCD 2024年第12期223-252,共30页
With the projected global surge in hydrogen demand, driven by increasing applications and the imperative for low-emission hydrogen, the integration of machine learning(ML) across the hydrogen energy value chain is a c... With the projected global surge in hydrogen demand, driven by increasing applications and the imperative for low-emission hydrogen, the integration of machine learning(ML) across the hydrogen energy value chain is a compelling avenue. This review uniquely focuses on harnessing the synergy between ML and computational modeling(CM) or optimization tools, as well as integrating multiple ML techniques with CM, for the synthesis of diverse hydrogen evolution reaction(HER) catalysts and various hydrogen production processes(HPPs). Furthermore, this review addresses a notable gap in the literature by offering insights, analyzing challenges, and identifying research prospects and opportunities for sustainable hydrogen production. While the literature reflects a promising landscape for ML applications in hydrogen energy domains, transitioning AI-based algorithms from controlled environments to real-world applications poses significant challenges. Hence, this comprehensive review delves into the technical,practical, and ethical considerations associated with the application of ML in HER catalyst development and HPP optimization. Overall, this review provides guidance for unlocking the transformative potential of ML in enhancing prediction efficiency and sustainability in the hydrogen production sector. 展开更多
关键词 Machine learning Computational modeling HER catalyst synthesis Hydrogen energy Hydrogen production processes algorithm development
在线阅读 下载PDF
基于Q‒learning的变电站无线传感器网络路由算法
10
作者 赵锴 沙杰 丛尤嘉 《太赫兹科学与电子信息学报》 2024年第9期952-958,共7页
电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方... 电力系统中的无线传感器网络(WSN)可以对工作中设备的状态和环境数据进行实时感知采集,是一种推动智能电网发展的重要技术。针对变电站场景中WSN的网络存活时间、传输时延、传输丢包率上的特殊要求,提出了一种基于强化学习的WSN路由方案。将数据包在WSN的发送过程抽象为一个马尔科夫决策过程(MDP),根据优化目标合理设置奖励,并给出了基于Q-learning的最优路由求解方法。仿真结果与数值分析表明,所提方案在网络存活时间、传输时延、丢包率等方面的性能均优于基准方案。 展开更多
关键词 变电站无线传感网 路由策略 马尔科夫决策过程 q-learning算法 网络性能优化
在线阅读 下载PDF
基于Q-learning的混合动力汽车能量管理策略
11
作者 游杰 《汽车电器》 2024年第8期24-27,30,共5页
随着能源与环境问题的日益突出,对混合动力汽车进行研究具有重要的意义。作为一种多能源汽车,能量管理和分配策略是提高混合动力汽车燃油经济性及降低排放的关键。混合动力汽车由内燃机和电池两种不同的动力源驱动,对于给定的功率需求,... 随着能源与环境问题的日益突出,对混合动力汽车进行研究具有重要的意义。作为一种多能源汽车,能量管理和分配策略是提高混合动力汽车燃油经济性及降低排放的关键。混合动力汽车由内燃机和电池两种不同的动力源驱动,对于给定的功率需求,如何分配两种动力源的输出功率,使得整个循环的耗油量达到最小是混合动力系统控制需要解决的问题。文章以Q学习全局优化算法为基础,对整车能量进行分配,并获得发动机和电机的最优转矩,在保持电池荷电状态平衡的同时,提高整车的燃油经济性。使用MATLAB/Simulink并在NEDC循环工况下进行仿真分析,得到的结论为混合动力汽车的油耗为4.627L/km,相对于传统小型汽车6.88L/100km,降幅为32.75%。 展开更多
关键词 能量管理 q-learning 混合动力汽车 燃油经济性
在线阅读 下载PDF
基于Q-learning算法的vEPC虚拟网络功能部署方法 被引量:16
12
作者 袁泉 汤红波 +2 位作者 黄开枝 王晓雷 赵宇 《通信学报》 EI CSCD 北大核心 2017年第8期172-182,共11页
针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策... 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于Q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策过程建立了v EPC服务链部署的空间—时间优化模型,并设计了改进的Q-learning算法求解。该方法同时考虑了空间维度下的EPC服务链虚拟映射和时间维度下的VNF生命周期管理,实现了VNF部署的收益—时延多目标优化。仿真结果表明,与其他VNF部署方法相比,该方法在降低网络时延的同时提高了VNF部署的收益和请求接受率。 展开更多
关键词 5G 虚拟网络功能 服务功能链部署 q-learning
在线阅读 下载PDF
改进麻雀算法和Q-Learning优化集成学习轨道电路故障诊断 被引量:6
13
作者 徐凯 郑浩 +1 位作者 涂永超 吴仕勋 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2023年第11期4426-4437,共12页
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻... 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和Q-Learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习Q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。 展开更多
关键词 无绝缘轨道电路 故障诊断 集成学习 改进麻雀算法 q-learning 误差修正
在线阅读 下载PDF
基于Q-learning算法的煤矿井下移动机器人路径规划 被引量:4
14
作者 徐学东 《煤炭技术》 CAS 北大核心 2013年第2期105-106,共2页
如何针对煤矿井下环境的不确定性规划机器人的路径是其中的一个难点。文章提出了一种基于Q-learning算法的移动机器人路径规划,希望对提高机器人救援的避障能力的提升,起到一定的促进作用。
关键词 煤矿 机器人 qlearning 路径规划
在线阅读 下载PDF
离散四水库问题基准下基于n步Q-learning的水库群优化调度 被引量:5
15
作者 胡鹤轩 钱泽宇 +1 位作者 胡强 张晔 《中国水利水电科学研究院学报(中英文)》 北大核心 2023年第2期138-147,共10页
水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出... 水库优化调度问题是一个具有马尔可夫性的优化问题。强化学习是目前解决马尔可夫决策过程问题的研究热点,其在解决单个水库优化调度问题上表现优异,但水库群系统的复杂性为强化学习的应用带来困难。针对复杂的水库群优化调度问题,提出一种离散四水库问题基准下基于n步Q-learning的水库群优化调度方法。该算法基于n步Q-learning算法,对离散四水库问题基准构建一种水库群优化调度的强化学习模型,通过探索经验优化,最终生成水库群最优调度方案。试验分析结果表明,当有足够的探索经验进行学习时,结合惩罚函数的一步Q-learning算法能够达到理论上的最优解。用可行方向法取代惩罚函数实现约束,依据离散四水库问题基准约束建立时刻可行状态表和时刻状态可选动作哈希表,有效的对状态动作空间进行降维,使算法大幅度缩短优化时间。不同的探索策略决定探索经验的有效性,从而决定优化效率,尤其对于复杂的水库群优化调度问题,提出了一种改进的ε-greedy策略,并与传统的ε-greedy、置信区间上限UCB、Boltzmann探索三种策略进行对比,验证了其有效性,在其基础上引入n步回报改进为n步Q-learning,确定合适的n步和学习率等超参数,进一步改进算法优化效率。 展开更多
关键词 水库优化调度 强化学习 q学习 惩罚函数 可行方向法
在线阅读 下载PDF
改进Q-Learning算法在路径规划中的应用 被引量:20
16
作者 高乐 马天录 +1 位作者 刘凯 张宇轩 《吉林大学学报(信息科学版)》 CAS 2018年第4期439-443,共5页
针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下... 针对Q-Learning算法在离散状态下存在运行效率低、学习速度慢等问题,提出一种改进的Q-Learning算法。改进后的算法在原有算法基础上增加了一层学习过程,对环境进行了深度学习。在栅格环境下进行仿真实验,并成功地应用在多障碍物环境下移动机器人路径规划,结果证明了算法的可行性。改进Q-Learning算法以更快的速度收敛,学习次数明显减少,效率最大可提高20%。同时,该算法框架对解决同类问题具有较强的通用性。 展开更多
关键词 路径规划 改进q-learning算法 强化学习 栅格法 机器人
在线阅读 下载PDF
基于GA-Q-learning算法的虚拟维修作业规划模型 被引量:1
17
作者 焦玉民 王强 +2 位作者 徐婷 谢庆华 王海涛 《兵工学报》 EI CAS CSCD 北大核心 2013年第5期627-633,共7页
针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题... 针对虚拟维修环境中任务执行过程存在的不确定性和随机性问题,提出了一种基于Q学习算法的作业策略规划模型,该方法将虚拟维修过程转化为选取不同动作参与状态转移的过程。在该过程中,采用试错机制和逆向求解的方法求解动作策略规划问题,并将任务特征匹配机制和顺序约束机制作为启发机制,保证策略学习过程中持续进化可行策略;在进化过程中,将动作因子赋予概率值,并采用遗传算法(GA)进化动作因子的概率分布,避免了策略学习过程中强化早期Q值较高的动作,为求解虚拟维修的最佳作业流程提供了一种行之有效的解决方法。将该方法应用于轮式挖掘机虚拟维修训练系统中,仿真结果表明,正确的动作在作业策略迭代过程中均能够获得较高的Q值,验证了方法的可行性和实用性。 展开更多
关键词 人工智能 虚拟维修 q学习 遗传算法 作业规划
在线阅读 下载PDF
SDN中基于Q-learning的动态交换机迁移算法 被引量:2
18
作者 赵季红 张彬 +2 位作者 王力 曲桦 郑浪 《电视技术》 北大核心 2016年第6期68-72,110,共6页
由于网络流量动态变化,控制器负载均衡成为大规模部署软件定义网络研究的重点。提出基于Q-learning的动态交换机迁移算法,首先对软件定义网络中的控制器部署问题建模,再应用Q-learning反馈机制学习实时网络流量,最后根据Q表格将交换机... 由于网络流量动态变化,控制器负载均衡成为大规模部署软件定义网络研究的重点。提出基于Q-learning的动态交换机迁移算法,首先对软件定义网络中的控制器部署问题建模,再应用Q-learning反馈机制学习实时网络流量,最后根据Q表格将交换机从高负载控制器动态迁移到低负载控制器上,实现控制器的负载均衡。仿真结果表明,所提算法能够获得较低的控制器负载标准方差。 展开更多
关键词 软件定义网络 OpenFlow 控制器 q学习
在线阅读 下载PDF
QL-OLSR:一种基于Q-Learning思想优化的移动自组织网络路由协议 被引量:7
19
作者 熊轲 金鑫 刘强 《北京交通大学学报》 CAS CSCD 北大核心 2020年第2期66-73,共8页
现有的OLSR中能够完成对全网路由信息的交互,但是随着节点的移动速度增加,网络拓扑也在快速动态变化,从而导致了路由信息更新慢,网络性能下降,端到端时延大、包丢失率增加和节点吞吐量小等问题.针对上述问题,提出了一种基于Q-Learning... 现有的OLSR中能够完成对全网路由信息的交互,但是随着节点的移动速度增加,网络拓扑也在快速动态变化,从而导致了路由信息更新慢,网络性能下降,端到端时延大、包丢失率增加和节点吞吐量小等问题.针对上述问题,提出了一种基于Q-Learning思想的移动自组网OLSR路由策略,该路由策略从节点移动性、链路速率和节点跳数三方面进行考虑.与传统方法相比,QLearning能够在线学习,适应MANET高度动态变化的拓扑结构,检测不同时间点的节点移动程度,使每个节点能相应的更新路由度量,从而提高路由协议的稳定性,提供可靠的路由路径.实验结果表明,改进的方法具有更低的端到端延迟、更小的包丢失率以及更高的吞吐量. 展开更多
关键词 q-learning思想 OLSR 路由策略 节点移动性 路由路径
在线阅读 下载PDF
利用先验知识的Q-Learning路径规划算法研究 被引量:13
20
作者 段建民 陈强龙 《电光与控制》 CSCD 北大核心 2019年第9期29-33,共5页
强化学习中基于马尔可夫决策过程的标准Q-Learning算法可以取得较优路径,但是方法存在收敛速度慢及规划效率低等问题,无法直接应用于真实环境。针对此问题,提出一种基于势能场知识的Q-Learning移动机器人路径规划算法。通过引入环境的... 强化学习中基于马尔可夫决策过程的标准Q-Learning算法可以取得较优路径,但是方法存在收敛速度慢及规划效率低等问题,无法直接应用于真实环境。针对此问题,提出一种基于势能场知识的Q-Learning移动机器人路径规划算法。通过引入环境的势能值作为搜索启发信息对Q值进行初始化,从而在学习初期便能引导移动机器人快速收敛,改变了传统强化学习过程的盲目性,适用于真实环境中直接学习。仿真实验表明,与现有的算法相比,所提算法不仅提高了收敛速度,而且还缩短了学习时间,使得移动机器人能够迅速找到一条较优的无碰撞路径。 展开更多
关键词 强化学习 路径规划 先验知识 移动机器人 q-learning
在线阅读 下载PDF
上一页 1 2 155 下一页 到第
使用帮助 返回顶部