期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于DQN算法的直流微电网负载接口变换器自抗扰控制策略 被引量:1
1
作者 周雪松 韩静 +3 位作者 马幼捷 陶珑 问虎龙 赵明 《电力系统保护与控制》 北大核心 2025年第1期95-103,共9页
在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动... 在直流微电网中,为了保证直流母线与负载之间能量流动的稳定性,解决在能量流动中不确定因素产生的扰动问题。在建立DC-DC变换器数学模型的基础上,设计了一种基于深度强化学习的DC-DC变换器自抗扰控制策略。利用线性扩张观测器对总扰动的估计补偿和线性误差反馈控制特性对自抗扰控制器结构进行简化设计,并结合深度强化学习对其控制器参数进行在线优化。根据不同工况下的负载侧电压波形,分析了DC-DC变换器在该控制策略、线性自抗扰控制与比例积分控制下的稳定性、抗扰性和鲁棒性,验证了该控制策略的正确性和有效性。最后,在参数摄动下进行了蒙特卡洛实验,仿真结果表明该控制策略具有较好的鲁棒性。 展开更多
关键词 直流微电网 深度强化学习 dqn算法 DC-DC变换器 线性自抗扰控制
在线阅读 下载PDF
基于改进DQN算法的船舶全局路径规划研究
2
作者 关巍 曲胜 +1 位作者 张显库 胡彤博 《中国舰船研究》 北大核心 2025年第1期107-114,共8页
[目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网... [目的]为提升实际海域环境下船舶航行路径的经济性与安全性,提出一种改进深度Q网络(DQN)算法的船舶全局路径规划方法。[方法]首先,引入优先经验回放机制赋予重要样本更高的权重,提升学习效率;然后,再通过决斗网络和噪声网络改进DQN的网络结构,使其对特定状态及其动作的价值评估更加准确,并同时具备一定的探索性和泛化性。[结果]实验结果表明,在马尼拉附近海域环境下,相比于A^(*)算法和DQN算法,改进算法在路径长度上分别缩短了1.9%和1.0%,拐点数量上分别减少了62.5%和25%。[结论]实验结果验证了改进DQN算法能够更经济、更合理地规划出有效路径。 展开更多
关键词 船舶 运动规划 dqn算法 优先经验回放(PER)
在线阅读 下载PDF
基于随机博弈和DQN算法的云原生移动目标防御决策方法
3
作者 耿致远 许泽轩 张恒巍 《信息网络安全》 北大核心 2025年第6期967-976,共10页
随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频... 随着云原生系统中集成应用组件的复杂性不断提高,且大部分组件为开源代码,系统组件的漏洞利用已成为影响云原生安全的主要威胁之一。移动目标防御作为一种先进的动态防御机制,被广泛认为是应对该问题的有效手段。然而,在实际应用中,频繁且无序的配置转换可能会使系统运行效率和服务质量降低,进而对资源有限系统的安全性造成不利影响。为解决云原生环境中随机攻防场景下的移动目标防御决策问题,文章结合博弈理论的建模能力与深度强化学习的求解优势,提出一种基于随机博弈和DQN算法的云原生移动目标防御决策方法,实现在大规模策略空间中进行高效最优移动目标防御策略的决策,并通过仿真实验验证了文章所提方法的有效性和实用性。 展开更多
关键词 云原生 漏洞利用 移动目标防御 随机博弈 dqn算法
在线阅读 下载PDF
基于树采样Dueling-DQN的无人机三维避障路径规划方案
4
作者 胡明 曹圣昊 +3 位作者 王杨 范祥祥 于得水 焦奕康 《小型微型计算机系统》 北大核心 2025年第7期1616-1624,共9页
深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内... 深度Q网络(Deep Q-Network, DQN)已被广泛应用于无人机避障路径规划任务,针对传统DQN采样过程中由于存在样本信息利用不充分,导致收敛速度慢的问题,提出了一种基于树采样Dueling-DQN的无人机三维避障路径规划方案.首先描述了三维空间内的无人机避障规划网络系统模型、仿真环境模型;然后设计了避障算法、电量消耗算法、无人机动作合集等;最后提出结合树采样的Dueling-DQN算法,算法使用二叉树结构存储优先级样本,结合奖励函数、贪婪策略等获得无人机的避障飞行路径.实验结果显示,与传统DQN和DDQN(Double Deep Q-Network, DDQN)相比,方案在获得较优规划路径的同时,取得了最高的平均奖励值.在10种障碍物难度等级的条件下,与A~*、RRT、蚁群算法相比,到达目标点所需的步数最少,且碰撞概率最低.仿真结果验证了所提无人机三维避障路径规划方案在处理三维空间内无人机避障规划问题的有效性. 展开更多
关键词 无人机 三维空间避障 路径规划 树采样 dqn算法
在线阅读 下载PDF
基于改进DQN的移动机器人避障路径规划 被引量:6
5
作者 田箫源 董秀成 《中国惯性技术学报》 EI CSCD 北大核心 2024年第4期406-416,共11页
针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效... 针对一般强化学习方法下机器人在避障路径规划上学习时间长、探索能力差和奖励稀疏等问题,提出了一种基于改进深度Q网络(DQN)的移动机器人避障路径规划。首先在传统DQN算法基础上设计了障碍学习规则,避免对同一障碍重复学习,提升学习效率和成功率。其次提出奖励优化方法,利用状态间的访问次数差异给予奖励,平衡状态点的访问次数,避免过度访问;同时通过计算与目标点的欧氏距离,使其偏向于选择接近目标的路径,并取消远离目标惩罚,实现奖励机制的自适应优化。最后设计了动态探索因子函数,在后期训练中侧重利用强化学习策略选取动作和学习,提高算法性能和学习效率。实验仿真结果显示,与传统DQN算法相比,改进算法在训练时间上缩短了40.25%,避障成功率上提升了79.8%以及路径长度上缩短了2.25%,均体现了更好的性能。 展开更多
关键词 移动机器人 dqn算法 路径规划 避障 深度强化学习
在线阅读 下载PDF
基于改进DQN算法的考虑船舶配载图的翻箱问题研究
6
作者 梁承姬 花跃 王钰 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第9期43-49,77,共8页
为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进... 为了满足船舶配载图的要求,减少场桥翻箱次数,提高码头运行效率,对考虑船舶配载图的集装箱翻箱问题进行了研究。此问题是在传统集装箱翻箱问题的基础上,又考虑到船舶配载图对翻箱的影响。为了求解此问题的最小翻箱次数,设计了DQN算法进行求解,同时为了提高算法求解的性能,又在原算法的基础上设计了基于启发式算法的阈值和全新的奖励函数以改进算法。通过与其它文献中的实验结果进行对比,结果显示:在计算结果上,改进的DQN算法在各个算例上的结果均优于目前各个启发式算法的最优结果,并且规模越大,结果越好;在训练时间上,改进的DQN算法极大的优于未改进的DQN算法,并且规模越大,节省的时间也更显著。 展开更多
关键词 交通运输工程 海运 集装箱翻箱 船舶配载图 dqn算法
在线阅读 下载PDF
基于改进深度强化学习算法的农业机器人路径规划
7
作者 赵威 张万枝 +4 位作者 侯加林 侯瑞 李玉华 赵乐俊 程进 《浙江大学学报(工学版)》 北大核心 2025年第7期1492-1503,共12页
农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划... 农业机器人采用深度强化学习算法进行路径规划时存在难以找到目标点、稀疏奖励、收敛缓慢等问题,为此提出基于多目标点导航融合改进深度Q网络算法(MPN-DQN)的路径规划方法.利用激光同步定位与建图(SLAM)扫描全局环境以构建先验地图,划分行走行和作物行区域;对地图边界进行膨胀拟合处理,形成前向弓字形作业走廊.利用中间目标点分割全局环境,将复杂环境划分为多阶段短程导航环境以简化目标点搜索过程.从动作空间、探索策略和奖励函数3个方面改进深度Q网络算法以改善奖励稀疏问题,加快算法收敛速度,提高导航成功率.实验结果表明,搭载MPN-DQN的农业机器人自主行驶的总碰撞次数为1,平均导航时间为104.27 s,平均导航路程为16.58 m,平均导航成功率为95%. 展开更多
关键词 深度强化学习 农业机器人 中间目标点 多目标点导航融合改进深度Q网络算法(MPN-dqn) 路径规划
在线阅读 下载PDF
基于深度强化学习的股票量化投资研究 被引量:1
8
作者 宋飞 田辰磊 冯传威 《南京师大学报(自然科学版)》 北大核心 2025年第1期85-92,共8页
针对股票量化投资,将深度强化学习中的Deep Q-learning(DQN)模型应用于算法交易,构建端到端的算法交易系统.首先,利用股票技术分析指标设计股票交易环境,从时间尺度扩充特征集;其次,定义智能体交易的奖励函数和动作空间;然后,设计Q网络... 针对股票量化投资,将深度强化学习中的Deep Q-learning(DQN)模型应用于算法交易,构建端到端的算法交易系统.首先,利用股票技术分析指标设计股票交易环境,从时间尺度扩充特征集;其次,定义智能体交易的奖励函数和动作空间;然后,设计Q网络结构,将支持向量机和极致梯度提升法学习股票历史数据的涨跌信号加入强化学习中;最后,将算法交易系统应用于中国股票市场,并选择招商银行和泰和科技两支股票以及其余4支股票进行验证,从收益率、夏普比率和最大回撤率三方面评价投资绩效,结果表明该算法系统在收益率上有显著提升的同时,最大回撤率有所降低,模型的抗风险能力较高. 展开更多
关键词 量化投资 dqn 强化学习 算法交易
在线阅读 下载PDF
基于Double-DQN的中央空调系统节能优化运行 被引量:14
9
作者 闫军威 黄琪 周璇 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期135-144,共10页
针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产... 针对中央空调系统机理建模困难和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和自学习机制的中央空调系统节能优化运行方法;设计了空调系统马尔可夫决策过程模型,采用具有双神经网络结构的强化学习算法解决学习过程中容易产生的维数灾难和值函数过估计问题.然后以广州市某办公建筑中央空调系统为研究对象,建立该系统的TRNSYS仿真平台,对算法的有效性进行了验证.仿真结果表明:该方法在满足室内热舒适性要求的前提下,以系统能耗最小为目标,实现了系统的节能优化运行;与PID控制和单神经网络强化学习控制方法相比,系统总能耗分别降低5.36%和1.64%,非舒适性时间总占比分别减少2.32%和1.37%.文中提出的强化学习控制器能够有效解决值函数过估计问题,具有良好的鲁棒性,自适应优化能力和较好的节能效果,可为建筑节能提供新思路. 展开更多
关键词 中央空调系统 节能优化运行 强化学习 Double-dqn算法 双神经网络结构 总能耗 室内热舒适性
在线阅读 下载PDF
基于深度强化学习的Windows域渗透攻击路径生成方法
10
作者 霍兴鹏 沙乐天 +2 位作者 刘建文 吴尚 苏子悦 《计算机科学》 北大核心 2025年第3期400-406,共7页
Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Wind... Windows域被视作内网渗透测试的重点目标,然而Windows域渗透测试的场景和方法与常规的内网渗透有很大差异。因此,当前常规的智能化路径发现研究并不适用于Windows域环境。为了增强Windows域的安全防护,提出了一种基于深度强化学习的Windows域渗透测试路径自动化生成方法。首先,将Windows域渗透测试场景建模为马尔可夫决策过程,通过OpenAI的Gymnasium设计了一个适用于强化学习的模拟器;其次,为了解决在大动作空间和观察空间下的探索不充分问题,提出了通过先验知识对冗余动作进行削减并对无效观察空间进行压缩的方法;最后,在小型服务器中利用虚拟机技术部署Windows域环境,以NDD-DQN作为基础算法,实现了在真实环境中从信息收集、模型构建到路径生成的全流程自动化。实验结果表明,所提方法在真实的Windows复杂环境中具有良好的模拟和训练效果。 展开更多
关键词 渗透测试 Windows域 深度强化学习 dqn算法 攻击路径
在线阅读 下载PDF
基于改进DQN算法的机器人路径规划 被引量:13
11
作者 李奇儒 耿霞 《计算机工程》 CAS CSCD 北大核心 2023年第12期111-120,共10页
传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内... 传统深度Q网络(DQN)算法通过融合深度神经网络和强化学习方法,解决了Q-learning算法在应对复杂环境时出现的维数灾难问题,被广泛应用于移动机器人的路径规划,但传统DQN算法的网络收敛速度较慢,路径规划效果较差,难以在较少的训练回合内获取最优路径。为了解决上述问题,提出一种改进的ERDQN算法。通过记录重复状态出现的频率,利用该频率重新计算Q值,使得在网络训练的过程中一种状态重复出现的次数越多,下一次出现该状态的概率越低,从而提高机器人对环境的探索能力,在一定程度上降低了网络收敛于局部最优的风险,减少了网络收敛的训练回合。根据机器人移动方向和机器人与目标点的距离,重新设计奖励函数。机器人在靠近目标点时能够获得正奖励,远离目标点时能够获得负奖励,并通过当前机器人的移动方向和机器人与目标点的距离调整奖励的绝对值,从而使机器人能够在避开障碍物的前提下规划出更优路径。实验结果表明,与DQN算法相比,ERDQN算法的平均得分提高了18.9%,规划出的路径长度和回合数减少了约20.1%和500。上述结果证明了ERDQN算法能够有效提高网络收敛速度及路径规划性能。 展开更多
关键词 深度Q网络算法 路径规划 深度强化学习 状态探索 奖励函数 避障
在线阅读 下载PDF
基于DQN的旋翼无人机着陆控制算法 被引量:2
12
作者 唐进 梁彦刚 +1 位作者 白志会 黎克波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第5期1451-1460,共10页
针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化... 针对无人机的着陆控制问题,研究了一种基于深度强化学习理论的旋翼无人机着陆控制算法。利用深度强化学习训练生成无人机智能体,根据观测结果给出动作指令,以实现自主着陆控制。首先,基于随机过程理论,将旋翼无人机的着陆控制问题转化为马尔可夫决策过程。其次,设计分别考虑无人机横向和纵向控制过程的奖励函数,将着陆控制问题转入强化学习框架。然后,采用深度Q网络(deep Q network,DQN)算法求解该强化学习问题,通过大量训练得到着陆控制智能体。最后,通过多种工况下的着陆平台进行大量的数值模拟和仿真分析,验证了算法的有效性。 展开更多
关键词 深度强化学习 马尔可夫决策过程 深度Q网络算法 旋翼无人机 着陆控制
在线阅读 下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
13
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 Double dqn算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
在线阅读 下载PDF
基于输出层具有噪声的DQN的无人车路径规划 被引量:6
14
作者 李杨 闫冬梅 刘磊 《应用数学和力学》 CSCD 北大核心 2023年第4期450-460,共11页
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真... 在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性. 展开更多
关键词 深度强化学习 无人车 dqn算法 Gauss噪声 路径规划 Gazebo仿真
在线阅读 下载PDF
基于深度强化学习的自学习排课遗传算法研究 被引量:3
15
作者 徐海涛 程海燕 童名文 《计算机科学》 CSCD 北大核心 2024年第S01期229-236,共8页
排课是教学活动中一项常规而重要的事项,传统的人工排课方式费时费力,且容易出现错误,无法满足大规模排课的需求,而经典排课遗传算法存在收敛速度过快、排课效率随约束因素的增加而下降等问题。针对已有排课遗传算法存在的问题,提出一... 排课是教学活动中一项常规而重要的事项,传统的人工排课方式费时费力,且容易出现错误,无法满足大规模排课的需求,而经典排课遗传算法存在收敛速度过快、排课效率随约束因素的增加而下降等问题。针对已有排课遗传算法存在的问题,提出一种基于深度强化学习的自学习排课遗传算法(GA-DRL)。GA-DRL算法利用Q-learning算法,实现了交叉参数和变异参数的自适应调整,增强了遗传算法的搜索能力,通过建立马尔可夫决策过程(MDP)的参数动态调整模型,对种群适应度函数进行状态集合的分析,实现对种群的整体性能的综合评价。同时将深度Q-网络算法(DQN)引入调度问题中,以解决排课中种群状态多、Q表数据量大的问题。实验结果表明,与经典排课遗传算法和改进的遗传算法相比,GA-DRL算法在正确率和寻优能力上有所提升。所提算法还可以应用于考场安排、电影院的排座和航空航线规划等问题。 展开更多
关键词 排课问题 遗传算法 Q-学习 深度Q-网络
在线阅读 下载PDF
城轨列车深度强化学习节能优化控制方法 被引量:1
16
作者 郭啸 孟建军 +3 位作者 陈晓强 胥如迅 李德仓 宋明瑞 《铁道标准设计》 北大核心 2024年第7期185-191,217,共8页
为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参... 为提高城轨列车自动驾驶(Automatic Train Operation,ATO)的控制性能,针对城轨ATO目标速度曲线追踪控制方法中工况切换频繁、牵引能耗高等问题,以列车准点、精准停车和能耗为优化目标,设计了一种以时间冗余(Time Redundancy,TR)规划参考系统为主动约束的列车深度强化学习DQN控制方法。建立了城轨列车动力学模型和多目标优化适应度函数;定义了TR规划参考系统约束下的DQN列车控制器,并对控制器中的动作空间和奖励函数进行设置;最后规定了列车控制器神经网络更新方法,利用随机梯度下降算法更新Q网络参数。结果表明:加入以TR时间规划参考系统为约束的TR-DQN算法提高了DQN迭代收敛速度以及迭代训练过程中的稳定性;TR-DQN动态调整列车运行策略的控制方法相比传统目标速度曲线追踪PID算法能耗降低12.32%,列车站间工况切换频率较低;针对设置的3种不同站间规划时间,列车牵引能耗依次降低7.5%和6.4%,列车站间工况动态切换频率和牵引能耗随行程规划时间增大而降低。 展开更多
关键词 城市轨道交通 列车自动驾驶 时间规划系统 节能运行 深度强化学习 dqn算法
在线阅读 下载PDF
基于深度强化学习的AUV路径规划研究 被引量:1
17
作者 房鹏程 周焕银 董玫君 《机床与液压》 北大核心 2024年第9期134-141,共8页
针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling ... 针对三维海洋环境水下自主航行器(AUV)路径规划问题,传统的路径规划算法在三维空间中搜索时间长,对环境的依赖性强,且环境发生改变时,需要重新规划路径,不满足实时性要求。为了使AUV能够自主学习场景并做出决策,提出一种改进的Dueling DQN算法,更改了传统的网络结构以适应AUV路径规划场景。此外,针对路径规划在三维空间中搜寻目标点困难的问题,在原有的优先经验回放池基础上提出了经验蒸馏回放池,使智能体学习失败经验从而提高模型前期的收敛速度和稳定性。仿真实验结果表明:所提出的算法比传统路径规划算法具有更高的实时性,规划路径更短,在收敛速度和稳定性方面都优于标准的DQN算法。 展开更多
关键词 自主水下航行器(AUV) 三维路径规划 深度强化学习 Dueling dqn算法
在线阅读 下载PDF
基于改进D3QN的煤炭码头卸车排产智能优化方法 被引量:3
18
作者 秦保新 张羽霄 +2 位作者 吴思锐 曹卫冲 李湛 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期770-781,共12页
采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度... 采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度高且可行动作稀疏的特点,提出一种改进的D3QN算法,实现了卸车排产调度决策的智能优化。仿真结果表明,对于同一组随机任务序列,优化后的排产策略相比随机策略实现了明显的效率提升。同时,将训练好的排产策略应用于随机生成的新任务序列,可实现5%~7%的排产效率提升,表明该优化方法具有较好的泛化能力。此外,随着决策模型复杂度的提升,传统启发式优化算法面临建模困难、求解效率低等突出问题。所提算法为该类问题的研究提供了一种新思路,有望实现深度强化学习智能决策在港口排产任务中的更广泛应用。 展开更多
关键词 码头卸车排产 调度策略优化 智能决策 深度强化学习 DuelingDoubledqn算法
在线阅读 下载PDF
基于正交试验的感应控制参数组合优化 被引量:3
19
作者 王志建 龙顺忠 李颖宏 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1128-1136,共9页
针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUM... 针对随机流量波动较大的交叉口,提出优化感应控制策略,采用正交试验方法获取最优控制参数组合.将最大排队长度作为通行需求阈值来优化感应控制逻辑,将设置的3种相位切换机制(优先排队、优先延误和固定顺序)加入感应控制参数组合中.在SUMO仿真中,模拟北京市北辰西路与科荟南路交叉口环境,采用正交试验方法筛选出不同交通流量下感应控制的最优参数组合.设计对比实验验证最优参数组合的有效性,将最优参数组合应用在深度Q学习(DQN)算法中进一步优化感应控制.结果表明,正交试验方法能够快速有效地获取最优参数组合;在低、中等交通流量下,与未使用最优参数组合的DQN算法相比,使用最优参数组合的DQN算法的收敛速度分别增加了48.14%、38.89%,平均累计车均延误分别减少了8.45%、7.09%. 展开更多
关键词 信号交叉口 感应控制 影响参数 正交试验 深度Q学习(dqn)算法
在线阅读 下载PDF
好奇心蒸馏双Q网络移动机器人路径规划方法 被引量:2
20
作者 张凤 顾琦然 袁帅 《计算机工程与应用》 CSCD 北大核心 2023年第19期316-322,共7页
针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized ex... 针对移动机器人的路径规划中DQN算法存在过估计、样本利用率低、奖励稀疏等,从而影响机器人获取最优路径的问题,提出基于好奇心蒸馏模块竞争架构的双Q网络(curiosity distillation module dueling deep double Q-network prioritized experience replay,CDM-D3QN-PER)方法。该方法以D3QN为基础,在输入端添加长短时记忆网络(long short term memory,LSTM)处理雷达和相机的信息,降低过估计的影响,获得更有利的环境信息;采用优先经验回放机制(prioritized experience replay,PER)作为采样方法,使样本得到充分利用,提高样本利用率;引入好奇心蒸馏模块(curiosity distillation module,CDM),缓解奖励稀疏的问题。通过仿真实验与DQN、DDQN、D3QN相比,CDM-D3QN-PER算法训练的机器人到达目标点的次数明显增加,为DQN算法的3倍。该算法使奖励值得到提升,加快了收敛速度,能够在复杂的未知环境中获得最优路径。 展开更多
关键词 dqn算法 D3QN算法 好奇心蒸馏模块 长短时记忆网络(LSTM) 最优路径
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部