期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于双深度Q网络算法的无人机辅助密集网络资源优化策略
1
作者 陈佳美 孙慧雯 +2 位作者 李玉峰 王宇鹏 别玉霞 《电子与信息学报》 北大核心 2025年第8期2621-2629,共9页
为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架... 为顺应未来网络向密集化与空间化方向的发展趋势,该文提出构建一种多基站共存的空地结合超密集复杂网络,并开发半分布式方案以优化网络资源。首先,建立包括宏基站、微基站和无人机(UAV)空中基站在内的多种基站共存的超密集复杂网络构架。在此基础上,针对传统完全集中式方案存在的计算负担重、响应速度慢以及分布式方案缺乏全局优化视角等问题,提出一种半分布式的双深度Q网络(DDQN)功率控制方案。该方案旨在优化网络能效,通过分布式决策与集中训练相结合的方式,有效平衡了计算复杂度和性能优化。具体而言,半分布式方案利用DDQN算法在基站侧进行分布式决策,同时引入集中式网络训练器以确保整体网络的能效最优。仿真结果表明,所提出的半分布式DDQN方案能够很好地适应密集复杂网络结构,与传统深度Q网络(DQN)相比,在能效和总吞吐量方面均取得了显著提升。 展开更多
关键词 空地密集网络 半分布式 双深度Q网络算法 资源优化
在线阅读 下载PDF
云边协同框架下视频处理任务实时调度算法
2
作者 李佳坤 谢雨来 冯丹 《计算机工程与科学》 北大核心 2025年第10期1767-1778,共12页
在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行... 在云边协同的视频任务处理中,由于存在大量的处理和传输任务,需要考虑任务处理的成功率、任务的处理时间,以保证服务质量。同时,还需要考虑各种资源开销以节省系统运营成本。为了解决上述难题,对云边协同框架下的视频任务调度问题进行了形式化建模,将问题转化为多目标优化问题。针对上述问题,提出了OCES算法,以权衡任务的时延与其在不同节点上产生的开销,并适应不同的动态场景。该算法对相同时间片内的任务进行排序以确定任务优先级,对于每个任务,结合任务信息与当前各边缘节点、云中心节点的状态信息,通过神经网络判断选取Q值最大策略的方法进行调度,用于指定任务的具体执行节点。OCES是基于DDQN的算法,对奖励函数和策略选择方法进行了改进,通过在深度神经网络中结合噪声网络,避免算法过早收敛于局部最优解。相比目前国际先进的CPSA算法,所提出的算法在成功率与完成时间相近的情况下,执行开销在不同平均到达速率与不同任务类型比例的2个场景中分别降低了10.56%与5.85%。 展开更多
关键词 云边协同 任务调度 深度强化学习 DDQN算法 噪声网络
在线阅读 下载PDF
基于IKOA优化SAGRU的大坝变形预测模型
3
作者 胡伟泊 赵二峰 +1 位作者 胡灵芝 黎祎 《人民长江》 北大核心 2025年第6期222-228,共7页
为充分发掘大坝变形监测数据中的有效信息并提升监控模型的预测精度,提出了基于IKOA优化SAGRU的大坝变形预测模型。首先,在门控循环单元(GRU)中引入自注意力机制,通过计算时间维度特征的贡献率,有效捕捉实测数据中的关键时序特征,提升... 为充分发掘大坝变形监测数据中的有效信息并提升监控模型的预测精度,提出了基于IKOA优化SAGRU的大坝变形预测模型。首先,在门控循环单元(GRU)中引入自注意力机制,通过计算时间维度特征的贡献率,有效捕捉实测数据中的关键时序特征,提升模型对关键信息的敏感性;然后通过混沌映射初始化、Runge-Kutta位置更新和ESQ强化3种策略对开普勒优化算法(KOA)进行改进,以对耦合自注意力机制的门控循环单元(SAGRU)中的超参数进行自动寻优。应用实例表明:改进开普勒优化算法(IKOA)在寻优速度和精度方面均优于麻雀搜索算法、灰狼优化算法、北方苍鹰优化算法和传统KOA,模型的RMSE相比GRU、LSTM和XGBoost模型分别降低了48.45%,54.56%和58.14%,尤其在实测位移变化的关键拐点和峰值处,优化后的模型展现了更好的拟合效果,表明该模型能够全面挖掘大坝变形序列中的时序特征,解决了GRU记忆容量有限,以及传统优化算法收敛速度慢且易陷入局部最优解的问题,显著提高了大坝变形预测模型的准确性。 展开更多
关键词 大坝变形监测 门控循环单元(GRU) 改进开普勒优化算法(IKOA) 自注意力机制 深度学习 小湾双曲拱坝
在线阅读 下载PDF
Deep reinforcement learning for UAV swarm rendezvous behavior 被引量:2
4
作者 ZHANG Yaozhong LI Yike +1 位作者 WU Zhuoran XU Jialin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2023年第2期360-373,共14页
The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the mai... The unmanned aerial vehicle(UAV)swarm technology is one of the research hotspots in recent years.With the continuous improvement of autonomous intelligence of UAV,the swarm technology of UAV will become one of the main trends of UAV development in the future.This paper studies the behavior decision-making process of UAV swarm rendezvous task based on the double deep Q network(DDQN)algorithm.We design a guided reward function to effectively solve the problem of algorithm convergence caused by the sparse return problem in deep reinforcement learning(DRL)for the long period task.We also propose the concept of temporary storage area,optimizing the memory playback unit of the traditional DDQN algorithm,improving the convergence speed of the algorithm,and speeding up the training process of the algorithm.Different from traditional task environment,this paper establishes a continuous state-space task environment model to improve the authentication process of UAV task environment.Based on the DDQN algorithm,the collaborative tasks of UAV swarm in different task scenarios are trained.The experimental results validate that the DDQN algorithm is efficient in terms of training UAV swarm to complete the given collaborative tasks while meeting the requirements of UAV swarm for centralization and autonomy,and improving the intelligence of UAV swarm collaborative task execution.The simulation results show that after training,the proposed UAV swarm can carry out the rendezvous task well,and the success rate of the mission reaches 90%. 展开更多
关键词 double deep Q network(DDQN)algorithms unmanned aerial vehicle(UAV)swarm task decision deep reinforcement learning(DRL) sparse returns
在线阅读 下载PDF
基于深度强化学习和隐私保护的群智感知动态任务分配策略
5
作者 傅彦铭 陆盛林 +1 位作者 陈嘉元 覃华 《信息网络安全》 CSCD 北大核心 2024年第3期449-461,共13页
在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果... 在移动群智感知(Mobile Crowd Sensing,MCS)中,动态任务分配的结果对提高系统效率和确保数据质量至关重要。然而,现有的大部分研究在处理动态任务分配时,通常将其简化为二分匹配模型,该简化模型未充分考虑任务属性与工人属性对匹配结果的影响,同时忽视了工人位置隐私的保护问题。针对这些不足,文章提出一种基于深度强化学习和隐私保护的群智感知动态任务分配策略。该策略首先通过差分隐私技术为工人位置添加噪声,保护工人隐私;然后利用深度强化学习方法自适应地调整任务批量分配;最后使用基于工人任务执行能力阈值的贪婪算法计算最优策略下的平台总效用。在真实数据集上的实验结果表明,该策略在不同参数设置下均能保持优越的性能,同时有效地保护了工人的位置隐私。 展开更多
关键词 群智感知 深度强化学习 隐私保护 双深度Q网络 能力阈值贪婪算法
在线阅读 下载PDF
融合概率类别特征增强的短文本分类
6
作者 廖列法 李奎 姚秀 《计算机工程与设计》 北大核心 2024年第7期2074-2081,共8页
对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的... 对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。 展开更多
关键词 类别特征增强 短文本 双池化 特征融合 统计算法 快速分类 深度学习
在线阅读 下载PDF
基于深度强化学习的机械臂多模混合控制 被引量:1
7
作者 李家乐 张建锋 +2 位作者 李彬 刘天琅 陈检 《计算机工程与设计》 北大核心 2024年第9期2835-2843,共9页
针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别... 针对基于深度强化学习控制的机械臂动态避障能力不足,在作业过程中存在多任务冲突问题,提出一种基于双重角色和正则化批评者算法(DARC)的多模混合控制方法。将任务分解为多段避障模式,借助人工势场法的斥力引力思想设计奖励函数并分别进行训练;将经过初步训练的多个模式以距离阈值或奖励积累阈值进行切换控制,消除混合控制存在的冲突;结合机械臂单元运动学特点设计具有软体性质的多连杆机械臂平面仿真模型。实验验证所提方法能够有效提升机械臂动态避障能力,避免多任务间的冲突。 展开更多
关键词 深度强化学习 机械臂 双重演员正则化评论家算法(DARC) 奖励机制 动态避障 优先经验回放机制 连续动作控制
在线阅读 下载PDF
基于改进D3QN的煤炭码头卸车排产智能优化方法 被引量:3
8
作者 秦保新 张羽霄 +2 位作者 吴思锐 曹卫冲 李湛 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期770-781,共12页
采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度... 采用智能化决策排产能够提高大型港口的运营效率,是人工智能技术在智慧港口场景落地的重要研究方向之一。针对煤炭码头卸车智能排产任务,将其抽象为马尔可夫序列决策问题。建立了该问题的深度强化学习模型,并针对该模型中动作空间维度高且可行动作稀疏的特点,提出一种改进的D3QN算法,实现了卸车排产调度决策的智能优化。仿真结果表明,对于同一组随机任务序列,优化后的排产策略相比随机策略实现了明显的效率提升。同时,将训练好的排产策略应用于随机生成的新任务序列,可实现5%~7%的排产效率提升,表明该优化方法具有较好的泛化能力。此外,随着决策模型复杂度的提升,传统启发式优化算法面临建模困难、求解效率低等突出问题。所提算法为该类问题的研究提供了一种新思路,有望实现深度强化学习智能决策在港口排产任务中的更广泛应用。 展开更多
关键词 码头卸车排产 调度策略优化 智能决策 深度强化学习 DuelingdoubleDQN算法
在线阅读 下载PDF
考虑结构安全的桩基码头清淤施工方案优化
9
作者 赵煜 蔡忠志 +1 位作者 尤再进 隋意 《水利水运工程学报》 CSCD 北大核心 2024年第5期10-21,共12页
中国沿海粉砂质海岸桩基码头下方普遍存在的严重泥沙回淤问题,导致码头桩基受损和高昂泥沙清淤成本。将桩基受力的有限元分析方法与港口运营管理的运筹学方法相结合,以大型沿海桩基码头泥沙清淤工程为原型,开展桩基码头的清淤施工方案... 中国沿海粉砂质海岸桩基码头下方普遍存在的严重泥沙回淤问题,导致码头桩基受损和高昂泥沙清淤成本。将桩基受力的有限元分析方法与港口运营管理的运筹学方法相结合,以大型沿海桩基码头泥沙清淤工程为原型,开展桩基码头的清淤施工方案优化研究,分别建立码头桩基-岸坡土体结构体系的有限元数值模型,以及综合考虑清淤成本、安全、效率的港口清淤施工方案优化数学模型,并应用基于强化学习改进的遗传算法求解得到最优清淤方案。方案在充分考虑结构安全的前提下,有效降低了清淤成本,可为港口清淤提供依据。 展开更多
关键词 码头泥沙回淤 清淤施工方案 约束优化 DDQN-GA算法
在线阅读 下载PDF
临汾地区的小震精定位分析 被引量:7
10
作者 董春丽 李乐 +4 位作者 赵晋泉 李冬梅 胡玉良 任力伟 徐志国 《地震地质》 EI CSCD 北大核心 2013年第4期873-886,共14页
应用双差地震定位法对临汾地区1981-2010年发生的地震进行重新定位,重定位的地震表现为丛集性分布;临汾地区地震多发生在5 ~11km和15 ~27km 2个范围内,表明这2层是研究区的主要发震层,即基本位于地壳的中上部和中地壳层.临汾盆地北部... 应用双差地震定位法对临汾地区1981-2010年发生的地震进行重新定位,重定位的地震表现为丛集性分布;临汾地区地震多发生在5 ~11km和15 ~27km 2个范围内,表明这2层是研究区的主要发震层,即基本位于地壳的中上部和中地壳层.临汾盆地北部苏堡断裂两侧地震频度高,且断裂以北多数震源深于以南地区,表现出区域构造对地震的控制作用.地震震源分布的构造成因分析表明,在临汾盆地中部有切穿地壳至地幔的深大断裂存在,盆地周边的活动断裂在上地壳与其相连,盆地两侧的活动断裂的错断活动是盆地中部深大断裂活动在地表的反映. 展开更多
关键词 双差定位法 地震构造 深大断裂 临汾地区
在线阅读 下载PDF
双伸位堆垛机系统调度的优化设计 被引量:9
11
作者 黄杨波 刘万军 刘卉 《计算机工程》 CAS CSCD 北大核心 2010年第1期260-261,264,共3页
以某机务段段修配件自动化立体仓库(AS/RS)为例,通过分析影响双伸位堆垛机系统运作的重要因素,提出一种基于作业时间最短的优化设计,建立相应的数学模型,并采用分区平均搜索初始种群的遗传算法对其进行验证。结果证明该优化设计有利于... 以某机务段段修配件自动化立体仓库(AS/RS)为例,通过分析影响双伸位堆垛机系统运作的重要因素,提出一种基于作业时间最短的优化设计,建立相应的数学模型,并采用分区平均搜索初始种群的遗传算法对其进行验证。结果证明该优化设计有利于提高双伸位堆垛机AS/RS系统的运作效率。 展开更多
关键词 自动化立体仓库 双伸位堆垛机 倒库 遗传算法
在线阅读 下载PDF
基于三维巷道模型的深孔爆破扇形布孔优化设计 被引量:11
12
作者 郭进平 刘益超 +2 位作者 李角群 卢皎旭 张雯 《工程爆破》 CSCD 北大核心 2021年第2期66-72,共7页
为了满足生产实际并提升深孔爆破布孔优化设计的效率,介绍了三维巷道模型的构建及切割方法,并在此基础上通过3种方法对比选择出基于Dijkstra算法建立深孔爆破扇形炮孔排面优化设计算法模型,在Auto CAD平台进行二次开发深孔爆破炮孔优化... 为了满足生产实际并提升深孔爆破布孔优化设计的效率,介绍了三维巷道模型的构建及切割方法,并在此基础上通过3种方法对比选择出基于Dijkstra算法建立深孔爆破扇形炮孔排面优化设计算法模型,在Auto CAD平台进行二次开发深孔爆破炮孔优化设计程序模块,并成功应用于某铁矿。深孔爆破优化设计程序的开发,解决了炮孔布置方案中在双排起爆的前提下扇形炮孔布孔优化设计问题,可实现地下矿深孔爆破炮孔的快速绘制,提高深孔爆破设计质量,有效控制爆破作业成本。 展开更多
关键词 深孔爆破 炮孔设计 最短路径 Dijsktra算法 扇形布孔 双排起爆
在线阅读 下载PDF
利用稀疏语义结合双层深度卷积神经网络的敏感图像检测方法 被引量:2
13
作者 如先姑力·阿布都热西提 亚森·艾则孜 孙国梓 《计算机应用研究》 CSCD 北大核心 2020年第5期1557-1560,1565,共5页
互联网技术的飞速发展导致敏感内容图像由原先基本隐蔽的内容交换变为海量的数据共享,传统基于图像特征提取的敏感内容检测方法不再适用。针对上述难点,提出基于稀疏语义和双层深度卷积神经网络相结合的敏感内容检测方法。上层网络首先... 互联网技术的飞速发展导致敏感内容图像由原先基本隐蔽的内容交换变为海量的数据共享,传统基于图像特征提取的敏感内容检测方法不再适用。针对上述难点,提出基于稀疏语义和双层深度卷积神经网络相结合的敏感内容检测方法。上层网络首先进行训练样本的预处理,并通过构造图像的稀疏语义表示作为神经网络的输入;而下层网络则进一步考虑第三方管控机制(如政府代理等),提出针对特定群体的敏感内容图像检测方法。与现有常用敏感内容图像检测方法相比,该检测方法可有效降低训练样本数量,且检测精度比传统图像检测方法(如基于视觉词袋方法等)提升7%以上。 展开更多
关键词 敏感图像内容检测 双层卷积神经网络 深度学习算法 稀疏语义表示 视觉词袋 皮肤检测器
在线阅读 下载PDF
基于深度自编码器的分钟级负荷数据聚类分析 被引量:9
14
作者 徐博 钱成功 +3 位作者 牛军伟 王松云 孙国强 章逸舟 《广东电力》 2023年第3期57-67,共11页
在数字化电网的全面建设和电力市场持续改革的背景下,电力服务商积极开展以负荷数据聚类分析为基础的用电行为分析。为了深入分析用户的用电行为模式,提出基于深度自编码器的分钟级负荷数据聚类分析方法。首先基于信息熵重构负荷数据,... 在数字化电网的全面建设和电力市场持续改革的背景下,电力服务商积极开展以负荷数据聚类分析为基础的用电行为分析。为了深入分析用户的用电行为模式,提出基于深度自编码器的分钟级负荷数据聚类分析方法。首先基于信息熵重构负荷数据,保留负荷数据的形态特征和提高数据的可区分性;接着提出深度自编码器的特征提取方法,同时利用边界少数样本过采样算法生成新的训练样本,对深度自编码器网络模型进行两阶段训练;最后基于欧式距离和动态时间扭曲距离的双尺度距离,计算负荷数据特征的相似性,以双尺度距离作为K-means算法的输入数据得到负荷聚类结果。基于南京市某台区的分钟级负荷数据的算例分析表明,所提方法提高了不同负荷数据分类的准确性。 展开更多
关键词 聚类分析 负荷数据 深度自编码器 双尺度距离 K-MEANS算法
在线阅读 下载PDF
基于深度强化学习的节能工艺路线发现方法 被引量:2
15
作者 陶鑫钰 王艳 纪志成 《智能系统学报》 CSCD 北大核心 2023年第1期23-35,共13页
由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立... 由于传统基于固定加工环境的工艺路线制定规则,无法快速响应加工环境的动态变化制定节能工艺路线。因此提出了基于深度Q网络(deep Q network,DQN)的节能工艺路线发现方法。基于马尔可夫决策过程,定义状态向量、动作空间、奖励函数,建立节能工艺路线模型,并将加工环境动态变化的节能工艺路线规划问题,转化为DQN智能体决策问题,利用决策经验的可复用性和可扩展性,进行求解,同时为了提高DQN的收敛速度和解的质量,提出了基于S函数探索机制和加权经验池,并使用了双Q网络。仿真结果表明,相比较改进前,改进后的算法在动态加工环境中能够更快更好地发现节能工艺路线;与遗传算法、模拟退火算法以及粒子群算法相比,改进后的算法不仅能够以最快地速度发现节能工艺路线,而且能得到相同甚至更高精度的解。 展开更多
关键词 深度强化学习 深度Q网络 动态加工环境 工艺路线 马尔可夫决策过程 智能体决策 双Q网络 启发式算法
在线阅读 下载PDF
基于二维Winograd算法的深流水线5×5卷积方法 被引量:1
16
作者 黄程程 董霄霄 李钊 《计算机应用》 CSCD 北大核心 2021年第8期2258-2264,共7页
针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分... 针对二维Winograd卷积算法中存储器带宽需求过高、计算复杂度高、设计探索周期漫长、级联的卷积存在层间计算延迟等问题,提出一种基于二维Winograd算法的双缓冲区5×5卷积层设计方法。首先使用列缓冲结构完成数据布局,以重用相邻分块之间的重叠数据,降低存储器带宽需求;然后精确搜索并复用Winograd算法加法计算过程中重复的中间计算结果,来降低加法运算量,从而减小加速器系统的能耗开销和设计面积;最后根据Winograd算法计算过程来完成6级流水线结构的设计,并实现针对5×5卷积的高效率计算。实验结果表明,这种5×5卷积的计算方法在基本不影响卷积神经网络(CNN)预测准确率的前提下,与传统卷积相比降低了83%的乘法运算量,加速倍率为5.82;该方法与级联3×3二维Winograd卷积组成5×5卷积的方法相比降低了12%的乘法运算量,降低了约24.2%的存储器带宽需求,并减少了20%的运算时间。 展开更多
关键词 卷积神经网络 现场可编程逻辑门阵列 Winograd算法 双缓冲区 深流水线
在线阅读 下载PDF
基于协作式深度强化学习的火灾应急疏散仿真研究 被引量:7
17
作者 倪凌佳 黄晓霞 +1 位作者 李红旮 张子博 《系统仿真学报》 CAS CSCD 北大核心 2022年第6期1353-1366,共14页
火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供... 火灾是威胁公共安全的主要灾害之一,火灾产生的高温和有毒有害烟气严重影响了疏散路径的选择。将深度强化学习引入到应急疏散仿真研究,针对多智能体环境提出了协作式双深度Q网络算法。建立随时间动态变化的火灾场景模型,为人员疏散提供实时的危险区域分布信息;对各自独立的智能体神经网络进行整合,建立多智能体统一的深度神经网络,实现所有智能体之间的神经网络和经验共享,提高整体协作疏散效率。结果表明:所提方法具有良好的稳定性和适应性,训练和学习效率得到提升,具有良好的应用价值。 展开更多
关键词 协作式双深度Q网络算法 深度强化学习 多智能体系统 应急疏散仿真 火灾场景仿真
在线阅读 下载PDF
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
18
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断双Q学习 双经验回放池
在线阅读 下载PDF
基于深度强化学习的Boost变换器控制策略 被引量:1
19
作者 戴宇轩 崔承刚 《系统仿真学报》 CAS CSCD 北大核心 2023年第5期1109-1119,共11页
针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网... 针对Boost变换器母线电压稳定控制存在模型不确定性和非线性的问题,提出了一种基于无模型深度强化学习的智能控制策略。结合强化学习DDQN(double DQN)算法与DDPG算法设计了Boost变换器控制器,包括了状态、动作空间、奖励函数以及神经网络的设计以提高控制器动态性能;基于ModelicaGym库开发工具包reinforment learning modelica(RLM)实现了Boost变换器模型与强化学习智能体的联合仿真。通过与双环PI控制器的对比仿真表明:强化学习控制器在三种工况下的母线电压稳定控制结果具有更好的动态性能。 展开更多
关键词 BOOST变换器 深度强化学习 DDQN算法 DDPG算法 协同仿真
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部