期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
演化算法的DQN网络参数优化方法
1
作者 曹子建 郭瑞麒 +2 位作者 贾浩文 李骁 徐恺 《西安工业大学学报》 CAS 2024年第2期219-231,共13页
为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQ... 为了解决DQN(Deep Q Network)在早期会出现盲目搜索、勘探利用不均并导致整个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差分演化(Differential Evolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5 000代时所提出的改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。 展开更多
关键词 深度强化学习 深度q网络 收敛加速 演化算法 自动控制
在线阅读 下载PDF
基于双深度Q网络算法的多用户端对端能源共享机制研究
2
作者 武东昊 王国烽 +2 位作者 毛毳 陈玉萍 张有兵 《高技术通讯》 CAS 北大核心 2024年第7期755-764,共10页
端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷... 端对端(P2P)电力交易作为用户侧能源市场的一种新的能源平衡和互动方式,可以有效促进用户群体内的能源共享,提高参与能源市场用户的经济效益。然而传统求解用户间P2P交易的方法依赖对于光伏、负荷数据的预测,难以实时响应用户间的源荷变动问题。为此,本文建立了一种以多类型用户为基础的多用户P2P能源社区交易模型,并引入基于双深度Q网络(DDQN)的强化学习(RL)算法对其进行求解。所提方法通过DDQN算法中的预测网络以及目标网络读取多用户P2P能源社区中的环境信息,训练后的神经网络可通过实时的光伏、负荷以及电价数据对当前社区内的多用户P2P交易问题进行求解。案例仿真结果表明,所提方法在促进社区内用户间P2P能源交易共享的同时,保证了多用户P2P能源社区的经济性。 展开更多
关键词 端对端(P2P)能源共享 强化学习(RL) 能源交易市场 深度q网络(Ddqn)算法
在线阅读 下载PDF
基于深度强化学习的空天地一体化网络资源分配算法 被引量:1
3
作者 刘雪芳 毛伟灏 杨清海 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2831-2841,共11页
空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深... 空天地一体化网络(SAGIN)通过提高地面网络的资源利用率可以有效满足多种业务类型的通信需求,然而忽略了系统的自适应能力和鲁棒性及不同用户的服务质量(QoS)。针对这一问题,该文提出在空天地一体化网络架构下,面向城区和郊区通信的深度强化学习(DRL)资源分配算法。基于第3代合作伙伴计划(3GPP)标准中定义的用户参考信号接收功率(RSRP),考虑地面同频干扰情况,以不同域中基站的时频资源作为约束条件,构建了最大化系统用户的下行吞吐量优化问题。利用深度Q网络(DQN)算法求解该优化问题时,定义了能够综合考虑用户服务质量需求、系统自适应能力及系统鲁棒性的奖励函数。仿真结果表明,综合考虑无人驾驶汽车,沉浸式服务及普通移动终端通信业务需求时,表征系统性能的奖励函数值在2 000次迭代下,相较于贪婪算法提升了39.1%;对于无人驾驶汽车业务,利用DQN算法进行资源分配后,相比于贪婪算法,丢包数平均下降38.07%,时延下降了6.05%。 展开更多
关键词 空天地一体化网络 资源分配算法 深度强化学习 深度q网络
在线阅读 下载PDF
结合先验知识的深度Q神经网络算法研究 被引量:3
4
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(dqn) 先验知识
在线阅读 下载PDF
超密集网络中基于改进DQN的接入选择算法 被引量:2
5
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
基于改进DQN强化学习算法的弹性光网络资源分配研究 被引量:3
6
作者 尚晓凯 韩龙龙 翟慧鹏 《光通信技术》 2023年第5期12-15,共4页
针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现... 针对光网络资源分配中频谱资源利用率不高的问题,提出了一种改进的深度Q网络(DQN)强化学习算法。该算法基于ε-greedy策略,根据动作价值函数和状态价值函数的差异来设定损失函数,并不断调整ε值,以改变代理的探索率。通过这种方式,实现了最优的动作值函数,并较好地解决了路由与频谱分配问题。此外,采用了不同的经验池取样方法,以提高迭代训练的收敛速度。仿真结果表明:改进DQN强化学习算法不仅能够使弹性光网络训练模型快速收敛,当业务量为300 Erlang时,比DQN算法频谱资源利用率提高了10.09%,阻塞率降低了12.41%,平均访问时延减少了1.27 ms。 展开更多
关键词 弹性光网络 改进深度q网络强化学习算法 资源分配
在线阅读 下载PDF
基于深度Q网络的5G网络优化方法
7
作者 于星辉 《通信电源技术》 2023年第19期168-170,共3页
通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实... 通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实验测试该方法的可行性。实验结果表明,DQN模型在提升5G网络的自愈能力方面表现出巨大潜力,尤其是在实现最优平均累积奖励和最低均方误差的情况下。 展开更多
关键词 深度q网络(dqn) 5G网络 自愈能力 优化方法
在线阅读 下载PDF
基于深度强化学习的边云协同串行任务卸载算法 被引量:7
8
作者 张凤荔 赵佳君 +1 位作者 刘东 王瑞锦 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第3期398-404,共7页
在移动边缘计算任务卸载问题中,传统卸载算法仅考虑移动设备和边缘服务器计算资源,在资源利用、系统效能上存在一定的局限性。该文基于RainbowDQN算法,考虑了延迟、能耗成本和服务质量保证等因素,提出了一种边缘云协同串行任务卸载算法(... 在移动边缘计算任务卸载问题中,传统卸载算法仅考虑移动设备和边缘服务器计算资源,在资源利用、系统效能上存在一定的局限性。该文基于RainbowDQN算法,考虑了延迟、能耗成本和服务质量保证等因素,提出了一种边缘云协同串行任务卸载算法(ECWS-RDQN)。该算法通过对串行任务的权重分配,实现了网络边缘和云端协同的串行任务动态分配处理,为不同的用户设备应用提供近似最优的任务分配卸载策略。实验表明,ECWS-RDQN算法比传统方案有更好的系统效能,提升了应用的服务质量。 展开更多
关键词 深度q网络 边云协同 移动边缘计算 串行任务 任务卸载算法
在线阅读 下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:1
9
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度q网络 dqn
在线阅读 下载PDF
蜣螂优化算法下“互联网+营销服务”虚拟机器人应用模型 被引量:2
10
作者 何玮 周雨湉 +3 位作者 俞阳 康雨萌 朱萌 钱旭盛 《西安工程大学学报》 CAS 2024年第1期113-120,共8页
为了应对新形势下的电力营销服务形势,提升互联网时代的电网优质服务水平,利用蜣螂优化(dung beetle optimizer,DBO)算法,设计了一种“互联网+营销服务”虚拟机器人模型。首先针对电网营销部门可能发生的人机交互情景开展交互分析与关... 为了应对新形势下的电力营销服务形势,提升互联网时代的电网优质服务水平,利用蜣螂优化(dung beetle optimizer,DBO)算法,设计了一种“互联网+营销服务”虚拟机器人模型。首先针对电网营销部门可能发生的人机交互情景开展交互分析与关系框架设计,然后基于深度Q网络(deep Q network,DQN)建立虚拟机器人自主学习模型,引入DBO算法完成模型超参数的高效寻优并通过训练完成优化后的模型学习,最终将实际的电力营销数据输入到模型中进行实验测试。在特定的测试环境下综合检测模型的实际应用情况,测试结果表明:该虚拟机器人模型在功能性实验、非功能性实验和安全性实验中模型运转和系统运转正常率达到100%,能够较好地实现人机交互功能,达到全天候客户需求精准响应的战略目标。 展开更多
关键词 深度q网络 虚拟机器人 蜣螂优化(DBO)算法 超参数寻优 电力营销服务
在线阅读 下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
11
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度q网络(dqn) 深度强化学习 双延迟策略梯度 毫米波 智能反射面
在线阅读 下载PDF
基于混合智能优化算法的医疗物资库存管理研究
12
作者 徐爱萍 郝一炜 朱碧云 《电子设计工程》 2024年第21期37-40,46,共5页
针对传统医疗物资库存管理方法存在的库存过剩或不足等问题,以最小化库存成本和最大化物资利用率为目标,提出了一种基于深度强化学习的混合智能优化算法。该算法融合了深度Q网络的学习能力和进化禁忌搜索算法的全局优化能力,综合考虑全... 针对传统医疗物资库存管理方法存在的库存过剩或不足等问题,以最小化库存成本和最大化物资利用率为目标,提出了一种基于深度强化学习的混合智能优化算法。该算法融合了深度Q网络的学习能力和进化禁忌搜索算法的全局优化能力,综合考虑全局与局部最优解,实现医疗物资库存管理的精准优化。在实验中,将提出的算法与多种优化方法在真实数据集上进行了对比,结果显示,所提算法在最小化库存成本和最大化物资利用率方面均表现最佳,分别为22212元和0.9507。 展开更多
关键词 医疗物资 库存管理 深度q网络 进化禁忌搜索算法
在线阅读 下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
13
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度q网络(dqn)算法 异步优势演员-评论家(A3C)算法 深度学习
在线阅读 下载PDF
基于集成深度强化学习的自动驾驶车辆行为决策模型 被引量:4
14
作者 张新锋 吴琳 《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第4期472-479,共8页
提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道... 提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道、4车道、5车道数量场景下,对向左换道、车道保持、向右换道、同车道加速和减速等5种车辆驾驶行为,进行测试和泛化性验证。结果表明:与其它3种网络模型相比,该模型的决策成功率分别提高了6%、3%和6%;平均车速也有提升;100回合的测试,耗时小于1 ms,满足决策实时性要求。因而,该决策模型提高了行车安全和决策效率。 展开更多
关键词 自动驾驶 深度强化学习 集成学习 深度q网络(dqn) 标准投票法
在线阅读 下载PDF
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 被引量:1
15
作者 吴兰 吴元明 +1 位作者 孔凡士 李斌全 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1353-1363,共11页
深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩... 深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。 展开更多
关键词 深度q学习网络(dqn) 感知能力 决策能力 交通信号灯配时系统 参数不确定性 扩展卡尔曼滤波(EKF)
在线阅读 下载PDF
基于分层框架混合强化学习的导弹制导与突防策略
16
作者 谭明虎 何昊麟 +1 位作者 艾文洁 柴斌 《宇航学报》 北大核心 2025年第1期117-128,共12页
针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提... 针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提出了混合强化学习方法,以分别应对连续和离散两种动作空间类型。通过近端策略优化(PPO)算法训练下层制导与突防模型,获得了自动驾驶仪的制导指令;同时采用深度Q网络(DQN)算法训练上层决策模型,在每个决策时刻根据全局状态选择调用下层子模型。提出的制导与突防策略通过分层框架实现了导弹打击任务中的全过程实时智能决策。与传统综合制导律的对比实验结果表明,基于分层框架混合强化学习的突防制导策略不仅确保了攻击导弹在三方交战环境中的生存能力,同时在能量消耗方面取得了显著优势。 展开更多
关键词 强化学习 制导突防策略 近端策略优化(PPO) 深度q网络(dqn)
在线阅读 下载PDF
航空混合动力系统能量管理策略研究综述
17
作者 张丁予 沈挺 《航空发动机》 北大核心 2025年第1期12-20,共9页
能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。... 能量管理策略作为航空混合动力系统的顶层控制,用于对混合动力系统不同动力源进行能量分流,是保证系统高效运行的基础。详细论述了各类航空混合动力系统能量管理策略,系统总结了基于规则、优化和智能3类能量管理策略的特点和研究现状。通过阐述强化学习原理,分析了深度Q网络算法和深度确定性策略梯度算法的奖励原理、神经网络更新原理、以及各自优缺点及适用场景,并提出基于规则类能量管理策略对于专家经验依赖性较高等缺陷,可以通过将其与基于智能算法内部创新融合进行缓解的措施。在此基础上,展望了能量管理策略的未来发展趋势为智能内部算法、智能与其他类型算法的融合创新等,可以为后续航空混动系统能量管理策略研究提供一定的参考。 展开更多
关键词 能量管理策略 深度q网络算法 深度确定性策略梯度算法 强化学习 航空混合动力系统
在线阅读 下载PDF
基于深度强化学习的无人机集群协同信息筛选方法研究 被引量:9
18
作者 李欣童 熊智 +2 位作者 陈明星 熊骏 李文龙 《电光与控制》 CSCD 北大核心 2021年第10期6-10,共5页
针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使... 针对未知复杂环境下无人机集群协同定位导航中算法计算量过大的问题,提出了两种基于深度强化学习的无人机集群协同信息筛选方法,将多无人机定位问题映射为部分可观的马尔可夫决策过程(POMDP),通过克拉美罗下界(CRLB)设置的精度阈值,使用最少协同信息满足所有无人机的定位精度要求。仿真结果表明,同无筛选情形相比,基于深度强化学习的筛选策略可以在不牺牲定位精度的同时,有效提高协同定位算法的实时性,解决协同信息冗余问题,显著提高了协同定位算法的执行效率。 展开更多
关键词 协同定位 无人机集群 深度q网络算法 策略梯度算法
在线阅读 下载PDF
基于深度强化学习的协作通信中继选择 被引量:6
19
作者 胡文杰 钟良骥 《电讯技术》 北大核心 2020年第12期1425-1431,共7页
协作通信是无线传感器网络(Wireless Sensor Network,WSN)实现数据可靠传输的关键技术,而协作通信技术的关键在于中继方案的选择。为此,提出了一种基于深度强化学习的协作通信中继选择算法(Deep Q-Learning Based Relay Selection Schem... 协作通信是无线传感器网络(Wireless Sensor Network,WSN)实现数据可靠传输的关键技术,而协作通信技术的关键在于中继方案的选择。为此,提出了一种基于深度强化学习的协作通信中继选择算法(Deep Q-Learning Based Relay Selection Scheme,DQ-RSS)。首先,将WSN中具有中继选择的协作通信过程建模为马尔科夫决策过程,并采用Q学习在未知网络模型的情况下获取最佳中继选择策略;其次,针对高维状态空间下Q学习收敛时间长的问题,采用DQN(Deep-Q-Net)算法来加速Q学习的收敛。对比仿真实验结果表明,DQ-RSS在中断概率、系统容量和能耗方面均优于现有的中继选择方案,且能够有效节省收敛时间。 展开更多
关键词 无线传感器网络 协作通信 中继选择 q学习 dqn算法
在线阅读 下载PDF
基于深度强化学习的增程式电动轻卡能量管理策略 被引量:3
20
作者 段龙锦 王贵勇 +1 位作者 王伟超 何述超 《内燃机工程》 CAS CSCD 北大核心 2023年第6期90-99,共10页
为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,T... 为了解决增程式电动轻卡辅助动力单元(auxiliary power units,APU)和动力电池之间能量的合理分配问题,在Simulink中建立面向控制的仿真模型,并提出一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法的实时能量管理策略,以发动机燃油消耗量、电池荷电状态(state of charge,SOC)变化等为优化目标,在世界轻型车辆测试程序(world light vehicle test procedure,WLTP)中对深度强化学习智能体进行训练。仿真结果表明,利用不同工况验证了基于TD3算法的能量管理策略(energy management strategy,EMS)具有较好的稳定性和适应性;TD3算法实现对发动机转速和转矩连续控制,使得输出功率更加平滑。将基于TD3算法的EMS与基于传统深度Q网络(deep Q-network,DQN)算法和深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法进行对比分析,结果表明:基于TD3算法的EMS燃油经济性分别相比基于DQN算法和DDPG算法提高了12.35%和0.67%,达到基于动态规划(dynamic programming,DP)算法的94.85%,收敛速度相比基于DQN算法和DDPG算法分别提高了40.00%和47.60%。 展开更多
关键词 深度q网络 深度确定性策略梯度 双延迟深度确定性策略梯度算法 增程式电动轻卡
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部