期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
结合先验知识的深度Q神经网络算法研究 被引量:3
1
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(dqn) 先验知识
在线阅读 下载PDF
基于深度Q神经网络(DQN)的空调冷却水系统无模型优化 被引量:3
2
作者 熊乔枫 李铮伟 赵铭炎 《暖通空调》 2023年第7期88-93,135,共7页
在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(... 在建筑空调水系统的优化控制领域,基于模型的控制方法得到了广泛的研究和验证。但基于模型的控制很大程度上依赖于精确的系统性能模型和足够的传感器,而这对于某些建筑来说是很难获得的。针对这一问题,本文提出了一种基于深度Q神经网络(DQN)的空调冷却水系统无模型优化方法,该方法以室外空气湿球温度、系统冷负荷及冷水机组开启状态为状态,以冷却塔风机和水泵的频率为动作,以系统性能系数(COP)为奖励。根据实际系统的实测数据进行建模,在模拟环境中使用基于粒子群优化算法的模型优化方法、基于Q值(Q learning)优化的强化学习方法和基于DQN的无模型优化方法进行实验,结果表明基于DQN的无模型优化方法的优化效果最好,有7.68%的平均COP提升与7.15%的节能率,在复杂系统下拥有较好的节能效果。 展开更多
关键词 无模型优化 深度q神经网络 冷却水系统 优化控制 能耗
在线阅读 下载PDF
超密集网络中基于改进DQN的接入选择算法 被引量:2
3
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
基于多组并行深度Q网络的连续空间追逃博弈算法 被引量:4
4
作者 刘冰雁 叶雄兵 +2 位作者 岳智宏 董献洲 张其扬 《兵工学报》 EI CAS CSCD 北大核心 2021年第3期663-672,共10页
为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习... 为解决连续空间追逃博弈(PEG)问题,提出一种基于多组并行深度Q网络(DQN)的连续空间PEG算法。应对连续行为空间中为避免传统强化学习存在的维数灾难不足,通过构建Takagi-Sugeno-Kang模糊推理模型来表征连续空间;为应对离散动作集自学习复杂且耗时不足,设计基于多组并行DQN的PEG算法。以4轮战车PEG问题为例设计仿真环境与运动模型,进行了运动计算,并与Q-learning算法、基于资格迹的强化学习算法、基于奖励的遗传算法结果相比对。仿真实验结果表明,连续空间PEG算法能够较好地解决连续空间PEG问题,且随着学习次数的增加不断提升问题处理能力,具备自主学习耗时少、追捕应用时间短的比较优势。 展开更多
关键词 追逃博弈 连续空间 深度q网络 神经网络 微分对策 智能战车
在线阅读 下载PDF
基于深度Q网络的水面无人艇路径规划算法 被引量:7
5
作者 随博文 黄志坚 +2 位作者 姜宝祥 郑欢 温家一 《上海海事大学学报》 北大核心 2020年第3期1-5,116,共6页
为实现水面无人艇(unmanned surface vessel,USV)在未知环境下的自主避障航行,提出一种基于深度Q网络的USV避障路径规划算法。该算法将深度学习应用到Q学习算法中,利用深度神经网络估计Q函数,有效解决传统Q学习算法在复杂水域环境的路... 为实现水面无人艇(unmanned surface vessel,USV)在未知环境下的自主避障航行,提出一种基于深度Q网络的USV避障路径规划算法。该算法将深度学习应用到Q学习算法中,利用深度神经网络估计Q函数,有效解决传统Q学习算法在复杂水域环境的路径规划中容易产生维数灾难的问题。通过训练模型可有效地建立感知(输入)与决策(输出)之间的映射关系。依据此映射关系,USV在每个决策周期选择Q值最大的动作执行,从而能够成功避开障碍物并规划出最优路线。仿真结果表明,在迭代训练8000次时,平均损失函数能够较好地收敛,这证明USV有效学习到了如何避开障碍物并规划出最优路线。该方法是一种不依赖模型的端到端路径规划算法。 展开更多
关键词 水面无人艇(USV) 自主避障 路径规划 深度q网络 卷积神经网络 强化学习
在线阅读 下载PDF
结合记忆网络和动态折扣系数的深度Q网络
6
作者 钟榛 闫启帅 《河南科技》 2021年第22期34-37,共4页
深度强化学习立足于解决环境交互问题,实现智能体的连续序列决策。传统强化学习算法基于马尔科夫决策过程,未来的状态仅与当前的状态有关,忽略了序列决策过程中记忆对当前决策的重要影响。此外,奖励的折扣系数为固定值,难以描述不同训... 深度强化学习立足于解决环境交互问题,实现智能体的连续序列决策。传统强化学习算法基于马尔科夫决策过程,未来的状态仅与当前的状态有关,忽略了序列决策过程中记忆对当前决策的重要影响。此外,奖励的折扣系数为固定值,难以描述不同训练阶段当前奖励值与未来奖励期望对当前决策的动态影响。通过结合深度Q网络和循环记忆网络的神经网络模型,将序列决策的长期记忆加入决策过程,同时设置动态折扣系数,对不同训练阶段的深度Q网络模型赋予适当的折扣系数,从而加速了深度Q网络模型收敛并提高了其性能。 展开更多
关键词 深度强化学习 记忆神经网络 深度q网络 动态折扣系数
在线阅读 下载PDF
基于深度Q网络的5G网络优化方法
7
作者 于星辉 《通信电源技术》 2023年第19期168-170,共3页
通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实... 通过探讨基于深度Q网络(Deep Q-Network,DQN)的5G网络优化方法,以提高5G网络的性能和自愈能力。主要研究5G网络的基本架构,包括基站、承载网、电信机房、骨干网络、接入网以及核心网,了解其工作原理,并介绍DQN的结构和数学原理。通过实验测试该方法的可行性。实验结果表明,DQN模型在提升5G网络的自愈能力方面表现出巨大潜力,尤其是在实现最优平均累积奖励和最低均方误差的情况下。 展开更多
关键词 深度q网络(dqn) 5G网络 自愈能力 优化方法
在线阅读 下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:1
8
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度q网络 dqn
在线阅读 下载PDF
基于深度强化学习的测井曲线自动深度校正方法 被引量:3
9
作者 熊文君 肖立志 +1 位作者 袁江如 岳文正 《石油勘探与开发》 EI CAS CSCD 北大核心 2024年第3期553-564,共12页
针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多... 针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。 展开更多
关键词 人工智能 机器学习 深度校正 测井曲线 多智能体深度强化学习 卷积神经网络 深度q学习网络
在线阅读 下载PDF
基于启发式深度Q学习的多机器人任务分配算法 被引量:16
10
作者 张子迎 陈云飞 +1 位作者 王宇华 冯光升 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2022年第6期857-864,共8页
针对多机器人任务分配方法在环境复杂性增加时出现的维度灾难问题,本文提出了一种基于启发式深度Q学习的多机器人多任务分配算法。采用神经网络代替传统强化学习中的Q值,避免了强化学习在高维度空间下的状态-动作空间的局限性问题;将轨... 针对多机器人任务分配方法在环境复杂性增加时出现的维度灾难问题,本文提出了一种基于启发式深度Q学习的多机器人多任务分配算法。采用神经网络代替传统强化学习中的Q值,避免了强化学习在高维度空间下的状态-动作空间的局限性问题;将轨迹池引入深度Q学习算法中启发动作的选择策略,提高了算法的收敛速度;在动作选择决策之中引入动态探索因子,保证算法对环境中的未知空间的充分探索,进而提高算法的学习效率。通过实验证明:基于启发式深度Q学习的任务分配算法成功缓解了复杂环境下多机器人多任务分配的维度灾难问题,通过实验对比,证明基于启发式深度Q学习的任务分配算法在收敛速度和任务分配结果方面存在明显的提升。 展开更多
关键词 任务分配 神经网络 强化学习 q 高纬度 启发式深度q学习 维度灾难 动态探索
在线阅读 下载PDF
基于Double-DQN的平衡类游戏改善 被引量:1
11
作者 孙鹏 孙若莹 刘滨翔 《电子设计工程》 2019年第14期112-116,共5页
现有的强化学习算法在平衡类游戏中存在过拟合与参数设置不当等问题。针对这些问题,强化学习算法应用到平衡类游戏中,不仅可以改善游戏的平衡性降低因人工测试不到位而产生的漏洞,而且可以提高游戏二次开发的可塑性。本文基于Q-learning... 现有的强化学习算法在平衡类游戏中存在过拟合与参数设置不当等问题。针对这些问题,强化学习算法应用到平衡类游戏中,不仅可以改善游戏的平衡性降低因人工测试不到位而产生的漏洞,而且可以提高游戏二次开发的可塑性。本文基于Q-learning、DeepQ-learning network、Double deep Q-learning network3种有关Q学习的强化学习算法对平衡类游戏进行实验对比,最后由测试结果得出结论:Double Deep Q-learning network强化学习算法解决了过拟合与参数设置不当等人工测试问题,更适合应用在平衡类游戏中。 展开更多
关键词 深度强化学习 深度q学习 q-LEARNING 神经网络
在线阅读 下载PDF
基于深度强化学习的柔性作业车间调度方法
12
作者 郭羽 唐敦兵 张泽群 《航空制造技术》 CSCD 北大核心 2024年第23期114-120,共7页
受到车间动态扰动的影响,单一调度规则在车间调度问题中无法一直获得较好的调度结果。对此,本文提出了一种基于D3QN(Dueling double DQN)的调度方法,用于柔性作业车间调度问题。首先通过将调度问题转化为马尔可夫决策过程,构建了强化学... 受到车间动态扰动的影响,单一调度规则在车间调度问题中无法一直获得较好的调度结果。对此,本文提出了一种基于D3QN(Dueling double DQN)的调度方法,用于柔性作业车间调度问题。首先通过将调度问题转化为马尔可夫决策过程,构建了强化学习任务数学模型,并依次设计了18种生产系统状态特征、9种用于评价机床和工件的分值动作以及与调度目标相关的奖励函数。然后基于Dueling double DQN算法,在机床Agent、工件Agent与车间生产系统的交互过程中,不断训练两个Agent在每个调度决策时刻选择最高评分的机床和工件,从而完成工件和机床的资源分配任务。最后通过仿真试验,将所提出的方法与直接选取机床编号和选取调度规则的调度方法进行对比,结果表明该方法能取得更好的调度结果。 展开更多
关键词 深度强化学习 柔性作业车间调度 神经网络 深度q网络 奖励函数
在线阅读 下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
13
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度q网络(dqn) 深度强化学习 双延迟策略梯度 毫米波 智能反射面
在线阅读 下载PDF
深度强化学习驱动下的智能电网通信网业务路由分配方法研究
14
作者 胡楠 张维 《通信电源技术》 2024年第10期43-45,共3页
在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析... 在现代化背景下,为确保电力系统的稳定运行,相关人员需要结合实际情况逐步推进智能电网的构建。智能电网以各项数据的获取、处理、保护为核心,建立了集成通信系统。文章针对深度强化学习驱动下的智能电网通信网业务路由分配方法展开分析,以提高通信资源利用率,提升业务路由方法的稳定性和可靠性。 展开更多
关键词 智能电网 通信网 深度q网络(dqn)算法 异步优势演员-评论家(A3C)算法 深度学习
在线阅读 下载PDF
基于集成深度强化学习的自动驾驶车辆行为决策模型 被引量:4
15
作者 张新锋 吴琳 《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第4期472-479,共8页
提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道... 提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道、4车道、5车道数量场景下,对向左换道、车道保持、向右换道、同车道加速和减速等5种车辆驾驶行为,进行测试和泛化性验证。结果表明:与其它3种网络模型相比,该模型的决策成功率分别提高了6%、3%和6%;平均车速也有提升;100回合的测试,耗时小于1 ms,满足决策实时性要求。因而,该决策模型提高了行车安全和决策效率。 展开更多
关键词 自动驾驶 深度强化学习 集成学习 深度q网络(dqn) 标准投票法
在线阅读 下载PDF
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 被引量:1
16
作者 吴兰 吴元明 +1 位作者 孔凡士 李斌全 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1353-1363,共11页
深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩... 深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。 展开更多
关键词 深度q学习网络(dqn) 感知能力 决策能力 交通信号灯配时系统 参数不确定性 扩展卡尔曼滤波(EKF)
在线阅读 下载PDF
基于分层框架混合强化学习的导弹制导与突防策略
17
作者 谭明虎 何昊麟 +1 位作者 艾文洁 柴斌 《宇航学报》 北大核心 2025年第1期117-128,共12页
针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提... 针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提出了混合强化学习方法,以分别应对连续和离散两种动作空间类型。通过近端策略优化(PPO)算法训练下层制导与突防模型,获得了自动驾驶仪的制导指令;同时采用深度Q网络(DQN)算法训练上层决策模型,在每个决策时刻根据全局状态选择调用下层子模型。提出的制导与突防策略通过分层框架实现了导弹打击任务中的全过程实时智能决策。与传统综合制导律的对比实验结果表明,基于分层框架混合强化学习的突防制导策略不仅确保了攻击导弹在三方交战环境中的生存能力,同时在能量消耗方面取得了显著优势。 展开更多
关键词 强化学习 制导突防策略 近端策略优化(PPO) 深度q网络(dqn)
在线阅读 下载PDF
组合动作空间深度强化学习的人群疏散引导方法 被引量:5
18
作者 薛怡然 吴锐 刘家锋 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2021年第8期29-38,共10页
人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社... 人群疏散引导系统可在建筑物内发生灾害时有效保护生命安全,减少人员财产损失。针对现有人群疏散引导系统需要人工设计模型和输入参数,工作量大且容易造成误差的问题,本文提出了基于深度强化学习的端到端智能疏散引导方法,设计了基于社会力模型的强化学习智能体仿真交互环境。使智能体可以仅以场景图像为输入,通过与仿真环境的交互和试错自主学习场景模型,探索路径规划策略,直接输出动态引导标志信息,指引人群有效疏散。针对强化学习深度Q网络(DQN)算法在人群疏散问题中因为动作空间维度较高,导致神经网络复杂度指数增长的“维度灾难”现象,本文提出了将Q网络输出层按动作维度分组的组合动作空间DQN算法,显著降低了网络结构复杂度,提高了系统在多个引导标志复杂场景中的实用性。在不同场景的仿真实验表明本文方法在逃生时间指标上优于静态引导方法,达到人工构造模型方法的相同水平。说明本文方法可以有效引导人群,提高疏散效率,同时降低人工构造模型的工作量并减小人为误差。 展开更多
关键词 神经网络 强化学习 疏散引导 人群仿真 深度q网络
在线阅读 下载PDF
战机自主作战机动双网络智能决策方法 被引量:5
19
作者 潘耀宗 张健 +2 位作者 杨海涛 袁春慧 赵洪利 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2019年第11期144-151,共8页
在基于深度强化学习(Deep Reinforcement Learning,DRL)的战机自主作战机动决策研究中,战机向攻击区域的自主机动是战机对目标进行有效打击的前提条件.然而,战机活动空域大、各向探索能力不均匀,直接利用DRL获取机动策略面临着训练交互... 在基于深度强化学习(Deep Reinforcement Learning,DRL)的战机自主作战机动决策研究中,战机向攻击区域的自主机动是战机对目标进行有效打击的前提条件.然而,战机活动空域大、各向探索能力不均匀,直接利用DRL获取机动策略面临着训练交互空间大、攻击区域样本分布设置困难,进而训练过程难以收敛.针对该问题,提出了一种基于深度Q网络(Deep Q-Network,DQN)的双网络智能决策方法.通过在战机正前方设置锥形空间,充分利用战机前向探索性能;建立角度捕获网络,利用DRL对战机偏离角调整策略进行拟合,实现偏离角自主调整,使攻击区域处于战机正前方的锥形空间内;建立距离捕获网络,在锥形空间内利用DRL对战机向攻击区域机动策略进行拟合,实现其向攻击区域的有效机动.实验结果表明,以战机活动空域作为交互空间直接引用DRL,不能有效解决战机向攻击区域机动的决策问题;采用基于DRL的双网络决策方法,在1 000次战机自主向攻击区域机动的测试中成功率达到了83.2%,有效解决了战机向己方攻击区域自主机动的决策问题. 展开更多
关键词 战机机动决策 深度强化学习 神经网络 深度q网络 智能决策
在线阅读 下载PDF
异构网络中用户关联和功率控制的协同优化 被引量:2
20
作者 樊雯 陈腾 菅迎宾 《电讯技术》 北大核心 2021年第7期893-900,共8页
针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最... 针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最优化问题,构建了正交频分多址的双层异构网络系统模型,以实现智能决策;其次,根据应用场景和多智能体DQN框架的动作空间,对状态空间和奖励函数进行重构;最后,通过选取具有宏基站(Base Station,BS)和小型BS的两层异构网络,对多智能体DQN算法的性能进行仿真实验。仿真结果表明,相较于传统学习算法,多智能体DQN算法具有更好的收敛性,且能够有效提升用户设备(User Equipment,UE)的服务质量与能效,并可获得最大的长期总体网络实用性。 展开更多
关键词 异构网络 用户关联 功率控制 强化学习 深度q学习网络(dqn)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部