期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于改进联邦竞争深度Q网络的多微网能量管理策略 被引量:4
1
作者 黎海涛 刘伊然 +3 位作者 杨艳红 肖浩 谢冬雪 裴玮 《电力系统自动化》 EI CSCD 北大核心 2024年第8期174-184,共11页
目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能... 目前,基于联邦深度强化学习的微网(MG)能量管理研究未考虑多类型能量转换与MG间电量交易的问题,同时,频繁交互模型参数导致通信时延较大。基于此,以一种包含风、光、电、气等多类型能源的MG为研究对象,构建了支持MG间电量交易和MG内能量转换的能量管理模型,提出基于正余弦算法的联邦竞争深度Q网络学习算法,并基于该算法设计了计及能量交易与转换的多MG能量管理与优化策略。仿真结果表明,所提能量管理策略在保护数据隐私的前提下,能够得到更高奖励且最大化MG经济收益,同时降低了通信时延。 展开更多
关键词 微网(MG) 联邦学习 竞争深度q网络 正余弦算法 能量管理
在线阅读 下载PDF
一种基于DQN的卫星通信车载站中频功率智能控制方法
2
作者 黄启明 袁正林 +1 位作者 龚正伟 宋军 《电讯技术》 北大核心 2025年第7期1120-1128,共9页
针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(... 针对传统卫星通信车载站中频信号功率控制策略中存在的自动化程度低、控制效率低下等问题,提出了一种基于深度Q学习网络(Deep Q-learning Network,DQN)的功率智能控制方法。将功率控制决策转化成一个马尔可夫决策过程:选取信道终端设备(Channel Terminal,CT)参数构建状态空间,以终端链路操作和禁呼时间构建动作空间,设计了基于业务价值的奖励函数和基于物理特性的状态转移函数。提出的控制策略实现了中频信号功率控制智能化,算法收敛状态平均回报可以达到主流深度强化学习算法水平,平均回合训练时间仅为对照组最长时间的6.45%。 展开更多
关键词 卫星通信车载站 中频功率控制 深度q学习网络(dqn)
在线阅读 下载PDF
结合先验知识的深度Q神经网络算法研究 被引量:3
3
作者 褚伟 茹琦 任明仑 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2019年第7期901-905,958,共6页
深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射... 深度Q神经网络(deep Q-network,DQN)算法在训练初期,由于动作选择随机性强,导致算法的训练时间过长。针对该问题,文章提出一种结合先验知识的深度Q神经网络(priori knowledge-DQN,PK-DQN)算法,将先验知识定义为特征状态与最优动作的映射,根据先验知识对动作选择过程的影响程度,将先验知识引入DQN算法,优化DQN算法的动作选择规则,降低其在探索过程中的动作选择随机性,并使用赛车游戏对算法进行训练。实验结果表明,PK-DQN算法能够更快收敛,有较高的学习效率,算法训练时长明显缩短。 展开更多
关键词 深度学习 强化学习 深度q神经网络(dqn) 先验知识
在线阅读 下载PDF
计及电力-通信-交通耦合网络不确定性的虚拟电厂鲁棒优化调度
4
作者 潘超 李梓铭 +3 位作者 龚榆淋 叶宇鸿 孙中伟 周振宇 《电工技术学报》 北大核心 2025年第15期4755-4769,共15页
电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VP... 电力-通信-交通耦合网络中,虚拟电厂(VPP)通过先进的控制、通信、信息采集技术对分布式资源进行规模化聚合调控并积极响应电网需求,能够提高电网运行的稳定性。然而,现有VPP优化调度方法忽略了电力-通信-交通耦合网络中不确定性因素对VPP需求响应优化调度的影响,导致调度成本高、鲁棒性差。针对上述问题,首先,该文构建电力-通信-交通耦合网络模型,并以最小化网损、节点电压偏差、VPP经济成本的加权和为目标建立优化问题;其次,分析来自电力-通信-交通三个网络的不确定性因素,并构建计及电力-通信-交通耦合网络不确定性的VPP鲁棒优化调度问题;然后,提出一种基于联邦对抗深度Q网络(DQN)的VPP鲁棒优化调度求解算法,通过双智能体之间的不断迭代,实现鲁棒最优策略的对抗求解;最后,对所提算法进行仿真验证,仿真结果表明,所提算法能够有效降低不确定性因素对VPP优化调度的影响,提高电网运行的可靠性与稳定性。 展开更多
关键词 电力-通信-交通 虚拟电厂 不确定性 鲁棒优化调度 联邦对抗深度q网络(dqn)
在线阅读 下载PDF
超密集网络中基于改进DQN的接入选择算法 被引量:2
5
作者 唐宏 刘小洁 +1 位作者 甘陈敏 陈榕 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2023年第5期107-113,共7页
在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的... 在超密集网络环境中,各个接入点密集部署在热点区域,构成了复杂的异构网络,用户需要选择接入合适的网络以获得最好的性能。如何为用户选择最优的网络,使用户自身或网络性能达到最佳,称为网络接入选择问题。为了解决超密集网络中用户的接入选择问题,综合考虑网络状态、用户偏好以及业务类型,结合负载均衡策略,提出了一种基于改进深度Q网络(deep Q network,DQN)的超密集网络接入选择算法。首先,通过分析网络属性和用户业务的偏好对网络选择的影响,选择合适的网络参数作为接入选择算法的参数;其次,将网络接入选择问题利用马尔可夫决策过程建模,分别对模型中的状态、动作和奖励函数进行设计;最后,利用DQN求解选网模型,得到最优选网策略。此外,为了避免DQN过高估计Q值,对传统DQN的目标函数进行优化,并且在训练神经网络时,引入了优先经验回放机制以提升学习效率。仿真结果表明,所提算法能够解决传统DQN的高估问题,加快神经网络的收敛,有效减少用户的阻塞,并改善网络的吞吐能力。 展开更多
关键词 超密集网络 接入选择 深度q网络(dqn) 优先经验回放 负载均衡
在线阅读 下载PDF
基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法 被引量:2
6
作者 张帆 邵光耀 +1 位作者 李昱翰 李玉雪 《工矿自动化》 CSCD 北大核心 2024年第6期23-29,45,共8页
受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传... 受深部开采冲击地压等地质灾害扰动的影响,存在矿井超前支护系统自感知能力差、智能抗冲自适应能力弱、缺乏决策控制能力等问题。针对上述问题,提出了一种基于数字孪生和深度强化学习的矿井超前液压支架自适应抗冲支护方法。通过多源传感器感知巷道环境和超前液压支架支护状态,在虚拟世界中创建物理实体的数字孪生模型,其中物理模型精确展现超前液压支架的结构特征和细节,控制模型实现超前液压支架的自适应控制,机理模型实现对超前液压支架自适应支护的逻辑描述和机理解释,数据模型存储超前液压支架实体运行数据和孪生数据,仿真模型完成超前液压支架立柱仿真以实现超前液压支架与数字孪生模型虚实交互。根据基于深度Q网络(DQN)的超前液压支架自适应抗冲决策算法,对仿真环境中巷道抗冲支护进行智能决策,并依据决策结果对物理实体和数字孪生模型下达调控指令,实现超前液压支架智能控制。实验结果表明:立柱位移与压力变化一致,说明超前液压支架立柱仿真模型设计合理,从而验证了数字孪生模型的准确性;基于DQN的矿井超前液压支架自适应抗冲决策算法可通过调节液压支架控制器PID参数,自适应调控立柱压力,提升巷道安全等级,实现超前液压支架自适应抗冲支护。 展开更多
关键词 矿井智能抗冲 超前液压支架 自适应支护 数字孪生 深度强化学习 深度q网络 dqn
在线阅读 下载PDF
面向纵向联邦学习的对抗样本生成算法 被引量:3
7
作者 陈晓霖 昝道广 +2 位作者 吴炳潮 关贝 王永吉 《通信学报》 EI CSCD 北大核心 2023年第8期1-13,共13页
为了适应纵向联邦学习应用中高通信成本、快速模型迭代和数据分散式存储的场景特点,提出了一种通用的纵向联邦学习对抗样本生成算法VFL-GASG。具体而言,构建了一种适用于纵向联邦学习架构的对抗样本生成框架来实现白盒对抗攻击,并在该... 为了适应纵向联邦学习应用中高通信成本、快速模型迭代和数据分散式存储的场景特点,提出了一种通用的纵向联邦学习对抗样本生成算法VFL-GASG。具体而言,构建了一种适用于纵向联邦学习架构的对抗样本生成框架来实现白盒对抗攻击,并在该架构下扩展实现了L-BFGS、FGSM、C&W等不同策略的集中式机器学习对抗样本生成算法。借鉴深度卷积生成对抗网络的反卷积层设计,设计了一种对抗样本生成算法VFL-GASG以解决推理阶段对抗性扰动生成的通用性问题,该算法以本地特征的隐层向量作为先验知识训练生成模型,经由反卷积网络层产生精细的对抗性扰动,并通过判别器和扰动项控制扰动幅度。实验表明,相较于基线算法,所提算法在保持高攻击成功率的同时,在生成效率、鲁棒性和泛化能力上均达到较高水平,并通过实验验证了不同实验设置对对抗攻击效果的影响。 展开更多
关键词 机器学习 纵向联邦学习 对抗样本 对抗攻击 深度卷积生成对抗网络
在线阅读 下载PDF
基于贝叶斯深度强化学习的主动配电网电压控制 被引量:2
8
作者 张晓 吴志 +3 位作者 郑舒 顾伟 胡博 董吉超 《电力系统自动化》 EI CSCD 北大核心 2024年第20期81-90,共10页
多分布式源荷接入导致配电网电压波动性增强。同时,上级主网电压的不确定性波动也会对配电网电压特性造成影响。为有效应对主配电网电压波动,文中提出一种基于数据驱动与模型求解结合的主动配电网多时间尺度电压控制框架。在慢时间尺度... 多分布式源荷接入导致配电网电压波动性增强。同时,上级主网电压的不确定性波动也会对配电网电压特性造成影响。为有效应对主配电网电压波动,文中提出一种基于数据驱动与模型求解结合的主动配电网多时间尺度电压控制框架。在慢时间尺度下,考虑主网电压波动,构建了上级主网非无穷大系统多馈线环境,对该环境下的电压控制问题进行了对抗性马尔可夫过程建模。在训练过程中,以投影梯度下降算法使主网电压发生扰动。利用贝叶斯深度Q网络算法感知上级主网电压波动,实现有载调压变压器挡位快速控制。在快时间尺度下,基于传统二阶锥优化方法控制光伏逆变器无功输出。算例结果表明,该方法可准确感知上级主网电压波动,在极短时间实现配电网无模型电压控制,保证各节点电压维持在安全范围内。 展开更多
关键词 主动配电网 电压控制 多时间尺度 对抗性马尔可夫过程 投影梯度下降 贝叶斯深度q网络 深度强化学习
在线阅读 下载PDF
深度强化学习下连续和离散相位RIS毫米波通信
9
作者 胡浪涛 杨瑞 +3 位作者 刘全金 吴建岚 嵇文 吴磊 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第1期50-59,共10页
在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与... 在分布式智能反射面(RIS)辅助多用户毫米波(mmWave)系统中,利用深度强化学习(DRL)理论学习并调整基站发射波束赋形矩阵和RIS相位偏转矩阵,联合优化发射波束赋形和相位偏转,实现加权和速率最大化。即在离散动作空间中,设计了功率码本与相位码本,提出了用深度Q网络(DQN)算法进行优化发射波束赋形与RIS相位偏转矩阵;在连续动作空间中,采用双延迟策略梯度(TD3)算法进行优化发射波束赋形与RIS相位偏转矩阵。仿真分析比较了在不同码本比特数下离散动作空间和连续动作空间下系统的加权和速率。与传统的凸优化算法以及迫零波束赋形随机相位偏转算法进行了对比,强化学习算法的和速率性能有明显提升,连续的TD3算法的和速率超过凸优化算法23.89%,在码本比特数目为4时,离散的DQN算法性能也优于传统的凸优化算法。 展开更多
关键词 深度q网络(dqn) 深度强化学习 双延迟策略梯度 毫米波 智能反射面
在线阅读 下载PDF
基于集成深度强化学习的自动驾驶车辆行为决策模型 被引量:5
10
作者 张新锋 吴琳 《汽车安全与节能学报》 CAS CSCD 北大核心 2023年第4期472-479,共8页
提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道... 提出一种基于集成的深度强化学习的自动驾驶车辆的行为决策模型。基于Markov决策过程(MDP)理论,采用标准投票法,将深度Q学习网络(DQN)、双DQN(DDQN)和竞争双DDQN(Dueling DDQN)等3种基础网络模型集成。在高速公路仿真环境、在单向3车道、4车道、5车道数量场景下,对向左换道、车道保持、向右换道、同车道加速和减速等5种车辆驾驶行为,进行测试和泛化性验证。结果表明:与其它3种网络模型相比,该模型的决策成功率分别提高了6%、3%和6%;平均车速也有提升;100回合的测试,耗时小于1 ms,满足决策实时性要求。因而,该决策模型提高了行车安全和决策效率。 展开更多
关键词 自动驾驶 深度强化学习 集成学习 深度q网络(dqn) 标准投票法
在线阅读 下载PDF
基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 被引量:1
11
作者 吴兰 吴元明 +1 位作者 孔凡士 李斌全 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1353-1363,共11页
深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩... 深度Q学习网络(DQN)因具有强大的感知能力和决策能力而成为解决交通信号灯配时问题的有效方法,然而外部环境扰动和内部参数波动等原因导致的参数不确定性问题限制了其在交通信号灯配时系统领域的进一步发展。基于此,提出了一种DQN与扩展卡尔曼滤波(EKF)相结合(DQN-EKF)的交通信号灯配时方法。以估计网络的不确定性参数值作为状态变量,包含不确定性参数的目标网络值作为观测变量,结合过程噪声、包含不确定性参数的估计网络值和系统观测噪声构造EKF系统方程,通过EKF的迭代更新求解,得到DQN模型中的最优真实参数估计值,解决DQN模型中的参数不确定性问题。实验结果表明:DQN-EKF配时方法适用于不同的交通环境,并能够有效提高车辆的通行效率。 展开更多
关键词 深度q学习网络(dqn) 感知能力 决策能力 交通信号灯配时系统 参数不确定性 扩展卡尔曼滤波(EKF)
在线阅读 下载PDF
基于分层框架混合强化学习的导弹制导与突防策略
12
作者 谭明虎 何昊麟 +1 位作者 艾文洁 柴斌 《宇航学报》 北大核心 2025年第1期117-128,共12页
针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提... 针对目标-导弹-防御者三方交战场景中攻击导弹面临主动防御拦截的问题,提出了一种基于分层框架混合强化学习的全过程智能制导与突防策略。首先,分析攻击导弹的制导与突防任务需求,构建了三方交战的运动学模型。其次,基于双层策略结构提出了混合强化学习方法,以分别应对连续和离散两种动作空间类型。通过近端策略优化(PPO)算法训练下层制导与突防模型,获得了自动驾驶仪的制导指令;同时采用深度Q网络(DQN)算法训练上层决策模型,在每个决策时刻根据全局状态选择调用下层子模型。提出的制导与突防策略通过分层框架实现了导弹打击任务中的全过程实时智能决策。与传统综合制导律的对比实验结果表明,基于分层框架混合强化学习的突防制导策略不仅确保了攻击导弹在三方交战环境中的生存能力,同时在能量消耗方面取得了显著优势。 展开更多
关键词 强化学习 制导突防策略 近端策略优化(PPO) 深度q网络(dqn)
在线阅读 下载PDF
基于深度强化学习的暂态稳定紧急控制决策方法 被引量:10
13
作者 李宏浩 张沛 刘曌 《电力系统自动化》 EI CSCD 北大核心 2023年第5期144-152,共9页
随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,... 随着广域测量系统在暂态稳定控制中的应用,广域信息的随机性时滞造成了系统受控时状态的不确定性,并且切机和切负荷控制的离散决策变量维度极高,电网在线紧急控制决策面临着挑战。为此,将暂态稳定紧急控制问题建模为马尔可夫决策问题,提出一种深度Q网络(DQN)强化学习与暂态能量函数相结合的紧急控制决策方法,多步序贯决策过程中可应对紧急控制的时滞不确定性影响。奖励函数以考虑控制目标和约束条件的短期奖励函数和考虑稳定性的长期奖励函数构成,并在奖励函数中引入暂态能量函数的势能指数来提高学习效率。以最大化累计奖励为目标,通过DQN算法在离散化动作空间中学习得到最优紧急控制策略,解决暂态稳定紧急控制问题。所提方法通过IEEE 39节点系统验证了模型在紧急控制决策中的有效性。 展开更多
关键词 深度强化学习 暂态稳定 紧急控制决策 暂态能量函数 深度q网络(dqn)算法 时滞
在线阅读 下载PDF
基于深度强化学习的多阶段信息物理协同拓扑攻击方法 被引量:4
14
作者 伊娜 徐建军 +1 位作者 陈月 孙迪康 《电力工程技术》 北大核心 2023年第4期149-158,共10页
随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障... 随着智能电网的发展及通信设备不断引入到信息物理系统(cyber physical system,CPS)中,CPS正面临一种破坏性更强的新型攻击方式——信息物理协同攻击(coordinated cyber physical attack,CCPA),其隐蔽性与威胁性易导致系统出现级联故障。首先,基于攻击者的视角,提出一种多阶段信息物理协同拓扑攻击模型,单阶段的物理攻击使线路中断,双阶段的网络攻击分别用来掩盖物理攻击的断开线路和制造一条新的虚假断开线路。其次,结合深度强化学习(deep reinforcement learning,DRL)理论,提出一种基于深度Q网络(deep Q-network,DQN)的最小攻击资源确定方法。然后,给出攻击者考虑上层最大化物理攻击效果和下层最小化攻击代价的具体模型及求解方法。最后,以IEEE 30节点系统为例,验证了所提多阶段攻击模型的有效性。仿真结果表明,多阶段信息物理协同拓扑攻击较单一攻击更加隐蔽且有效,对电网的破坏程度更大,为防御此类攻击提供了参考。 展开更多
关键词 信息物理系统(CPS) 信息物理协同攻击(CCPA) 拓扑攻击 负荷重分配攻击 深度强化学习(DRL) 深度q网络(dqn)算法
在线阅读 下载PDF
基于对手动作预测的智能博弈对抗算法 被引量:2
15
作者 韩润海 陈浩 +1 位作者 刘权 黄健 《计算机工程与应用》 CSCD 北大核心 2023年第7期190-197,共8页
智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。... 智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。 展开更多
关键词 对手动作预测 竞争双深度q网络(D3qN) 智能博弈对抗 深度强化学习
在线阅读 下载PDF
异构网络中用户关联和功率控制的协同优化 被引量:3
16
作者 樊雯 陈腾 菅迎宾 《电讯技术》 北大核心 2021年第7期893-900,共8页
针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最... 针对正交频分多址(Orthogonal Frequency Division Multiplexing Access,OFDMA)异构网络中用户关联和功率控制协同优化不佳的问题,提出了一种多智能体深度Q学习网络(Deep Q-learning Network,DQN)方法。首先,基于用户关联和功率控制最优化问题,构建了正交频分多址的双层异构网络系统模型,以实现智能决策;其次,根据应用场景和多智能体DQN框架的动作空间,对状态空间和奖励函数进行重构;最后,通过选取具有宏基站(Base Station,BS)和小型BS的两层异构网络,对多智能体DQN算法的性能进行仿真实验。仿真结果表明,相较于传统学习算法,多智能体DQN算法具有更好的收敛性,且能够有效提升用户设备(User Equipment,UE)的服务质量与能效,并可获得最大的长期总体网络实用性。 展开更多
关键词 异构网络 用户关联 功率控制 强化学习 深度q学习网络(dqn)
在线阅读 下载PDF
基于态势认知的无人机集群围捕方法 被引量:14
17
作者 吴子沉 胡斌 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第2期424-430,共7页
无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的... 无人机集群围捕是智能无人机"蜂群"作战的一种重要任务方式。现有集群围捕方法大多建立在环境已知的基础上,面对未知的任务环境时围捕策略经常性失效。针对此问题,提出了基于态势认知的发育模型,探索一种对环境适应性较佳的围捕方法。首先,对集群围捕行为分解,将围捕离散化;然后,基于深度Q神经网络(DQN),设计一种围捕策略的生成方法;最后,建立状态-策略知识库,并通过大量有效数据的训练,针对不同环境获得不同的策略,对知识库进行发育。仿真结果表明:提出的基于态势认知的发育模型,能够有效适应不同环境,完成不同环境下的围捕。 展开更多
关键词 无人机 集群围捕 态势认知 深度q神经网络(dqn) 自主发育
在线阅读 下载PDF
仓储环境下基于忆阻强化学习的AGV路径规划 被引量:5
18
作者 杨海兰 祁永强 荣丹 《计算机工程与应用》 CSCD 北大核心 2023年第17期318-327,共10页
针对动态仓储环境下的AGV路径规划,采用栅格法对仓储环境进行建模,通过改进了概率转移函数及信息素的蚁群算法完成静态环境下的路径规划;利用忆阻器和生物神经突触类似的特性,将其作为神经网络突触结构,改进传统的DQN算法,并利用基于忆... 针对动态仓储环境下的AGV路径规划,采用栅格法对仓储环境进行建模,通过改进了概率转移函数及信息素的蚁群算法完成静态环境下的路径规划;利用忆阻器和生物神经突触类似的特性,将其作为神经网络突触结构,改进传统的DQN算法,并利用基于忆阻器阵列的DQN算法进行动态局部避障;依据AGV感知范围内是否存在动态障碍物实时地切换路径规划机制,以实现高效的AGV搬运工作。在MATLAB仿真平台进行实验,结果表明该路径规划方法可有效、实时地为AGV规划出一条安全无碰撞的最优路径。 展开更多
关键词 自动引导车(AGV) 动态环境 深度q网络(dqn) 忆阻器 路径规划
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部