期刊文献+
共找到700篇文章
< 1 2 35 >
每页显示 20 50 100
基于多智能体深度强化学习的海上风电传感器节点能效优化
1
作者 贾林朋 王霄 +2 位作者 何志琴 吴钦木 尹曜华 《计算机应用研究》 北大核心 2025年第8期2490-2496,共7页
海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问... 海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问题,设计了一种基于多智能体深度确定性策略梯度算法的优化方案。考虑了节点能量有限和特定的海上通信环境特点,通过多智能体协同优化节点的感知与通信策略,有效减少能耗并提升网络覆盖率和数据传输效率。结合自适应噪声策略、优先经验回放机制以及合理的奖励函数设计,进一步提高了算法的学习效率与能效表现。实验结果表明,所提算法相比DDPG基准算法提升了约26%的节点能效,训练速度较DDQN、SAC算法加快了33%和48%。 展开更多
关键词 海上风电 无线传感网络 能效优化 多智能体深度强化学习 自适应噪声策略
在线阅读 下载PDF
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:2
2
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
3
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的配电网双时间尺度电压控制策略 被引量:1
4
作者 赵晶晶 张超立 +1 位作者 王涵 盛杰 《南方电网技术》 北大核心 2025年第2期68-79,共12页
风电、光伏(photovoltaics,PV)在新型电力系统中的渗透率日益增加,使得配电网电压波动加剧,而储能(energy storage,ES)、电动汽车(electric vehicles,EV)对降低配电网电压波动有重要作用。与此同时,智能电表、智能传感器以及改进的通信... 风电、光伏(photovoltaics,PV)在新型电力系统中的渗透率日益增加,使得配电网电压波动加剧,而储能(energy storage,ES)、电动汽车(electric vehicles,EV)对降低配电网电压波动有重要作用。与此同时,智能电表、智能传感器以及改进的通信网络广泛部署,可获取的数据量越来越大,数据驱动技术兴起。提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的配电网双时间尺度有功-无功功率协调的电压控制策略。慢时间尺度下用双深度Q网络算法(double deep Q-network algorithm,DDQN)求解电容器组(capacitor banks,CBs)、有载调压变压器(on-line tap changer,OLTC)与ES有功-无功功率优化问题。快时间尺度下用具有注意力机制的经验增强多智能体柔性参与者-评论家算法(experience augmentation-multi-agent soft actor critic,EA-MASAC)调节PV、风机(wind turbine,WT)、静止无功补偿装置(static var compensator,SVC)的无功功率与EV的有功功率。最后,在IEEE-33节点系统上验证了所提方法的有效性。 展开更多
关键词 数据驱动 多智能体深度强化学习 双时间尺度 电压控制 功率优化
在线阅读 下载PDF
基于优势函数分解多智能体深度强化学习的电力系统暂态稳定预防控制方法
5
作者 牛哲文 冀岳 +3 位作者 李柏堉 党志芳 武宇翔 韩肖清 《电网技术》 北大核心 2025年第6期2311-2321,I0035,I0036,共13页
传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总... 传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总量最小为目标,考虑电力系统暂态稳定运行的多种约束,将分散式资源调控问题转变为多智能体的分布式协同优化问题进行求解,分区独立地给出最优的暂态稳定预防控制动作。针对分区控制导致智能体观测视野受限而引发的优化方向混乱、收敛速度降低的问题,引入优势函数分解定理,提高单个智能体的全局观察能力,使其在接收局部区域信息的情况下,仍能够广泛地探索环境并在学习中较稳定地提升策略网络效果。此外,该文采用柔性动作-评价强化学习算法,引入最大熵的概念以进一步增强多智能体方法的鲁棒性和探索能力。最后,在IEEE 39节点系统与某省级电网系统中验证了所提方法在暂态稳定预防控制决策中的有效性。 展开更多
关键词 暂态稳定 预防控制 优势函数分解 深度学习 多智能体深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的SD-IoT控制器部署
6
作者 吕超峰 徐鹏飞 +1 位作者 罗迪 刘金平 《计算机工程》 北大核心 2025年第5期83-92,共10页
物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的... 物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的动态控制器部署问题,以在流量变化时保证控制平面性能。考虑到物联网节点的能耗以及数据传输的特点,在部署控制器时,综合考虑延迟、控制可靠性以及能耗的影响,并将该问题构建为马尔可夫博弈过程。为了同时兼顾单一控制器性能以及控制平面整体性能,采用多智能体深度强化学习求解该问题。在部署阶段利用动作掩码屏蔽部分节点,避免将控制器部署在性能不足或者供能不方便的节点。仿真实验表明,与基于Louvain社区划分和基于单智能体深度Q网络(DQN)的部署算法相比,所提算法可以更好地找到高性能的部署方案。 展开更多
关键词 软件定义物联网 控制器部署 多智能体深度强化学习 动作掩码 马尔可夫博弈
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
7
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
多智能体深度强化学习研究进展 被引量:8
8
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能体深度强化学习 基于值函数 基于策略 通信学习 图神经网络
在线阅读 下载PDF
多智能体深度强化学习及可扩展性研究进展
9
作者 刘延飞 李超 +1 位作者 王忠 王杰铃 《计算机工程与应用》 北大核心 2025年第4期1-24,共24页
多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多... 多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多智能体深度强化学习三类学习范式及其代表算法,并简要整理出当前主流的开源实验平台。详细探讨了多智能体深度强化学习在数量和场景上的可扩展性研究进展,分析了各自面临的核心问题并给出了现有的解决思路。展望了多智能体深度强化学习的应用前景和发展趋势,为推动该领域的进一步研究提供参考和启示。 展开更多
关键词 多智能系统 强化学习 深度强化学习 可扩展性
在线阅读 下载PDF
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制
10
作者 易佳豪 王福杰 +3 位作者 胡锦涛 秦毅 郭芳 罗俊轩 《计算机应用研究》 北大核心 2025年第4期1025-1033,共9页
针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性... 针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)为基底算法的比例积分微分智能体(proportional-integral-derivative agent,PID agent)和直接用深度强化学习策略输出扭矩的智能体(direct deep reinforcement learning agent,DDR agent),并采用两个奖励函数来优化两个agent的策略网络。PID agent用于输出PID控制器的参数,再由PID控制器输出力矩控制机械臂以增加控制器的跟踪泛性,DDR agent则直接输出扭矩增加控制器的抗干扰性。为了克服多智能体训练难度高的问题,在训练中引入行为克隆技术,利用PID控制器的专家经验对PID agent进行预训练,形成预策略在训练初期就可以输出较合适的PID参数,增加有效经验来加速训练过程的奖励收敛。为了验证方法的有效性,通过欧拉拉格朗日建模二自由度机械臂,并在具有干扰的多种环境下进行仿真实验对比。实验结果表明,所提算法在具有随机干扰环境以及与训练轨迹不同的跟踪轨迹中都具有最好的跟踪效果,验证了所提算法的有效性。 展开更多
关键词 多智能 孪生延迟深度确定性策略梯度 深度强化学习 轨迹跟踪 行为克隆
在线阅读 下载PDF
基于多智能体深度强化学习的高速公路可变限速协同控制方法 被引量:4
11
作者 余荣杰 徐灵 章锐辞 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第7期1089-1098,共10页
面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将... 面向高速公路多路段可变限速协同控制需求,针对高维参数空间高效训练寻优难题,提出了应用多智能体深度确定性策略梯度(MADDPG)算法的高速公路可变限速协同控制方法。区别于既有研究的单个智能体深度确定性策略梯度(DDPG)算法,MADDPG将每个管控单元抽象为具备Actor-Critic强化学习架构的智能体,在算法训练过程中共享各智能体的状态、动作信息,使得各智能体具备推测其余智能体控制策略的能力,进而实现多路段协同控制。基于开源仿真软件SUMO,在高速公路典型拥堵场景对提出的控制方法开展管控效果验证。实验结果表明,提出的MADDPG算法降低了拥堵持续时间和路段运行速度标准差,分别减少69.23%、47.96%,可显著提高交通效率与安全。对比单智能体DDPG算法,MADDPG可节约50%的训练时间并提高7.44%的累计回报值,多智能体算法可提升协同控制策略的优化效率。进一步,为验证智能体间共享信息的必要性,将MADDPG与独立多智能体DDPG(IDDPG)算法进行对比:相较于IDDPG,MADDPG可使拥堵持续时间、速度标准差均值的改善提升11.65%、19.00%。 展开更多
关键词 交通工程 可变限速协同控制 多智能体深度强化学习 交通拥堵 高速公路 交通效率 交通安全
在线阅读 下载PDF
计及隐私保护的多智能体深度强化学习有源配电网电压控制策略 被引量:3
12
作者 刘洋 伍双喜 +2 位作者 朱誉 杨苹 孙涛 《智慧电力》 北大核心 2024年第12期104-116,共13页
随着“双碳”目标的推进和我国可再生能源规模的快速增长,配电网电压控制面临新的挑战。针对有源配电网分散式电压控制,提出了一种基于区域间隐私保护的多智能体深度强化学习算法,旨在解决集中训练阶段全局信息传播导致的隐私泄露问题... 随着“双碳”目标的推进和我国可再生能源规模的快速增长,配电网电压控制面临新的挑战。针对有源配电网分散式电压控制,提出了一种基于区域间隐私保护的多智能体深度强化学习算法,旨在解决集中训练阶段全局信息传播导致的隐私泄露问题并提升电压控制性能。首先,基于多智能体深度强化学习的特点,构建了隐私保护下的多智能体协同控制框架;然后,提出了一种结合局部观测与全局目标的分散式强化学习算法,用于优化电压调控设备的协调控制;最后,通过算例验证表明,所提出的方法能够有效提升配电网电压的稳定性与安全性,并在保证隐私的前提下实现高效的电压控制。 展开更多
关键词 电压控制 隐私保护 分散式控制 多智能体深度强化学习
在线阅读 下载PDF
基于值函数分解的多智能体深度强化学习方法研究综述 被引量:4
13
作者 高玉钊 聂一鸣 《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页
多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和... 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述。 展开更多
关键词 多智能体深度强化学习 值函数分解 拟合能力 收敛效果 可扩展性
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计 被引量:1
14
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能深度确定性策略梯度
在线阅读 下载PDF
基于多智能体深度强化学习的多船协同避碰策略
15
作者 黄仁贤 罗亮 《计算机集成制造系统》 EI CSCD 北大核心 2024年第6期1972-1988,共17页
为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延... 为了提高多船会遇时智能避碰策略的协同性、安全性、实用性和节能性,在中心化训练去中心化执行框架下,结合优先经验回放机制提出一种多智能体Softmax深层双确定性策略梯度PER-MASD3算法,用于解决多船协同避碰问题,该算法不仅解决了双延迟确定策略梯度(TD3)算法存在的值估计偏差问题,还在模型训练过程中引入熵正则项,以促进探索和控制随机控制策略,采用自适应噪声对不同阶段的任务进行有效探索,进一步提升了算法的学习效果和稳定性。通过实验验证,所提算法在解决多船协同避碰问题上具有较好的决策效果、更快的收敛速度和更稳定的性能。 展开更多
关键词 多智能体深度强化学习 协同避碰 中心化训练去中心化执行 优先经验回放 多智能Softmax深层双确定性策略梯度
在线阅读 下载PDF
基于多智能体深度强化学习的车联网频谱共享 被引量:4
16
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的车联网区分业务资源分配算法 被引量:4
17
作者 蔡玉 官铮 +2 位作者 王增文 王学 杨志军 《计算机工程与科学》 CSCD 北大核心 2024年第10期1757-1764,共8页
车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,... 车联网产生大量网络连接和差异化数据,针对单个智能体难以在动态场景下收集信道状态信息并进行区分业务的资源分配和链路调度,提出了基于多智能体深度强化学习的车联网区分业务资源分配算法。该算法以实现紧急业务链路干扰最小化约束下,V2V链路数据包成功交付率和V2I链路总容量最大化为目标,利用深度强化学习算法进行多个蜂窝用户和设备到设备用户共存的单天线车载网络中,频谱分配和功率选择的策略优化。每个智能体都利用DQN进行训练,智能体间共同与通信环境交互,通过全局奖励函数实现智能体间的协作。仿真结果表明,高负载场景下,相较于传统随机分配算法,该算法的V2I链路总吞吐量增加了3.76Mbps,V2V链路的数据包交付率提高了17.1%,紧急业务链路所受干扰相对于普通链路减少1.42dB,实现紧急业务链路的优先级保障,有效提高了V2I链路和V2V链路的总传输容量。 展开更多
关键词 车联网 频谱分配 强化学习 多智能 紧急业务
在线阅读 下载PDF
基于多智能体深度强化学习的解耦控制方法 被引量:1
18
作者 肖钟毓 夏钟升 +1 位作者 洪文晶 师佳 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期570-582,共13页
[目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问... [目的]在现代工业生产过程中,实现复杂非线性多输入多输出系统的解耦控制对于生产过程的操作和优化都具有至关重要的意义.[方法]本文基于多智能体深度确定性策略梯度(MADDPG)算法,提出了一种解决复杂非线性多输入多输出系统解耦控制问题的设计方案,并通过连续搅拌反应过程的解耦控制仿真计算,验证了设计方案的有效性.[结果]验证结果表明:本文所提出的方案能够同时对连续搅拌反应过程中反应温度、产物摩尔流量两个被控量的设定控制目标进行跟踪调节,且在同样的控制目标下,该设计方案比单智能体方案和PID(proportional-integral-derivative control)控制方案都具有更好的稳定性与更小的稳态控制误差.[结论]仿真结果表明:针对复杂非线性多输入多输出系统的解耦控制问题,多智能体强化学习算法能够在不依赖于过程模型的基础上,实现复杂非线性多输入多输出系统的解耦控制,并保证较好的控制性能. 展开更多
关键词 多智能强化学习 解耦控制 深度确定性策略梯度 连续搅拌反应器 非线性多输入多输出系统
在线阅读 下载PDF
基于DQN的多智能体深度强化学习运动规划方法 被引量:9
19
作者 史殿习 彭滢璇 +3 位作者 杨焕焕 欧阳倩滢 张玉晖 郝锋 《计算机科学》 CSCD 北大核心 2024年第2期268-277,共10页
DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对... DQN方法作为经典的基于价值的深度强化学习方法,在多智能体运动规划等领域得到了广泛应用。然而,DQN方法面临一系列挑战,例如,DQN会过高估计Q值,计算Q值较为复杂,神经网络没有历史记忆能力,使用ε-greedy策略进行探索效率较低等。针对这些问题,提出了一种基于DQN的多智能体深度强化学习运动规划方法,该方法可以帮助智能体学习到高效稳定的运动规划策略,无碰撞地到达目标点。首先,在DQN方法的基础上,提出了基于Dueling的Q值计算优化机制,将Q值的计算方式改进为计算状态值和优势函数值,并根据当前正在更新的Q值网络的参数选择最优动作,使得Q值的计算更加简单准确;其次,提出了基于GRU的记忆机制,引入了GRU模块,使得网络可以捕捉时序信息,具有处理智能体历史信息的能力;最后,提出了基于噪声的有效探索机制,通过引入参数化的噪声,改变了DQN中的探索方式,提高了智能体的探索效率,使得多智能体系统达到探索-利用的平衡状态。在PyBullet仿真平台的6种不同的仿真场景中进行了测试,实验结果表明,所提方法可以使多智能体团队进行高效协作,无碰撞地到达各自目标点,且策略训练过程稳定。 展开更多
关键词 多智能系统 运动规划 深度强化学习 DQN方法
在线阅读 下载PDF
多智能体深度强化学习的图像特征分类方法
20
作者 张泽崴 张建勋 +2 位作者 邹航 李林 南海 《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页
为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。 展开更多
关键词 多智能 图像特征分类 深度强化学习 值函数分解
在线阅读 下载PDF
上一页 1 2 35 下一页 到第
使用帮助 返回顶部