期刊文献+
共找到718篇文章
< 1 2 36 >
每页显示 20 50 100
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:2
1
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
2
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能 深度强化学习
在线阅读 下载PDF
深度强化学习下的多智能体思考型半多轮通信网络
3
作者 邹启杰 汤宇 +2 位作者 高兵 赵锡玲 张哲婕 《控制理论与应用》 北大核心 2025年第3期553-562,共10页
针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成... 针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成推理信息,并将此信息作为新的发送消息,从而达到提高通信内容多样化的目标;然后,该模型在软注意力机制的基础上设计了一种半多轮通信策略,提高了信息饱和度,从而提升系统的通信交互效率.本文在合作导航、捕猎任务和交通路口3个模拟环境中证明,TMACN对比其他方法,提高了系统的准确率与稳定性. 展开更多
关键词 多智能系统 合作环境 深度强化学习 通信网络
在线阅读 下载PDF
基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法 被引量:1
4
作者 徐业琰 姚良忠 +4 位作者 廖思阳 程帆 徐箭 蒲天骄 王新迎 《中国电机工程学报》 北大核心 2025年第2期513-526,I0010,共15页
为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行... 为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。 展开更多
关键词 源-网-荷-储 实时调度 带约束马尔科夫合作博弈 多智能深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的海上风电传感器节点能效优化
5
作者 贾林朋 王霄 +2 位作者 何志琴 吴钦木 尹曜华 《计算机应用研究》 北大核心 2025年第8期2490-2496,共7页
海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问... 海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问题,设计了一种基于多智能体深度确定性策略梯度算法的优化方案。考虑了节点能量有限和特定的海上通信环境特点,通过多智能体协同优化节点的感知与通信策略,有效减少能耗并提升网络覆盖率和数据传输效率。结合自适应噪声策略、优先经验回放机制以及合理的奖励函数设计,进一步提高了算法的学习效率与能效表现。实验结果表明,所提算法相比DDPG基准算法提升了约26%的节点能效,训练速度较DDQN、SAC算法加快了33%和48%。 展开更多
关键词 海上风电 无线传感网络 能效优化 多智能深度强化学习 自适应噪声策略
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
6
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于多智能体安全深度强化学习的电压控制 被引量:2
7
作者 曾仪 周毅 +3 位作者 陆继翔 周良才 唐宁恺 李红 《中国电力》 北大核心 2025年第2期111-117,共7页
针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时... 针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时在智能体奖励函数定义时,使用基于传统优化模型电压约束的电压屏障函数。在IEEE 33节点算例上的测试结果表明:所提方法在光伏高渗透率场景下可生成符合安全约束的电压控制策略,可用于在线辅助调度员进行实时决策。 展开更多
关键词 无功电压控制 安全深度强化学习 多智能
在线阅读 下载PDF
远海多智能体空中对抗深度强化学习环境模型构建
8
作者 张原 王江南 +1 位作者 王伟 李璇 《航空兵器》 北大核心 2025年第3期48-56,共9页
深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实... 深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实际和仿真性能的智能体模型;遴选18维状态空间和7维动作空间,构造了包含主线和10个子目标的多元奖励体系,解决了稀疏奖励引导性差、维度空间高诱使算法难以收敛等问题,并通过仿真验证了环境的合规性、对深度强化学习经典算法的有效性,以及对主流训练框架的兼容性。 展开更多
关键词 远海远域 空中对抗 多智能 深度强化学习 JSBSim 训练环境模型
在线阅读 下载PDF
基于多智能体深度强化学习的配电网双时间尺度电压控制策略 被引量:1
9
作者 赵晶晶 张超立 +1 位作者 王涵 盛杰 《南方电网技术》 北大核心 2025年第2期68-79,共12页
风电、光伏(photovoltaics,PV)在新型电力系统中的渗透率日益增加,使得配电网电压波动加剧,而储能(energy storage,ES)、电动汽车(electric vehicles,EV)对降低配电网电压波动有重要作用。与此同时,智能电表、智能传感器以及改进的通信... 风电、光伏(photovoltaics,PV)在新型电力系统中的渗透率日益增加,使得配电网电压波动加剧,而储能(energy storage,ES)、电动汽车(electric vehicles,EV)对降低配电网电压波动有重要作用。与此同时,智能电表、智能传感器以及改进的通信网络广泛部署,可获取的数据量越来越大,数据驱动技术兴起。提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的配电网双时间尺度有功-无功功率协调的电压控制策略。慢时间尺度下用双深度Q网络算法(double deep Q-network algorithm,DDQN)求解电容器组(capacitor banks,CBs)、有载调压变压器(on-line tap changer,OLTC)与ES有功-无功功率优化问题。快时间尺度下用具有注意力机制的经验增强多智能体柔性参与者-评论家算法(experience augmentation-multi-agent soft actor critic,EA-MASAC)调节PV、风机(wind turbine,WT)、静止无功补偿装置(static var compensator,SVC)的无功功率与EV的有功功率。最后,在IEEE-33节点系统上验证了所提方法的有效性。 展开更多
关键词 数据驱动 多智能深度强化学习 双时间尺度 电压控制 功率优化
在线阅读 下载PDF
基于优势函数分解多智能体深度强化学习的电力系统暂态稳定预防控制方法
10
作者 牛哲文 冀岳 +3 位作者 李柏堉 党志芳 武宇翔 韩肖清 《电网技术》 北大核心 2025年第6期2311-2321,I0035,I0036,共13页
传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总... 传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总量最小为目标,考虑电力系统暂态稳定运行的多种约束,将分散式资源调控问题转变为多智能体的分布式协同优化问题进行求解,分区独立地给出最优的暂态稳定预防控制动作。针对分区控制导致智能体观测视野受限而引发的优化方向混乱、收敛速度降低的问题,引入优势函数分解定理,提高单个智能体的全局观察能力,使其在接收局部区域信息的情况下,仍能够广泛地探索环境并在学习中较稳定地提升策略网络效果。此外,该文采用柔性动作-评价强化学习算法,引入最大熵的概念以进一步增强多智能体方法的鲁棒性和探索能力。最后,在IEEE 39节点系统与某省级电网系统中验证了所提方法在暂态稳定预防控制决策中的有效性。 展开更多
关键词 暂态稳定 预防控制 优势函数分解 深度学习 多智能深度强化学习
在线阅读 下载PDF
多智能体深度强化学习及可扩展性研究进展
11
作者 刘延飞 李超 +1 位作者 王忠 王杰铃 《计算机工程与应用》 北大核心 2025年第4期1-24,共24页
多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多... 多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多智能体深度强化学习三类学习范式及其代表算法,并简要整理出当前主流的开源实验平台。详细探讨了多智能体深度强化学习在数量和场景上的可扩展性研究进展,分析了各自面临的核心问题并给出了现有的解决思路。展望了多智能体深度强化学习的应用前景和发展趋势,为推动该领域的进一步研究提供参考和启示。 展开更多
关键词 多智能系统 强化学习 深度强化学习 可扩展性
在线阅读 下载PDF
基于行为克隆的机械臂多智能体深度强化学习轨迹跟踪控制
12
作者 易佳豪 王福杰 +3 位作者 胡锦涛 秦毅 郭芳 罗俊轩 《计算机应用研究》 北大核心 2025年第4期1025-1033,共9页
针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性... 针对具有非线性干扰以及多变环境的机械臂轨迹跟踪问题,提出了一种结合行为克隆(behavior cloning,BC)的多智能体深度强化学习(multi-agent deep reinforcement learning,MDRL)控制方法。多智能体控制算法中包含了以孪生延迟深度确定性策略梯度算法(twin delayed deep deterministic policy gradient algorithm,TD3)为基底算法的比例积分微分智能体(proportional-integral-derivative agent,PID agent)和直接用深度强化学习策略输出扭矩的智能体(direct deep reinforcement learning agent,DDR agent),并采用两个奖励函数来优化两个agent的策略网络。PID agent用于输出PID控制器的参数,再由PID控制器输出力矩控制机械臂以增加控制器的跟踪泛性,DDR agent则直接输出扭矩增加控制器的抗干扰性。为了克服多智能体训练难度高的问题,在训练中引入行为克隆技术,利用PID控制器的专家经验对PID agent进行预训练,形成预策略在训练初期就可以输出较合适的PID参数,增加有效经验来加速训练过程的奖励收敛。为了验证方法的有效性,通过欧拉拉格朗日建模二自由度机械臂,并在具有干扰的多种环境下进行仿真实验对比。实验结果表明,所提算法在具有随机干扰环境以及与训练轨迹不同的跟踪轨迹中都具有最好的跟踪效果,验证了所提算法的有效性。 展开更多
关键词 多智能 孪生延迟深度确定性策略梯度 深度强化学习 轨迹跟踪 行为克隆
在线阅读 下载PDF
基于多智能体深度强化学习的SD-IoT控制器部署
13
作者 吕超峰 徐鹏飞 +1 位作者 罗迪 刘金平 《计算机工程》 北大核心 2025年第5期83-92,共10页
物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的... 物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的动态控制器部署问题,以在流量变化时保证控制平面性能。考虑到物联网节点的能耗以及数据传输的特点,在部署控制器时,综合考虑延迟、控制可靠性以及能耗的影响,并将该问题构建为马尔可夫博弈过程。为了同时兼顾单一控制器性能以及控制平面整体性能,采用多智能体深度强化学习求解该问题。在部署阶段利用动作掩码屏蔽部分节点,避免将控制器部署在性能不足或者供能不方便的节点。仿真实验表明,与基于Louvain社区划分和基于单智能体深度Q网络(DQN)的部署算法相比,所提算法可以更好地找到高性能的部署方案。 展开更多
关键词 软件定义物联网 控制器部署 多智能深度强化学习 动作掩码 马尔可夫博弈
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
14
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多智能体强化学习的AMR协作任务分配方法
15
作者 张富强 张焱锐 +1 位作者 丁凯 常丰田 《郑州大学学报(工学版)》 北大核心 2025年第3期26-33,共8页
为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置... 为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置;其次,根据奖励值的大小确定任务节点的覆盖程度以及任务的完成效果;最后,在Pycharm上进行仿真,结果表明:MADDPG算法的平均奖励值较其他算法增幅为3,训练次数减少了300次,在保证求解任务分配完成度的基础上,具有更快的学习速度和更稳定的收敛过程。 展开更多
关键词 自主移动机器人 多智能 强化学习 协作 任务分配
在线阅读 下载PDF
优先价值网络的多智能体协同强化学习算法
16
作者 苗国英 孙英博 王慧琴 《控制工程》 北大核心 2025年第4期691-698,共8页
为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进... 为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进行经验复用,解决通过随机采样进行经验复用存在的问题;其次,该算法在智能体的值网络中引入价值优势网络形式,对比状态值与动作优势的信息,使智能体更快地学习到优势动作。多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快、更好地做出决策,完成给定任务。 展开更多
关键词 多智能 强化学习 优先经验回放 价值优势网络 状态值
在线阅读 下载PDF
多智能体强化学习控制与决策研究综述 被引量:5
17
作者 罗彪 胡天萌 +3 位作者 周育豪 黄廷文 阳春华 桂卫华 《自动化学报》 北大核心 2025年第3期510-539,共30页
强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具... 强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具有自主感知和决策能力的实体组成,有望解决传统单智能体方法难以应对的大规模复杂问题.多智能体强化学习不仅需要考虑环境的动态性,还需要应对其他智能体策略的不确定性,从而增加学习和决策过程的复杂度.为此,梳理多智能体强化学习在控制与决策领域的研究,分析其面临的主要问题与挑战,从控制理论与自主决策两个层次综述现有的研究成果与进展,并对未来的研究方向进行展望.通过分析,期望为未来多智能体强化学习的研究提供有价值的参考和启示. 展开更多
关键词 强化学习 多智能系统 序列决策 协同控制 博弈论
在线阅读 下载PDF
基于多智能体强化学习的博弈综述 被引量:1
18
作者 李艺春 刘泽娇 +4 位作者 洪艺天 王继超 王健瑞 李毅 唐漾 《自动化学报》 北大核心 2025年第3期540-558,共19页
多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样... 多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 展开更多
关键词 多智能强化学习 多智能系统 博弈决策 均衡求解
在线阅读 下载PDF
多智能体深度强化学习研究进展 被引量:8
19
作者 丁世飞 杜威 +2 位作者 张健 郭丽丽 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第7期1547-1567,共21页
深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展... 深度强化学习(Deep Reinforcement Learning,DRL)在近年受到广泛的关注,并在各种领域取得显著的成功.由于现实环境通常包括多个与环境交互的智能体,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)获得蓬勃的发展,在各种复杂的序列决策任务上取得优异的表现.本文对多智能体深度强化学习的工作进展进行综述,主要内容分为三个部分.首先,我们回顾了几种常见的多智能体强化学习问题表示及其对应的合作、竞争和混合任务.其次,我们对目前的MADRL方法进行了全新的多维度的分类,并对不同类别的方法展开进一步介绍.其中,我们重点综述值函数分解方法,基于通信的MADRL方法以及基于图神经网络的MADRL方法.最后,我们研究了MADRL方法在现实场景中的主要应用.希望本文能够为即将进入这一快速发展领域的新研究人员和希望获得全方位了解并根据最新进展确定新方向的现有领域专家提供帮助. 展开更多
关键词 多智能深度强化学习 基于值函数 基于策略 通信学习 图神经网络
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
20
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能 强化学习 奖励塑形 深度Q网络
在线阅读 下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部