期刊文献+
共找到161篇文章
< 1 2 9 >
每页显示 20 50 100
基于一般和随机对策论框架下的多智能体学习 被引量:1
1
作者 欧海涛 张卫东 许晓鸣 《自动化学报》 EI CSCD 北大核心 2002年第3期423-426,共4页
将 Q- learning从单智能体框架上扩展到非合作的多智能体框架上 ,建立了在一般和随机对策框架下的多智能体理论框架和学习算法 ,提出了以 Nash平衡点作为学习目标 .给出了对策结构的约束条件 ,并证明了在此约束条件下算法的收敛性 。
关键词 随机对策论 多智能体学习 学习算法 强化学习
在线阅读 下载PDF
基于多智能体模仿学习的交叉口复杂交互行为建模仿真
2
作者 倪颖 王诗菡 +2 位作者 孙剑 孙杰 李建强 《同济大学学报(自然科学版)》 北大核心 2025年第9期1391-1402,共12页
为有效测试自动驾驶汽车的交互能力,针对无保护左转交叉口场景下的交互行为,建立了动态策略可解释的异构多智能体对抗逆强化学习(MA‐AIRL‐2)模型。将左转和直行车辆建模为异质智能体,引入增益奖励提高学习效率。利用SinD数据集训练模... 为有效测试自动驾驶汽车的交互能力,针对无保护左转交叉口场景下的交互行为,建立了动态策略可解释的异构多智能体对抗逆强化学习(MA‐AIRL‐2)模型。将左转和直行车辆建模为异质智能体,引入增益奖励提高学习效率。利用SinD数据集训练模型,从交互策略、车辆轨迹、宏观交通流特征维度对模型进行评估。结果表明,该模型能够准确刻画动态交互中的竞争与合作策略,复现策略多样性;与基准模型相比,该模型能够生成更真实的轨迹,与同质策略和无增益奖励模型相比,该模型轨迹准确度分别提升26%和21%。 展开更多
关键词 交通工程 交叉口交通流仿真模型 动态交互策略 多智能对抗逆强化学习
在线阅读 下载PDF
基于多智能体强化学习的博弈综述 被引量:3
3
作者 李艺春 刘泽娇 +4 位作者 洪艺天 王继超 王健瑞 李毅 唐漾 《自动化学报》 北大核心 2025年第3期540-558,共19页
多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样... 多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 展开更多
关键词 多智能强化学习 多智能系统 博弈决策 均衡求解
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
4
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能强化学习
在线阅读 下载PDF
多智能体强化学习赋能空间无人系统:方法、挑战与机遇
5
作者 李勐 冯肇晗 +3 位作者 梅云鹏 曹宏杰 张博 王钢 《空间控制技术与应用》 北大核心 2025年第4期17-28,共12页
随着航天技术向智能化、集群化发展,空间无人系统在深空探测、对地观测等战略领域展现出巨大潜力,但传统集中式控制范式在应对高动态环境、分布式任务和严格资源约束时面临严峻挑战.多智能体强化学习以其分布式决策架构和协同演化机制,... 随着航天技术向智能化、集群化发展,空间无人系统在深空探测、对地观测等战略领域展现出巨大潜力,但传统集中式控制范式在应对高动态环境、分布式任务和严格资源约束时面临严峻挑战.多智能体强化学习以其分布式决策架构和协同演化机制,为构建自主、弹性的空间智能系统提供了突破性解决方案.本文系统探讨了多智能体强化学习在空间无人系统中的技术赋能路径、方法体系、工程挑战与发展机遇;剖析了卫星集群协同通信和多航天器控制等核心场景的技术瓶颈;总结了空间无人系统在上述核心场景中的研究与应用现状;展望了多智能体强化学习作为新兴智能技术,在动态频谱分配、星载边缘计算和抗扰协同控制等关键方向的应用前景,推动空间系统向“自主决策-弹性抗扰-高效协同”的新范式演进.本文旨在为构建新一代空间智能无人集群提供现有技术梳理与前景展望. 展开更多
关键词 多智能强化学习 空间无人系统 协同控制 边缘计算 自主决策
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
6
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理
7
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
基于多智能体强化学习的地铁接驳高铁客流疏散优化研究
8
作者 孙峣 柯水平 +1 位作者 贾宁 辛秀颖 《北京交通大学学报》 北大核心 2025年第4期19-28,共10页
针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,... 针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,减少拥挤情况,并提高交通资源利用率.首先,根据地铁的时空信息及乘客换乘的时空参数,将地铁接驳高铁客流疏散优化问题建模为马尔可夫博弈过程,并设计通用状态特征、行为空间和奖励函数.然后,采用Actor-Critic(AC)框架建立多智能体的决策模型,并在集中式训练和分布式执行的框架下设计一种异步动作协同机制,以提高方法的训练效率.最后,以天津西站换乘地铁为案例进行优化研究.研究结果表明:优化地铁接驳高铁客流疏散能显著降低乘客候车时间,并提高地铁的运行效率;乘客平均候车时间减少了26.80%,地铁的平均运行效率提高了14.11%. 展开更多
关键词 多智能强化学习 地铁接驳 客流疏散 异步动作协同机制
在线阅读 下载PDF
基于多智能体强化学习的无人机协同截击机动决策研究
9
作者 杨大鹏 龚资浩 +2 位作者 王小也 郭正玉 罗德林 《系统工程与电子技术》 北大核心 2025年第9期3076-3085,共10页
无人机智能化协同截击博弈对抗是未来空战的重要作战场景。针对无人机协同战术截击问题,构建基于多智能体强化学习的战术截击决策框架。首先,对截击空战过程中相对态势几何关系进行分析。随后,根据截击空战态势威胁模型设置截击空战奖... 无人机智能化协同截击博弈对抗是未来空战的重要作战场景。针对无人机协同战术截击问题,构建基于多智能体强化学习的战术截击决策框架。首先,对截击空战过程中相对态势几何关系进行分析。随后,根据截击空战态势威胁模型设置截击空战奖励函数。最后,设置无人机独立动作价值网络、编队联合动作价值网络和状态价值网络,以形成无人机协同截击战术生成最优截击策略,并引入截击线评估该截击策略的有效性。仿真结果表明,面对动态博弈条件下的多目标拦截任务,该框架能自主进行拦截目标分配并且形成智能协同截击战术。 展开更多
关键词 多目标协同截击 截击战术 无人机 多智能强化学习
在线阅读 下载PDF
基于多智能体强化学习的履带机器人摆臂控制方法 被引量:1
10
作者 张洪川 任君凯 +2 位作者 潘海南 梅勇 卢惠民 《兵工自动化》 北大核心 2025年第2期92-95,共4页
为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂... 为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂运动;将所提方法部署在基于Isaac Sim搭建的3维仿真环境中,通过向每个智能体输入局部高程图和机器人状态,输出摆臂转角。实验结果表明:该方法能实现多种地形下的摆臂自主控制,在机器人自主越障方面相对于单智能体强化学习有显著提升。 展开更多
关键词 多智能强化学习 履带机器人 自主越障 摆臂自主控制
在线阅读 下载PDF
基于优势函数分解多智能体深度强化学习的电力系统暂态稳定预防控制方法 被引量:1
11
作者 牛哲文 冀岳 +3 位作者 李柏堉 党志芳 武宇翔 韩肖清 《电网技术》 北大核心 2025年第6期2311-2321,I0035,I0036,共13页
传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总... 传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总量最小为目标,考虑电力系统暂态稳定运行的多种约束,将分散式资源调控问题转变为多智能体的分布式协同优化问题进行求解,分区独立地给出最优的暂态稳定预防控制动作。针对分区控制导致智能体观测视野受限而引发的优化方向混乱、收敛速度降低的问题,引入优势函数分解定理,提高单个智能体的全局观察能力,使其在接收局部区域信息的情况下,仍能够广泛地探索环境并在学习中较稳定地提升策略网络效果。此外,该文采用柔性动作-评价强化学习算法,引入最大熵的概念以进一步增强多智能体方法的鲁棒性和探索能力。最后,在IEEE 39节点系统与某省级电网系统中验证了所提方法在暂态稳定预防控制决策中的有效性。 展开更多
关键词 暂态稳定 预防控制 优势函数分解 深度学习 多智能深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的光储充电站动态定价及能源调度策略
12
作者 陈锦韬 林兵 +2 位作者 林崧 陈静 陈星 《计算机科学》 北大核心 2025年第9期337-345,共9页
光储充电站运营收益的提升,能够使充电站运营商加大对光储充电站基础设施的投资和部署,从而缓解日益增长的电动汽车渗透到电网时带来的负荷压力。针对光储充电站的运营收益提升问题,提出了一种基于多智能体深度强化学习的动态定价及能... 光储充电站运营收益的提升,能够使充电站运营商加大对光储充电站基础设施的投资和部署,从而缓解日益增长的电动汽车渗透到电网时带来的负荷压力。针对光储充电站的运营收益提升问题,提出了一种基于多智能体深度强化学习的动态定价及能源调度策略,旨在提高完全合作关系下光储充电站的整体运营收益。首先,以最大化所有光储充电站的总运营收益为目标,将在单个光储充电站运营商下的多个光储充电站和电动汽车建模成马尔可夫博弈模型;其次,采用多智能体双延迟确定性策略梯度算法进行模型求解,通过制定充电服务价格和储能系统的充放电策略,以达到总运营收益最大化的目标,并通过余弦退火方法对算法学习率进行调整,提升该算法的收敛速率和收敛阈值;最后,为防止完全合作关系下多站可能出现的价格垄断问题,引入反需求函数对充电服务价格进行约束。实验结果表明,所提策略和对比方法相比,提高了4.17%~66.67%的充电站运营收益,且所用的反需求函数能够有效预防多站的价格垄断问题。 展开更多
关键词 多智能深度强化学习 光储充电站 能源调度 动态定价 反需求函数
在线阅读 下载PDF
基于多智能体深度强化学习的SD-IoT控制器部署
13
作者 吕超峰 徐鹏飞 +1 位作者 罗迪 刘金平 《计算机工程》 北大核心 2025年第5期83-92,共10页
物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的... 物联网(IoT)中激增的流量,影响了传感器等设备的数据传输。利用软件定义网络(SDN)技术可以优化网络性能,提高数据传输质量。然而,物联网中流量等网络状态的不断变化会影响软件定义网络控制平面的性能。研究软件定义物联网(SD-IoT)中的动态控制器部署问题,以在流量变化时保证控制平面性能。考虑到物联网节点的能耗以及数据传输的特点,在部署控制器时,综合考虑延迟、控制可靠性以及能耗的影响,并将该问题构建为马尔可夫博弈过程。为了同时兼顾单一控制器性能以及控制平面整体性能,采用多智能体深度强化学习求解该问题。在部署阶段利用动作掩码屏蔽部分节点,避免将控制器部署在性能不足或者供能不方便的节点。仿真实验表明,与基于Louvain社区划分和基于单智能体深度Q网络(DQN)的部署算法相比,所提算法可以更好地找到高性能的部署方案。 展开更多
关键词 软件定义物联网 控制器部署 多智能深度强化学习 动作掩码 马尔可夫博弈
在线阅读 下载PDF
多智能体近端策略优化的动态武器目标分配
14
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能强化学习 近端策略优化 策略熵 随机噪声
在线阅读 下载PDF
基于单/多智能体简化强化学习的电力系统无功电压控制 被引量:10
15
作者 马庆 邓长虹 《电工技术学报》 EI CSCD 北大核心 2024年第5期1300-1312,共13页
为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先... 为了快速平抑分布式能源接入系统产生的无功电压波动,以强化学习、模仿学习为代表的机器学习方法逐渐被应用于无功电压控制。虽然现有方法能实现在线极速求解,但仍然存在离线训练速度慢、普适性不够等阻碍其应用于实际的缺陷。该文首先提出一种适用于输电网集中式控制的单智能体简化强化学习方法,该方法基于“Actor-Critic”架构对强化学习进行简化与改进,保留了强化学习无需标签数据与强普适性的优点,同时消除了训练初期因智能体随机搜索造成的计算浪费,大幅提升了强化学习的训练速度;然后,提出一种适用于配电网分布式零通信控制的多智能体简化强化学习方法,该方法将简化强化学习思想推广形成多智能体版本,同时采用模仿学习进行初始化,将全局优化思想提前注入各智能体,提升各无功设备之间的就地协同控制效果;最后,基于改进IEEE 118节点算例的仿真结果验证了所提方法的正确性与快速性。 展开更多
关键词 无功电压控制 集中式控制 智能简化强化学习 分布式控制 多智能简化强化学习
在线阅读 下载PDF
多智能体博弈学习研究进展 被引量:5
16
作者 罗俊仁 张万鹏 +2 位作者 苏炯铭 袁唯淋 陈璟 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1628-1655,共28页
随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文... 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法。其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 展开更多
关键词 博弈学习 多智能体学习 元博弈 在线无悔学习
在线阅读 下载PDF
内容新鲜度保障的车联网多智能体缓存分发策略 被引量:1
17
作者 崔亚平 石宏吉 +2 位作者 吴大鹏 何鹏 王汝言 《通信学报》 北大核心 2025年第1期52-66,共15页
车辆需要频繁动态变化内容支持车联网(IoV)时延敏感型应用,这会增加宏基站(MBS)负载,降低内容新鲜度。利用边缘缓存将最新内容提前缓存在小基站(SBS)能有效降低车辆时延和提高内容新鲜度。对影响时延和内容信息年龄(AoI)进行深入分析,... 车辆需要频繁动态变化内容支持车联网(IoV)时延敏感型应用,这会增加宏基站(MBS)负载,降低内容新鲜度。利用边缘缓存将最新内容提前缓存在小基站(SBS)能有效降低车辆时延和提高内容新鲜度。对影响时延和内容信息年龄(AoI)进行深入分析,提出一种内容新鲜度保障的多智能体强化学习(MARL)算法,通过优化缓存分发决策保障车辆获得高新鲜度内容。仿真结果表明,所提算法不仅收敛速度更快,而且在降低车辆时延和提升内容新鲜度方面表现出更好效果。 展开更多
关键词 车联网 边缘缓存 信息年龄 多智能强化学习
在线阅读 下载PDF
基于价值函数分解和通信学习机制的异构多智能体强化学习方法 被引量:1
18
作者 杜威 丁世飞 +2 位作者 郭丽丽 张健 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1304-1322,共19页
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习... 许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性. 展开更多
关键词 价值函数分解 异构多智能强化学习 通信机制 图神经网络 互信息 交通信号控制
在线阅读 下载PDF
多智能体强化学习算法研究综述 被引量:5
19
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能 强化学习 多智能强化学习 多智能系统
在线阅读 下载PDF
基于智能规划的多智能体强化学习算法 被引量:3
20
作者 辛沅霞 华道阳 张犁 《计算机科学》 CSCD 北大核心 2024年第5期179-192,共14页
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案... 目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。 展开更多
关键词 多智能强化学习 智能规划 启发式搜索 探索效率
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部