期刊文献+
共找到197篇文章
< 1 2 10 >
每页显示 20 50 100
基于多智能体强化学习的博弈综述 被引量:4
1
作者 李艺春 刘泽娇 +4 位作者 洪艺天 王继超 王健瑞 李毅 唐漾 《自动化学报》 北大核心 2025年第3期540-558,共19页
多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样... 多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 展开更多
关键词 多智能体强化学习 多智能系统 博弈决策 均衡求解
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理 被引量:2
2
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能体强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
基于多智能体强化学习的电-碳-绿证耦合市场下多市场主体行为研究 被引量:1
3
作者 周飞航 王灏 +5 位作者 王海利 王萌 金耀杰 李重春 张忠德 王鹏 《中国电力》 北大核心 2025年第4期44-55,共12页
建立全国碳排放权交易市场和绿证市场是中国实现“双碳”目标的重要策略之一。然而,现有研究多从经济角度分析市场耦合关系,忽视了电力网络的物理约束以及新能源出力不确定性对市场协同优化的影响,且没有考虑电力用户进入碳市场的情况... 建立全国碳排放权交易市场和绿证市场是中国实现“双碳”目标的重要策略之一。然而,现有研究多从经济角度分析市场耦合关系,忽视了电力网络的物理约束以及新能源出力不确定性对市场协同优化的影响,且没有考虑电力用户进入碳市场的情况。针对这一不足,提出了一种基于物理网络节点的电-碳-绿证耦合市场双层优化模型,分析碳市场扩容背景下市场主体行为及耦合机制的变化。模型在电网物理拓扑结构的基础上,引入电力用户参与碳市场的决策机制,并结合绿证与碳配额的抵消规则,探索线路阻塞对市场主体决策的影响。使用蒙西地区新能源机组实际出力数据,验证所提模型的合理性与有效性。结果表明:电力用户纳入碳市场可显著提升耦合市场的整体收益;线路阻塞对市场主体行为及市场收益具有重要影响;在碳配额充裕条件下,引入碳证抵消机制能够进一步优化市场效率。 展开更多
关键词 碳排放权交易市场 绿证市场 耦合市场双层优化模型 多智能体强化学习 线路阻塞 碳证抵消机制
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
4
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能体强化学习
在线阅读 下载PDF
多智能体强化学习赋能空间无人系统:方法、挑战与机遇
5
作者 李勐 冯肇晗 +3 位作者 梅云鹏 曹宏杰 张博 王钢 《空间控制技术与应用》 北大核心 2025年第4期17-28,共12页
随着航天技术向智能化、集群化发展,空间无人系统在深空探测、对地观测等战略领域展现出巨大潜力,但传统集中式控制范式在应对高动态环境、分布式任务和严格资源约束时面临严峻挑战.多智能体强化学习以其分布式决策架构和协同演化机制,... 随着航天技术向智能化、集群化发展,空间无人系统在深空探测、对地观测等战略领域展现出巨大潜力,但传统集中式控制范式在应对高动态环境、分布式任务和严格资源约束时面临严峻挑战.多智能体强化学习以其分布式决策架构和协同演化机制,为构建自主、弹性的空间智能系统提供了突破性解决方案.本文系统探讨了多智能体强化学习在空间无人系统中的技术赋能路径、方法体系、工程挑战与发展机遇;剖析了卫星集群协同通信和多航天器控制等核心场景的技术瓶颈;总结了空间无人系统在上述核心场景中的研究与应用现状;展望了多智能体强化学习作为新兴智能技术,在动态频谱分配、星载边缘计算和抗扰协同控制等关键方向的应用前景,推动空间系统向“自主决策-弹性抗扰-高效协同”的新范式演进.本文旨在为构建新一代空间智能无人集群提供现有技术梳理与前景展望. 展开更多
关键词 多智能体强化学习 空间无人系统 协同控制 边缘计算 自主决策
在线阅读 下载PDF
基于多智能体强化学习的D2D通信资源分配算法研究
6
作者 李陶深 漆治军 杜利俊 《燕山大学学报》 北大核心 2025年第5期461-470,共10页
为了解决蜂窝网络中端到端(Device-to-Device,D2D)通信的同频干扰问题,考虑到小区内蜂窝用户的移动性,通过引入无线携能通信技术,提出一种基于双深度Q-网络的分布式资源分配算法。该算法在满足设备最低服务质量要求和不完全信道状态信... 为了解决蜂窝网络中端到端(Device-to-Device,D2D)通信的同频干扰问题,考虑到小区内蜂窝用户的移动性,通过引入无线携能通信技术,提出一种基于双深度Q-网络的分布式资源分配算法。该算法在满足设备最低服务质量要求和不完全信道状态信息等约束条件下,帮助D2D链路学习最优策略,以此缓解系统中存在的干扰,实现分布式资源分配和D2D链路的能量效率最大化。首先,将D2D通信的资源分配问题表述为马尔可夫决策过程;然后,将分配问题分解为功率控制和信道分配两个子问题,并根据强化学习技术对问题进行转化,建模为具有多个智能体的资源分配问题,设计训练算法。仿真实验结果表明,所提出的分配算法能有效收敛,明显提升了D2D链路层的能量效率和D2D链路的吞吐量,具有一定的可行性、有效性和先进性。 展开更多
关键词 D2D通信 无线携能通信 功率控制 资源分配 多智能体强化学习
在线阅读 下载PDF
基于隐式通信的值分解多智能体强化学习
7
作者 邓亚男 王秋红 +1 位作者 李俊杰 顾晶晶 《计算机科学与探索》 北大核心 2025年第7期1878-1887,共10页
在多智能体系统中,智能体通常只能观察到部分状态信息,导致每个智能体在作决策时缺乏对其他智能体行为和环境动态的完整理解,进而增加了协作的难度。虽然基于值函数分解的多智能体强化学习方法对解决局部可观测性问题有一定的优势,但由... 在多智能体系统中,智能体通常只能观察到部分状态信息,导致每个智能体在作决策时缺乏对其他智能体行为和环境动态的完整理解,进而增加了协作的难度。虽然基于值函数分解的多智能体强化学习方法对解决局部可观测性问题有一定的优势,但由于状态-动作空间维度高、模型结构复杂等问题,多智能体系统中仍然存在着协作不确定性的影响,从而导致奖励分配不公平的问题。提出了一种基于隐式通信的值分解多智能体强化学习方法(VFRL-IC),通过挖掘智能体之间的局部关系,缓解环境不确定性问题带来的影响:提出隐式通信框架,在训练阶段使智能体共享局部观测信息以训练局部策略;基于局部观测信息构建全局影响的评估模型,求解智能体间影响值;设计了一种类多头注意力机制的网络结构,融合智能体间影响值,求解包含全局信息的局部动作值模型。在星际争霸环境中进行实验验证,结果表明,VFRL-IC在各场景中的平均成功率优于基线算法15~40个百分点,效率提高18%。 展开更多
关键词 值分解 多智能体强化学习 部分可观测性 不确定性 隐式通信
在线阅读 下载PDF
基于多智能体强化学习的地铁接驳高铁客流疏散优化研究
8
作者 孙峣 柯水平 +1 位作者 贾宁 辛秀颖 《北京交通大学学报》 北大核心 2025年第4期19-28,共10页
针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,... 针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,减少拥挤情况,并提高交通资源利用率.首先,根据地铁的时空信息及乘客换乘的时空参数,将地铁接驳高铁客流疏散优化问题建模为马尔可夫博弈过程,并设计通用状态特征、行为空间和奖励函数.然后,采用Actor-Critic(AC)框架建立多智能体的决策模型,并在集中式训练和分布式执行的框架下设计一种异步动作协同机制,以提高方法的训练效率.最后,以天津西站换乘地铁为案例进行优化研究.研究结果表明:优化地铁接驳高铁客流疏散能显著降低乘客候车时间,并提高地铁的运行效率;乘客平均候车时间减少了26.80%,地铁的平均运行效率提高了14.11%. 展开更多
关键词 多智能体强化学习 地铁接驳 客流疏散 异步动作协同机制
在线阅读 下载PDF
基于多智能体强化学习的无人机协同截击机动决策研究
9
作者 杨大鹏 龚资浩 +2 位作者 王小也 郭正玉 罗德林 《系统工程与电子技术》 北大核心 2025年第9期3076-3085,共10页
无人机智能化协同截击博弈对抗是未来空战的重要作战场景。针对无人机协同战术截击问题,构建基于多智能体强化学习的战术截击决策框架。首先,对截击空战过程中相对态势几何关系进行分析。随后,根据截击空战态势威胁模型设置截击空战奖... 无人机智能化协同截击博弈对抗是未来空战的重要作战场景。针对无人机协同战术截击问题,构建基于多智能体强化学习的战术截击决策框架。首先,对截击空战过程中相对态势几何关系进行分析。随后,根据截击空战态势威胁模型设置截击空战奖励函数。最后,设置无人机独立动作价值网络、编队联合动作价值网络和状态价值网络,以形成无人机协同截击战术生成最优截击策略,并引入截击线评估该截击策略的有效性。仿真结果表明,面对动态博弈条件下的多目标拦截任务,该框架能自主进行拦截目标分配并且形成智能协同截击战术。 展开更多
关键词 多目标协同截击 截击战术 无人机 多智能体强化学习
在线阅读 下载PDF
基于图注意力的分组多智能体强化学习方法
10
作者 朱士昊 彭可兴 马廷淮 《计算机科学》 北大核心 2025年第9期330-336,共7页
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能... 目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。 展开更多
关键词 多智能体强化学习 图注意力网络 集中训练分散执行 多智能协作 多智能通信
在线阅读 下载PDF
基于多智能体强化学习的履带机器人摆臂控制方法 被引量:1
11
作者 张洪川 任君凯 +2 位作者 潘海南 梅勇 卢惠民 《兵工自动化》 北大核心 2025年第2期92-95,共4页
为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂... 为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂运动;将所提方法部署在基于Isaac Sim搭建的3维仿真环境中,通过向每个智能体输入局部高程图和机器人状态,输出摆臂转角。实验结果表明:该方法能实现多种地形下的摆臂自主控制,在机器人自主越障方面相对于单智能体强化学习有显著提升。 展开更多
关键词 多智能体强化学习 履带机器人 自主越障 摆臂自主控制
在线阅读 下载PDF
基于角色学习的多智能体强化学习方法
12
作者 沈思彤 王耀吾 +1 位作者 谢在鹏 唐斌 《计算机工程》 北大核心 2025年第6期102-115,共14页
多智能体强化学习(MARL)在解决复杂协作任务中具有重要作用。然而,传统方法在动态环境和信息非平稳性方面存在显著局限性。针对这些挑战,提出一种基于角色学习的多智能体强化学习框架(RoMAC)。该框架通过基于动作属性的角色划分,并借助... 多智能体强化学习(MARL)在解决复杂协作任务中具有重要作用。然而,传统方法在动态环境和信息非平稳性方面存在显著局限性。针对这些挑战,提出一种基于角色学习的多智能体强化学习框架(RoMAC)。该框架通过基于动作属性的角色划分,并借助角色分配网络实现智能体角色的动态分配,以提升多智能体协作效率。框架采用分层通信设计,包括基于注意力机制的角色间通信和基于互信息的智能体间通信。在角色间通信中,利用注意力机制生成高效的通信信息,以实现角色代理间的协调;在智能体间通信中,通过互信息生成有针对性的信息,从而提升角色组内部的决策质量。实验在星际争霸多智能体挑战(SMAC)环境中进行,结果表明,RoMAC胜率平均提高了约8.62百分点,收敛时间缩短了0.92×10^(6)时间步,通信负载平均降低了28.18百分点。消融实验进一步验证了RoMAC各模块在提升性能中的关键作用,体现了模型的稳健性与灵活性。综合实验结果表明,RoMAC在MARL和协作任务中具有显著优势,为复杂任务的高效解决提供了可靠支持。 展开更多
关键词 多智能体强化学习 角色学习 多智能通信 互信息 协作
在线阅读 下载PDF
基于价值函数分解和通信学习机制的异构多智能体强化学习方法 被引量:1
13
作者 杜威 丁世飞 +2 位作者 郭丽丽 张健 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1304-1322,共19页
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习... 许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性. 展开更多
关键词 价值函数分解 异构多智能体强化学习 通信机制 图神经网络 互信息 交通信号控制
在线阅读 下载PDF
多智能体强化学习算法研究综述 被引量:6
14
作者 李明阳 许可儿 +2 位作者 宋志强 夏庆锋 周鹏 《计算机科学与探索》 CSCD 北大核心 2024年第8期1979-1997,共19页
近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关... 近年来,多智能体强化学习算法技术已广泛应用于人工智能领域。系统性地分析了多智能体强化学习算法,审视了其在多智能体系统中的应用与进展,并深入调研了相关研究成果。介绍了多智能体强化学习的研究背景和发展历程,并总结了已有的相关研究成果;简要回顾了传统强化学习算法在不同任务下的应用情况;重点强调多智能体强化学习算法分类,并根据三种主要的任务类型(路径规划、追逃博弈、任务分配)对其在多智能体系统中的应用、挑战以及解决方案进行了细致的梳理与分析;调研了多智能体领域中现有的算法训练环境,总结了深度学习对多智能体强化学习算法的改进作用,提出该领域所面临的挑战并展望了未来的研究方向。 展开更多
关键词 智能 强化学习 多智能体强化学习 多智能系统
在线阅读 下载PDF
基于智能规划的多智能体强化学习算法 被引量:3
15
作者 辛沅霞 华道阳 张犁 《计算机科学》 CSCD 北大核心 2024年第5期179-192,共14页
目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案... 目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。 展开更多
关键词 多智能体强化学习 智能规划 启发式搜索 探索效率
在线阅读 下载PDF
深空探测器多智能体强化学习自主任务规划 被引量:1
16
作者 孙泽翼 王彬 +2 位作者 胡馨月 熊新 金怀平 《深空探测学报(中英文)》 CSCD 北大核心 2024年第3期244-255,共12页
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规... 针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。 展开更多
关键词 多智能体强化学习 深空探测自主任务规划 近端策略优化 小天附着
在线阅读 下载PDF
基于多智能体强化学习的两阶段电压控制策略 被引量:2
17
作者 张涛 郝正航 +3 位作者 徐玉韬 马启鹏 李超 杨玉杰 《南方电网技术》 CSCD 北大核心 2024年第12期77-86,共10页
随着大量分布式光伏接入配电网,配电网在应对网络重构和源荷储不确定性等方面面临较大挑战。因此提出一种主动配电网两阶段电压控制策略,第一阶段对主动配电网联络开关进行集中控制,以小时为调度周期并以网损最小为目标进行网络重构,建... 随着大量分布式光伏接入配电网,配电网在应对网络重构和源荷储不确定性等方面面临较大挑战。因此提出一种主动配电网两阶段电压控制策略,第一阶段对主动配电网联络开关进行集中控制,以小时为调度周期并以网损最小为目标进行网络重构,建立混合整数二阶锥规划模型进行求解。第二阶段对光伏和储能系统进行实时电压控制,将实时电压控制问题转换为马尔科夫博弈过程(Markov game process,MGP)并实行多智能体建模,采用离线训练-在线运行的方法。相比于传统的两阶段均采用数学规划的方法,所提控制策略不依赖于精确的配网潮流模型,对通信要求低、求解速度更快。最后在改进的IEEE 33节点系统算例验证了所提控制策略的有效性。 展开更多
关键词 分布式光伏 分布式储能 配电网重构 多智能体强化学习 电压控制
在线阅读 下载PDF
基于多智能体强化学习的重载运输车队队列控制
18
作者 张海龙 赵永娟 +1 位作者 张鹏飞 董瀚萱 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期45-50,66,共7页
重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列... 重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列控制策略,通过控制策略自主式参数优化实现重载队列协同控制,搭建了融合长短时记忆网络的柔性动力需求引导方法,将长期规划策略与短期控制策略解耦,并分别在双层马尔科夫链迭代,建立动力总成元件工况柔性调节控制方法。标准工况试验结果表明:所提出的队列控制策略使队列行驶过程中车头时距保持在1.2 s,动力电池荷电状态维持在35%~65%,并使发动机工作在高效经济区间内,有效提升了重载运输队列的稳定性、耐久性与燃油经济性。 展开更多
关键词 队列控制 重载特种车辆 多智能体强化学习 长短时记忆网络 混合动力系统
在线阅读 下载PDF
基于观测重构的多智能体强化学习方法 被引量:2
19
作者 史殿习 胡浩萌 +4 位作者 宋林娜 杨焕焕 欧阳倩滢 谭杰夫 陈莹 《计算机科学》 CSCD 北大核心 2024年第4期280-290,共11页
共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKO... 共同知识是多智能体系统内众所周知的知识集。如何充分利用共同知识进行策略学习,是多智能体独立学习系统中的一个挑战性问题。针对这一问题,围绕共同知识提取和独立学习网络设计,提出了一种基于观测重构的多智能体强化学习方法IPPO-CKOR。首先,对智能体的观测信息进行共同知识特征的计算与融合,得到融合共同知识特征的观测信息;其次,采用基于共同知识的智能体选择算法,选择关系密切的智能体,并使用重构特征生成机制构建它们的特征信息,其与融合共同知识特征的观测信息组成重构观测信息,用于智能体策略的学习与执行;最后,设计了一个基于观测重构的独立学习网络,使用多头自注意力机制对重构观测信息进行处理,使用一维卷积和GRU层处理观测信息序列,使得智能体能够从观测信息序列中提取出更有效的特征,有效缓解了环境非平稳与部分可观测问题带来的影响。实验结果表明,相较于现有典型的采用独立学习的多智能体强化学习方法,所提方法在性能上有显著提升。 展开更多
关键词 观测重构 多智能协作策略 多智能体强化学习 独立学习
在线阅读 下载PDF
基于时空依赖关系多智能体强化学习的多路口交通信号协同控制方法 被引量:1
20
作者 王兆瑞 岩延 张宝贤 《中国科学院大学学报(中英文)》 CAS CSCD 北大核心 2024年第3期398-410,共13页
面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机... 面对日益严重的交通拥堵现象,智能交通信号控制已成为提升城市道路网络性能必不可少的手段。提出一种基于时空依赖关系多智能体强化学习算法的多路口交通信号控制方法STLight(spatiotemporal traffic light control)。通过基于注意力机制的时空依赖模块STDM(spatiotemporal dependent module),STLight可将初始交通观测数据提取为时空特征,以有效捕获各交叉路口间的时空依赖关系。此外,基于所提取的时空特征,STLight在基于集中训练分散执行框架的多智能体强化学习算法基础之上进一步为各个智能体引入全局时空信息,从而进一步提升多智能体之间的协作能力。实验结果表明,STLight在提升城市道路网络的性能方面具有显著的优势,有助于缓解当前大规模城市道路网络的交通拥堵问题。 展开更多
关键词 多智能体强化学习 多路口交通信号控制 注意力机制 马尔可夫博弈 时空依赖
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部