期刊文献+
共找到1,083篇文章
< 1 2 55 >
每页显示 20 50 100
基于奖励滤波信用分配的多智能体深度强化学习算法 被引量:6
1
作者 徐诚 殷楠 +2 位作者 段世红 何昊 王然 《计算机学报》 EI CAS CSCD 北大核心 2022年第11期2306-2320,共15页
近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体... 近年来,强化学习方法在游戏博弈、机器人导航等多种应用领域取得了令人瞩目的成果.随着越来越多的现实场景需要多个智能体完成复杂任务,强化学习的研究领域已逐渐从单一智能体转向多智能体.而在多智能体强化学习问题的研究中,让智能体学会协作成为当前的一大研究热点.在这一过程中,多智能体信用分配问题亟待解决.这是因为部分可观测环境会针对智能体产生的联合动作产生奖励强化信号,并将其用于强化学习网络参数的更新.也就是说,当所有智能体共享一个相同的全局奖励时,难以确定系统中的每一个智能体对整体所做出的贡献.除此之外,当某个智能体提前学习好策略并获得较高的回报时,其他智能体可能停止探索,使得整个系统陷入局部最优.针对这些问题,本文提出了一种简单有效的方法,即基于奖励滤波的信用分配算法.将其他智能体引起的非平稳环境影响建模为噪声,获取集中训练过程中的全局奖励信号,经过滤波后得到每个智能体的局部奖励,用于协调多智能体的行为,更好地实现奖励最大化.我们还提出了基于奖励滤波的多智能体深度强化学习(RF-MADRL)框架,并在Open AI提供的合作导航环境中成功地进行了验证.实验结果表明,和基线算法相比,使用基于奖励滤波的深度强化学习方法有着更好的表现,智能体系统策略收敛速度更快,获得的奖励更高. 展开更多
关键词 多智能系统 深度强化学习 信用分配 奖励滤波 合作导航
在线阅读 下载PDF
基于SAC的多智能体深度强化学习算法 被引量:20
2
作者 肖硕 黄珍珍 +3 位作者 张国鹏 杨树松 江海峰 李天旭 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1675-1681,共7页
由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralize... 由于多智能体所处环境动态变化,并且单个智能体的决策也会影响其他智能体,这使得单智能体深度强化学习算法难以在多智能体环境中保持稳定.为了适应多智能体环境,本文利用集中训练和分散执行框架Cen-tralized Training with Decentralized Execution(CTDE),对单智能体深度强化学习算法Soft Actor-Critic(SAC)进行了改进,引入智能体通信机制,构建Multi-Agent Soft Actor-Critic(MASAC)算法. MASAC中智能体共享观察信息和历史经验,有效减少了环境不稳定性对算法造成的影响.最后,本文在协同以及协同竞争混合的任务中,对MASAC算法性能进行了实验分析,结果表明MASAC相对于SAC在多智能体环境中具有更好的稳定性. 展开更多
关键词 多智能环境 集中训练 分散执行 多智能深度强化学习
在线阅读 下载PDF
基于分区缓存区重放与多线程交互的多智能体深度强化学习算法 被引量:5
3
作者 柴来 张婷婷 +1 位作者 董会 王楠 《计算机学报》 EI CAS CSCD 北大核心 2021年第6期1140-1152,共13页
近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,... 近些年,深度强化学习(Deep Reinforcement Learning,DRL)已成为人工智能领域一个新的机器学习范式与方法论,它在许多高维度大状态的复杂空间任务中能够取得显著的成功.然而,传统的深度强化学习仍然存在着学习效率低、训练时间长的问题,在多智能体的行为决策研究中难以达到理想的效果.针对这些问题,本文提出了一种基于分区缓存区重放与多线程交互的多智能体深度强化学习算法(Partitioned Buffer Replay and Multiple Process Interaction,PBR-MPI).首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据.其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数.然后,为了构建PBR-MPI算法的适用场景,本文根据目前多智能体系统(Multi-Agent System,MAS)的最新研究进展,将多智能体的信息交互方式归纳总结为集中式信息交互、全信息交互和欠信息交互三大类.最后,将新算法与其它的多智能体DRL算法分别在三种不同的信息交互场景中进行对比实验,用于验证和评价PBR-MPI的有效性及整体性能.实验结果表明,在智能体个数为5的多智能体目标追踪任务中,缓存区数为3、线程数为5的PBR-MPI算法的学习收敛速度平均提高了21%,训练效率平均提升了34%,并且在综合性能的评估中新算法的整体性能改善了50%. 展开更多
关键词 分区缓存区重放 多线程交互 深度强化学习 多智能 信息交互 行为决策
在线阅读 下载PDF
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:3
4
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
5
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能 深度强化学习
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
6
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多智能体深度强化学习的高炮反无人机算法
7
作者 胡家威 代昌华 +5 位作者 祁万龙 陈志恒 王震 樊浡昊 郑欣磊 唐杰 《航空兵器》 北大核心 2025年第5期64-71,共8页
针对目前高炮反无人机系统存在的打击效率低和适应能力不足等问题,提出一种融合态势信息和层次化多目标奖励的多智能体深度强化学习高炮反无人机算法。首先,以火力打击系统反无人机为背景,对高炮反无人机防御场景的问题进行定义。其次,... 针对目前高炮反无人机系统存在的打击效率低和适应能力不足等问题,提出一种融合态势信息和层次化多目标奖励的多智能体深度强化学习高炮反无人机算法。首先,以火力打击系统反无人机为背景,对高炮反无人机防御场景的问题进行定义。其次,将高炮反无人机任务转化为马尔可夫决策问题,构建决策智能体并定义其状态空间、动作空间以及奖励函数,具体而言,为了提升智能体的全局态势感知能力,将多源态势信息融合到状态空间中,此外,针对高炮反无人机的特点和火控延迟特性,设计了一套层次化多目标的奖励机制,用于指导智能体的决策过程。最后,采用基于单调值函数分解的深度多智能体强化学习对智能体进行训练并基于仿真环境进行验证。实验结果表明,在三种不同的反无人机场景中,本文算法的任务完成度分别达到了86%,88%和78%,较其他流行的多智能体深度强化学习算法平均提升了48.9%,显著提升了高炮反无人机系统的打击效率和战场适应能力,为高炮反无人机提供了有效的智能解决方案。 展开更多
关键词 高炮反无人机 态势信息 层次化多目标奖励 多智能 深度强化学习 马尔可夫决策
在线阅读 下载PDF
基于多智能体深度强化学习的大容量电池储能电站功率分配策略
8
作者 彭寒梅 赵长桥 +2 位作者 谭貌 陈颉 李辉 《南方电网技术》 北大核心 2025年第9期82-93,共12页
大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基... 大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。 展开更多
关键词 电池储能电站 功率分配 多智能 深度强化学习 SOC一致性
在线阅读 下载PDF
深度强化学习下的多智能体思考型半多轮通信网络
9
作者 邹启杰 汤宇 +2 位作者 高兵 赵锡玲 张哲婕 《控制理论与应用》 北大核心 2025年第3期553-562,共10页
针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成... 针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成推理信息,并将此信息作为新的发送消息,从而达到提高通信内容多样化的目标;然后,该模型在软注意力机制的基础上设计了一种半多轮通信策略,提高了信息饱和度,从而提升系统的通信交互效率.本文在合作导航、捕猎任务和交通路口3个模拟环境中证明,TMACN对比其他方法,提高了系统的准确率与稳定性. 展开更多
关键词 多智能系统 合作环境 深度强化学习 通信网络
在线阅读 下载PDF
优先价值网络的多智能体协同强化学习算法
10
作者 苗国英 孙英博 王慧琴 《控制工程》 北大核心 2025年第4期691-698,共8页
为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进... 为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进行经验复用,解决通过随机采样进行经验复用存在的问题;其次,该算法在智能体的值网络中引入价值优势网络形式,对比状态值与动作优势的信息,使智能体更快地学习到优势动作。多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快、更好地做出决策,完成给定任务。 展开更多
关键词 多智能 强化学习 优先经验回放 价值优势网络 状态值
在线阅读 下载PDF
基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法 被引量:3
11
作者 徐业琰 姚良忠 +4 位作者 廖思阳 程帆 徐箭 蒲天骄 王新迎 《中国电机工程学报》 北大核心 2025年第2期513-526,I0010,共15页
为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行... 为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。 展开更多
关键词 源-网-荷-储 实时调度 带约束马尔科夫合作博弈 多智能深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法 被引量:1
12
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于多智能体深度强化学习的主动配电网电压调控策略
13
作者 黄煜 张潇潇 +3 位作者 岳东 胡松林 王娟 李祝昆 《电力系统自动化》 北大核心 2025年第18期65-73,共9页
针对高比例分布式光伏并网导致的配电网电压越限问题,提出了一种基于改进深度确定性策略梯度算法的电压调控策略。首先,文中提出基于方差的改进自适应噪声奖励函数,以动态调节智能体在环境中不同方差区域的学习能力,有效缓解策略偏差问... 针对高比例分布式光伏并网导致的配电网电压越限问题,提出了一种基于改进深度确定性策略梯度算法的电压调控策略。首先,文中提出基于方差的改进自适应噪声奖励函数,以动态调节智能体在环境中不同方差区域的学习能力,有效缓解策略偏差问题。然后,将评价函数由确定值形式转换为概率分布形式,以提升智能体对不确定性环境的适应能力。最后,引入N步回报方法,通过在贝尔曼方程中添加N步的奖励值,提升智能体对长期效益的评估能力。IEEE 123节点配电系统的仿真结果表明,所提策略在降低电压越限率、减少网络损耗以及增强复杂运行环境中的策略泛化能力方面具有显著优势。 展开更多
关键词 主动配电网 分布式光伏 深度强化学习 智能 电压调控 数据驱动 马尔可夫决策过程
在线阅读 下载PDF
基于多智能体深度强化学习的海上风电传感器节点能效优化
14
作者 贾林朋 王霄 +2 位作者 何志琴 吴钦木 尹曜华 《计算机应用研究》 北大核心 2025年第8期2490-2496,共7页
海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问... 海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问题,设计了一种基于多智能体深度确定性策略梯度算法的优化方案。考虑了节点能量有限和特定的海上通信环境特点,通过多智能体协同优化节点的感知与通信策略,有效减少能耗并提升网络覆盖率和数据传输效率。结合自适应噪声策略、优先经验回放机制以及合理的奖励函数设计,进一步提高了算法的学习效率与能效表现。实验结果表明,所提算法相比DDPG基准算法提升了约26%的节点能效,训练速度较DDQN、SAC算法加快了33%和48%。 展开更多
关键词 海上风电 无线传感网络 能效优化 多智能深度强化学习 自适应噪声策略
在线阅读 下载PDF
多智能体深度强化学习及可扩展性研究进展 被引量:3
15
作者 刘延飞 李超 +1 位作者 王忠 王杰铃 《计算机工程与应用》 北大核心 2025年第4期1-24,共24页
多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多... 多智能体深度强化学习近年来在解决智能体协作、竞争和通信问题上展现出巨大潜力。然而伴随着其在更多领域的应用,可扩展性问题备受关注,是理论研究到大规模工程应用的重要问题。回顾了强化学习理论和深度强化学习的典型算法,介绍了多智能体深度强化学习三类学习范式及其代表算法,并简要整理出当前主流的开源实验平台。详细探讨了多智能体深度强化学习在数量和场景上的可扩展性研究进展,分析了各自面临的核心问题并给出了现有的解决思路。展望了多智能体深度强化学习的应用前景和发展趋势,为推动该领域的进一步研究提供参考和启示。 展开更多
关键词 多智能系统 强化学习 深度强化学习 可扩展性
在线阅读 下载PDF
数字孪生架构下基于GAN增强的多智能体深度强化学习边缘推理与异构资源协同优化
16
作者 袁晓铭 田汉森 +4 位作者 黄锟达 邓庆绪 康嘉文 李长乐 段续庭 《计算机学报》 北大核心 2025年第8期1763-1780,共18页
边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Ser... 边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Service,QoS)的需求。因此本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)增强的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的边缘推理与异构资源协同优化方法,以实现数字孪生(Digital Twin,DT)驱动的边缘侧大模型赋能系统中异构资源的动态负载均衡,确保推理任务高效性与可靠性。首先,本文构建并分析了DT驱动的边缘侧大模型系统中的物理网络层和孪生网络层,并采用GAN实现对物理实体的孪生映射,从而对海量异构边缘数据进行分布式处理、生成与优化。接着,利用MADRL算法来对系统中的异构资源进行综合量化与协同优化,并将边缘推理数据反馈至MADRL算法中以减少集中式训练过程中的数据通信开销。同时,借助于联邦学习,该架构能够实现多方知识共享,从而有效提升模型训练速度与性能。最后,仿真结果表明,该算法能够在动态复杂大模型赋能边缘系统环境中有效降低推理任务的时延和能耗,充分利用有限的系统资源,确保推理任务的高效性,并提升智能服务的质量。 展开更多
关键词 边缘侧大模型 数字孪生 移动边缘计算 多智能深度强化学习 生成对抗网络 联邦学习
在线阅读 下载PDF
基于优势函数分解多智能体深度强化学习的电力系统暂态稳定预防控制方法 被引量:2
17
作者 牛哲文 冀岳 +3 位作者 李柏堉 党志芳 武宇翔 韩肖清 《电网技术》 北大核心 2025年第6期2311-2321,I0035,I0036,共13页
传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总... 传统暂态稳定预防控制方法求解复杂、运算时间长,难以满足现阶段新型电力系统预防控制的策略高准确性与实时性的要求。针对以上问题,提出了一种基于优势函数分解多智能体强化学习的电力系统暂态稳定预防控制方法。该方法以发电机调整总量最小为目标,考虑电力系统暂态稳定运行的多种约束,将分散式资源调控问题转变为多智能体的分布式协同优化问题进行求解,分区独立地给出最优的暂态稳定预防控制动作。针对分区控制导致智能体观测视野受限而引发的优化方向混乱、收敛速度降低的问题,引入优势函数分解定理,提高单个智能体的全局观察能力,使其在接收局部区域信息的情况下,仍能够广泛地探索环境并在学习中较稳定地提升策略网络效果。此外,该文采用柔性动作-评价强化学习算法,引入最大熵的概念以进一步增强多智能体方法的鲁棒性和探索能力。最后,在IEEE 39节点系统与某省级电网系统中验证了所提方法在暂态稳定预防控制决策中的有效性。 展开更多
关键词 暂态稳定 预防控制 优势函数分解 深度学习 多智能深度强化学习
在线阅读 下载PDF
基于多智能体安全深度强化学习的电压控制 被引量:2
18
作者 曾仪 周毅 +3 位作者 陆继翔 周良才 唐宁恺 李红 《中国电力》 北大核心 2025年第2期111-117,共7页
针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时... 针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时在智能体奖励函数定义时,使用基于传统优化模型电压约束的电压屏障函数。在IEEE 33节点算例上的测试结果表明:所提方法在光伏高渗透率场景下可生成符合安全约束的电压控制策略,可用于在线辅助调度员进行实时决策。 展开更多
关键词 无功电压控制 安全深度强化学习 多智能
在线阅读 下载PDF
面向关系建模的合作多智能体深度强化学习综述 被引量:1
19
作者 熊丽琴 陈希亮 +2 位作者 赖俊 骆西建 曹雷 《计算机工程与应用》 北大核心 2025年第18期41-60,共20页
近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化... 近年来,多智能体深度强化学习发展迅速并被广泛用于各种多智能体协同任务,已经成为人工智能领域的一个研究热点,但如何实现多智能体高效协同仍是其当前面临的重大挑战之一。作为一种流行的解决方案,面向关系建模的合作多智能体深度强化学习方法通过刻画智能体与智能体、智能体与系统整体的关系来准确捕获并利用智能体的个体贡献和智能体间相互作用以有效促进多智能体协同,具有重要研究意义和应用价值。简要介绍多智能体系统中存在的关系和多智能体深度强化学习的基础知识;从关系建模层次的角度出发将面向关系建模的合作多智能体深度强化学习算法分为基于个体间关系建模、基于个体与全局间关系建模以及基于多尺度关系建模这三类,并对其基本原理及优缺点进行全面梳理;着重介绍了其在无人集群控制、任务与资源分配、智能交通运输等领域中的应用情况。最后,总结当前面临的主要挑战并对未来研究方向进行展望。 展开更多
关键词 深度强化学习 多智能强化学习 部分可观测马尔科夫决策过程 多智能协同 关系建模
在线阅读 下载PDF
远海多智能体空中对抗深度强化学习环境模型构建
20
作者 张原 王江南 +1 位作者 王伟 李璇 《航空兵器》 北大核心 2025年第3期48-56,共9页
深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实... 深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实际和仿真性能的智能体模型;遴选18维状态空间和7维动作空间,构造了包含主线和10个子目标的多元奖励体系,解决了稀疏奖励引导性差、维度空间高诱使算法难以收敛等问题,并通过仿真验证了环境的合规性、对深度强化学习经典算法的有效性,以及对主流训练框架的兼容性。 展开更多
关键词 远海远域 空中对抗 多智能 深度强化学习 JSBSim 训练环境模型
在线阅读 下载PDF
上一页 1 2 55 下一页 到第
使用帮助 返回顶部