期刊文献+
共找到479篇文章
< 1 2 24 >
每页显示 20 50 100
基于价值函数分解和通信学习机制的异构多智能体强化学习方法 被引量:1
1
作者 杜威 丁世飞 +2 位作者 郭丽丽 张健 丁玲 《计算机学报》 EI CAS CSCD 北大核心 2024年第6期1304-1322,共19页
许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习... 许多现实世界的系统可以被建模为多智能体系统,多智能体强化学习为开发这些系统提供了一种有效的方法,其中基于集中训练与分散执行范式的价值函数分解方法得到了广泛的研究.然而现有的价值分解方法一般缺乏通信机制,在处理需要通信学习的多智能体任务时表现不佳.同时,目前大多数通信机制都是针对同构多智能体环境设计的,没有考虑异构多智能体场景.在异构场景中,由于智能体动作空间或观测空间的异构性,智能体之间的信息共享并不直接.如果不能对智能体的异构性进行有效地建模处理,通信机制将变得无效,甚至会影响多智能体的协作性能.为了应对这些挑战,本文提出一个融合价值函数分解和通信学习机制的异构多智能体强化学习框架.具体地:(1)与采用同构图卷积网络的方法不同,该框架利用异构图卷积网络融合智能体的异构特征信息得到有效的嵌入;(2)利用通信学习模块获得的嵌入信息和局部观测历史计算每个智能体的动作价值,以选择和协调智能体的动作;(3)通过设计的互信息损失函数和价值函数分解模块的损失函数联合训练,能够有效地训练整个方法.本文首先在两个异构多智能体平台上进行实验,实验结果表明该方法能学到比基线方法更有效的策略,在两个平台上相比基线方法分别提高了 13%的平均奖励值和24%的平均胜率.此外,在交通信号控制场景中验证了该方法在现实系统中的可行性. 展开更多
关键词 价值函数分解 异构多智能体强化学习 通信机制 图神经网络 互信息 交通信号控制
在线阅读 下载PDF
数字孪生架构下基于GAN增强的多智能体深度强化学习边缘推理与异构资源协同优化
2
作者 袁晓铭 田汉森 +4 位作者 黄锟达 邓庆绪 康嘉文 李长乐 段续庭 《计算机学报》 北大核心 2025年第8期1763-1780,共18页
边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Ser... 边缘侧大模型应用正成为推动智能健康、智慧城市等领域智能化与数字化进程的关键驱动力。然而,大模型海量智能任务异构性和高动态网络的不可预测性,使得边缘设备有限的算力资源难以满足复杂推理任务对高效且可靠服务质量(Quality of Service,QoS)的需求。因此本文提出了一种基于生成对抗网络(Generative Adversarial Network,GAN)增强的多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的边缘推理与异构资源协同优化方法,以实现数字孪生(Digital Twin,DT)驱动的边缘侧大模型赋能系统中异构资源的动态负载均衡,确保推理任务高效性与可靠性。首先,本文构建并分析了DT驱动的边缘侧大模型系统中的物理网络层和孪生网络层,并采用GAN实现对物理实体的孪生映射,从而对海量异构边缘数据进行分布式处理、生成与优化。接着,利用MADRL算法来对系统中的异构资源进行综合量化与协同优化,并将边缘推理数据反馈至MADRL算法中以减少集中式训练过程中的数据通信开销。同时,借助于联邦学习,该架构能够实现多方知识共享,从而有效提升模型训练速度与性能。最后,仿真结果表明,该算法能够在动态复杂大模型赋能边缘系统环境中有效降低推理任务的时延和能耗,充分利用有限的系统资源,确保推理任务的高效性,并提升智能服务的质量。 展开更多
关键词 边缘侧大模型 数字孪生 移动边缘计算 多智能深度强化学习 生成对抗网络 联邦学习
在线阅读 下载PDF
基于博弈共识的异构多智能体分布式强化学习方法
3
作者 何杏宇 高锦 杨桂松 《计算机应用研究》 北大核心 2025年第9期2676-2682,共7页
现有的异构多智能体分布式强化学习方法往往采用统一的状态和动作空间定义,很难体现异构智能各自的特点,且无法实现异构智能体对任务环境的自适应优势互补与竞争。然而采用差异化的状态和动作空间定义又会给异构智能体之间的共识带来挑... 现有的异构多智能体分布式强化学习方法往往采用统一的状态和动作空间定义,很难体现异构智能各自的特点,且无法实现异构智能体对任务环境的自适应优势互补与竞争。然而采用差异化的状态和动作空间定义又会给异构智能体之间的共识带来挑战。为了实现异构多智能体的协同工作,针对车机异构协同场景提出一种基于博弈共识的异构多智能体分布式强化学习方法。首先,为了实现车机自适应能耗互补,该方法为无人机定义了区别于车辆的分层动作策略网络,其中,上层动作可以实现无人机在执行任务和充电行为之间的自适应切换,充电行为对应的底层动作是对辅助无人机充电的车辆进行选择。另外,为了在交通拥塞情况下发挥车机各自的差异化竞争优势,该方法设计基于GS(Gale-Shapley)算法的博弈共识机制,定义与拥堵参数相关的激励因子以实现对车机的差异化任务参与引导,并根据激励因子进一步进行成本估计,以最终实现任务执行效率和平台成本的双重优化。实验结果表明,相比于现有方法,该方法在完成所有任务时所需的时间平均减少了7.58%,智能体的能量消耗平均降低了10.05%,证明该方法在效率和能耗方面更具优势。 展开更多
关键词 异构智能 任务分配 博弈论 强化学习
在线阅读 下载PDF
基于强化学习的异构多智能体系统最优输出调节
4
作者 熊春萍 马倩 《控制理论与应用》 北大核心 2025年第3期491-498,共8页
本文研究了异构多智能体系统的最优输出调节问题.通信网络拓扑含有向生成树.首先,设计了外部系统状态补偿器和状态反馈控制器,应用图论和Lyapunov稳定性理论证明了所设计的补偿器和控制器可以解决一般输出调节问题.然后,通过最小化预定... 本文研究了异构多智能体系统的最优输出调节问题.通信网络拓扑含有向生成树.首先,设计了外部系统状态补偿器和状态反馈控制器,应用图论和Lyapunov稳定性理论证明了所设计的补偿器和控制器可以解决一般输出调节问题.然后,通过最小化预定义的成本方程,解决最优输出调节问题.结合最优控制理论和强化学习技术,提出了两种求解最优控制器的算法,即基于模型的策略迭代算法和无模型off-policy算法.利用无模型算法获取最优控制器的过程既不需要求解输出调节方程也不需要使用系统动态信息.最后,通过数值仿真验证了本文所提出的算法的有效性. 展开更多
关键词 异构多智能系统 最优输出调节 策略迭代 无模型算法 强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:3
5
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
6
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的大容量电池储能电站功率分配策略
7
作者 彭寒梅 赵长桥 +2 位作者 谭貌 陈颉 李辉 《南方电网技术》 北大核心 2025年第9期82-93,共12页
大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基... 大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。 展开更多
关键词 电池储能电站 功率分配 多智能 深度强化学习 SOC一致性
在线阅读 下载PDF
基于多智能体强化学习的AMR协作任务分配方法
8
作者 张富强 张焱锐 +1 位作者 丁凯 常丰田 《郑州大学学报(工学版)》 北大核心 2025年第3期26-33,共8页
为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置... 为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置;其次,根据奖励值的大小确定任务节点的覆盖程度以及任务的完成效果;最后,在Pycharm上进行仿真,结果表明:MADDPG算法的平均奖励值较其他算法增幅为3,训练次数减少了300次,在保证求解任务分配完成度的基础上,具有更快的学习速度和更稳定的收敛过程。 展开更多
关键词 自主移动机器人 多智能 强化学习 协作 任务分配
在线阅读 下载PDF
面向匝道合流场景的多智能体强化学习SAG-MAPPO安全协同决策方法
9
作者 张树培 庞莹 +2 位作者 孙朋举 张玮 王玲德 《重庆理工大学学报(自然科学)》 北大核心 2025年第9期45-52,共8页
针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决... 针对匝道合流场景中智能网联汽车(CAVs)与人类驾驶车辆(HDVs)在多车协同决策时,因局部可观测性以及动态环境不确定性导致的安全与效率问题,提出一种基于时序记忆和安全约束机制的多智能体近端策略优化(SAG-MAPPO)算法。建立匝道协同决策场景的分布式部分可观测马尔可夫决策(Dec-POMDP)模型,通过引入门控循环单元(gated recurrent unit,GRU)处理车辆状态的历史信息,解决环境局部观测性导致的策略不稳定问题。在此基础上,设计包含硬性规则约束和动态行为预测的双层安全机制,实时屏蔽危险动作,确保决策输出的安全性。仿真结果表明,SAG-MAPPO在不同密度的匝道协同合流场景下均表现出更快的收敛速度、更高的策略累计奖励和平均速度,验证了其在复杂动态场景下的有效性。 展开更多
关键词 匝道合流 自动驾驶 深度强化学习 多智能近端策略优化 决策
在线阅读 下载PDF
深度强化学习下的多智能体思考型半多轮通信网络
10
作者 邹启杰 汤宇 +2 位作者 高兵 赵锡玲 张哲婕 《控制理论与应用》 北大核心 2025年第3期553-562,共10页
针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成... 针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成推理信息,并将此信息作为新的发送消息,从而达到提高通信内容多样化的目标;然后,该模型在软注意力机制的基础上设计了一种半多轮通信策略,提高了信息饱和度,从而提升系统的通信交互效率.本文在合作导航、捕猎任务和交通路口3个模拟环境中证明,TMACN对比其他方法,提高了系统的准确率与稳定性. 展开更多
关键词 多智能系统 合作环境 深度强化学习 通信网络
在线阅读 下载PDF
优先价值网络的多智能体协同强化学习算法
11
作者 苗国英 孙英博 王慧琴 《控制工程》 北大核心 2025年第4期691-698,共8页
为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进... 为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进行经验复用,解决通过随机采样进行经验复用存在的问题;其次,该算法在智能体的值网络中引入价值优势网络形式,对比状态值与动作优势的信息,使智能体更快地学习到优势动作。多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快、更好地做出决策,完成给定任务。 展开更多
关键词 多智能 强化学习 优先经验回放 价值优势网络 状态值
在线阅读 下载PDF
基于多智能体强化学习的博弈综述 被引量:4
12
作者 李艺春 刘泽娇 +4 位作者 洪艺天 王继超 王健瑞 李毅 唐漾 《自动化学报》 北大核心 2025年第3期540-558,共19页
多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样... 多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 展开更多
关键词 多智能强化学习 多智能系统 博弈决策 均衡求解
在线阅读 下载PDF
多智能体强化学习控制与决策研究综述 被引量:8
13
作者 罗彪 胡天萌 +3 位作者 周育豪 黄廷文 阳春华 桂卫华 《自动化学报》 北大核心 2025年第3期510-539,共30页
强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具... 强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具有自主感知和决策能力的实体组成,有望解决传统单智能体方法难以应对的大规模复杂问题.多智能体强化学习不仅需要考虑环境的动态性,还需要应对其他智能体策略的不确定性,从而增加学习和决策过程的复杂度.为此,梳理多智能体强化学习在控制与决策领域的研究,分析其面临的主要问题与挑战,从控制理论与自主决策两个层次综述现有的研究成果与进展,并对未来的研究方向进行展望.通过分析,期望为未来多智能体强化学习的研究提供有价值的参考和启示. 展开更多
关键词 强化学习 多智能系统 序列决策 协同控制 博弈论
在线阅读 下载PDF
基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法 被引量:3
14
作者 徐业琰 姚良忠 +4 位作者 廖思阳 程帆 徐箭 蒲天骄 王新迎 《中国电机工程学报》 北大核心 2025年第2期513-526,I0010,共15页
为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行... 为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。 展开更多
关键词 源-网-荷-储 实时调度 带约束马尔科夫合作博弈 多智能深度强化学习
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理 被引量:2
15
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
基于多智能体强化学习的电-碳-绿证耦合市场下多市场主体行为研究 被引量:1
16
作者 周飞航 王灏 +5 位作者 王海利 王萌 金耀杰 李重春 张忠德 王鹏 《中国电力》 北大核心 2025年第4期44-55,共12页
建立全国碳排放权交易市场和绿证市场是中国实现“双碳”目标的重要策略之一。然而,现有研究多从经济角度分析市场耦合关系,忽视了电力网络的物理约束以及新能源出力不确定性对市场协同优化的影响,且没有考虑电力用户进入碳市场的情况... 建立全国碳排放权交易市场和绿证市场是中国实现“双碳”目标的重要策略之一。然而,现有研究多从经济角度分析市场耦合关系,忽视了电力网络的物理约束以及新能源出力不确定性对市场协同优化的影响,且没有考虑电力用户进入碳市场的情况。针对这一不足,提出了一种基于物理网络节点的电-碳-绿证耦合市场双层优化模型,分析碳市场扩容背景下市场主体行为及耦合机制的变化。模型在电网物理拓扑结构的基础上,引入电力用户参与碳市场的决策机制,并结合绿证与碳配额的抵消规则,探索线路阻塞对市场主体决策的影响。使用蒙西地区新能源机组实际出力数据,验证所提模型的合理性与有效性。结果表明:电力用户纳入碳市场可显著提升耦合市场的整体收益;线路阻塞对市场主体行为及市场收益具有重要影响;在碳配额充裕条件下,引入碳证抵消机制能够进一步优化市场效率。 展开更多
关键词 碳排放权交易市场 绿证市场 耦合市场双层优化模型 多智能强化学习 线路阻塞 碳证抵消机制
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
17
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的海上风电传感器节点能效优化
18
作者 贾林朋 王霄 +2 位作者 何志琴 吴钦木 尹曜华 《计算机应用研究》 北大核心 2025年第8期2490-2496,共7页
海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问... 海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问题,设计了一种基于多智能体深度确定性策略梯度算法的优化方案。考虑了节点能量有限和特定的海上通信环境特点,通过多智能体协同优化节点的感知与通信策略,有效减少能耗并提升网络覆盖率和数据传输效率。结合自适应噪声策略、优先经验回放机制以及合理的奖励函数设计,进一步提高了算法的学习效率与能效表现。实验结果表明,所提算法相比DDPG基准算法提升了约26%的节点能效,训练速度较DDQN、SAC算法加快了33%和48%。 展开更多
关键词 海上风电 无线传感网络 能效优化 多智能深度强化学习 自适应噪声策略
在线阅读 下载PDF
基于多智能体深度强化学习的主动配电网电压调控策略
19
作者 黄煜 张潇潇 +3 位作者 岳东 胡松林 王娟 李祝昆 《电力系统自动化》 北大核心 2025年第18期65-73,共9页
针对高比例分布式光伏并网导致的配电网电压越限问题,提出了一种基于改进深度确定性策略梯度算法的电压调控策略。首先,文中提出基于方差的改进自适应噪声奖励函数,以动态调节智能体在环境中不同方差区域的学习能力,有效缓解策略偏差问... 针对高比例分布式光伏并网导致的配电网电压越限问题,提出了一种基于改进深度确定性策略梯度算法的电压调控策略。首先,文中提出基于方差的改进自适应噪声奖励函数,以动态调节智能体在环境中不同方差区域的学习能力,有效缓解策略偏差问题。然后,将评价函数由确定值形式转换为概率分布形式,以提升智能体对不确定性环境的适应能力。最后,引入N步回报方法,通过在贝尔曼方程中添加N步的奖励值,提升智能体对长期效益的评估能力。IEEE 123节点配电系统的仿真结果表明,所提策略在降低电压越限率、减少网络损耗以及增强复杂运行环境中的策略泛化能力方面具有显著优势。 展开更多
关键词 主动配电网 分布式光伏 深度强化学习 智能 电压调控 数据驱动 马尔可夫决策过程
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
20
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部