期刊文献+
共找到488篇文章
< 1 2 25 >
每页显示 20 50 100
基于多智能体博弈强化学习的无人机智能攻击策略生成模型 被引量:1
1
作者 赵芷若 曹雷 +2 位作者 陈希亮 赖俊 章乐贵 《系统工程与电子技术》 EI CSCD 北大核心 2023年第10期3165-3171,共7页
如何利用以攻击型无人机(unmanned aerial vehicle,UAV)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术,基于马尔可夫随机博弈的基本概念,建立了基于多... 如何利用以攻击型无人机(unmanned aerial vehicle,UAV)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术,基于马尔可夫随机博弈的基本概念,建立了基于多智能体博弈强化学习的无人机智能攻击策略生成模型,并利用博弈论中“颤抖的手完美”思想提出优化方法,改进了策略模型。仿真实验表明,优化后的算法在原算法基础上有所提升,训练得到的模型可生成多种实时攻击战术,对智能化指挥控制具有较强的现实意义。 展开更多
关键词 多智能体博弈强化学习 马尔可夫随机博弈 无人机 战术策略
在线阅读 下载PDF
多智能体博弈强化学习研究综述 被引量:20
2
作者 王军 曹雷 +2 位作者 陈希亮 赖俊 章乐贵 《计算机工程与应用》 CSCD 北大核心 2021年第21期1-13,共13页
使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满... 使用深度强化学习解决单智能体任务已经取得了突破性的进展。由于多智能体系统的复杂性,普通算法无法解决其主要难点。同时,由于智能体数量增加,将最大化单个智能体的累积回报的期望值作为学习目标往往无法收敛,某些特殊的收敛点也不满足策略的合理性。对于不存在最优解的实际问题,强化学习算法更是束手无策,将博弈理论引入强化学习可以很好地解决智能体的相互关系,可以解释收敛点对应策略的合理性,更重要的是可以用均衡解来替代最优解以求得相对有效的策略。因此,从博弈论的角度梳理近年来出现的强化学习算法,总结当前博弈强化学习算法的重难点,并给出可能解决上述重难点的几个突破方向。 展开更多
关键词 多智能 强化学习 博弈
在线阅读 下载PDF
基于多智能体强化学习的博弈综述 被引量:1
3
作者 李艺春 刘泽娇 +4 位作者 洪艺天 王继超 王健瑞 李毅 唐漾 《自动化学报》 北大核心 2025年第3期540-558,共19页
多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样... 多智能体强化学习(Multi-agent reinforcement learning,MARL)作为博弈论、控制论和多智能体学习的交叉研究领域,是多智能体系统(Multi-agent systems,MASs)研究中的前沿方向,赋予智能体在动态多维的复杂环境中通过交互和决策完成多样化任务的能力.多智能体强化学习正在向应用对象开放化、应用问题具身化、应用场景复杂化的方向发展,并逐渐成为解决现实世界中博弈决策问题的最有效工具.本文对基于多智能体强化学习的博弈进行系统性综述.首先,介绍多智能体强化学习的基本理论,梳理多智能体强化学习算法与基线测试环境的发展进程.其次,针对合作、对抗以及混合三种多智能体强化学习任务,从提高智能体合作效率、提升智能体对抗能力的维度来介绍多智能体强化学习的最新进展,并结合实际应用探讨混合博弈的前沿研究方向.最后,对多智能体强化学习的应用前景和发展趋势进行总结与展望. 展开更多
关键词 多智能强化学习 多智能系统 博弈决策 均衡求解
在线阅读 下载PDF
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:2
4
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
5
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体强化学习的AMR协作任务分配方法
6
作者 张富强 张焱锐 +1 位作者 丁凯 常丰田 《郑州大学学报(工学版)》 北大核心 2025年第3期26-33,共8页
为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置... 为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置;其次,根据奖励值的大小确定任务节点的覆盖程度以及任务的完成效果;最后,在Pycharm上进行仿真,结果表明:MADDPG算法的平均奖励值较其他算法增幅为3,训练次数减少了300次,在保证求解任务分配完成度的基础上,具有更快的学习速度和更稳定的收敛过程。 展开更多
关键词 自主移动机器人 多智能 强化学习 协作 任务分配
在线阅读 下载PDF
深度强化学习下的多智能体思考型半多轮通信网络
7
作者 邹启杰 汤宇 +2 位作者 高兵 赵锡玲 张哲婕 《控制理论与应用》 北大核心 2025年第3期553-562,共10页
针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成... 针对多智能体系统在合作环境中通信内容单一和信息稀疏问题,本文提出一种基于多智能体深度强化学习的思考型通信网络(TMACN).首先,智能体在交互过程中考虑不同信息源的差异性,智能体将接收到的通信信息与自身历史经验信息进行融合,形成推理信息,并将此信息作为新的发送消息,从而达到提高通信内容多样化的目标;然后,该模型在软注意力机制的基础上设计了一种半多轮通信策略,提高了信息饱和度,从而提升系统的通信交互效率.本文在合作导航、捕猎任务和交通路口3个模拟环境中证明,TMACN对比其他方法,提高了系统的准确率与稳定性. 展开更多
关键词 多智能系统 合作环境 深度强化学习 通信网络
在线阅读 下载PDF
优先价值网络的多智能体协同强化学习算法
8
作者 苗国英 孙英博 王慧琴 《控制工程》 北大核心 2025年第4期691-698,共8页
为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进... 为了提高多智能体系统的智能决策能力,针对多智能体强化学习的经验回放存在的弊端,以及智能体决策强调动作值而忽略状态值等问题,提出一种基于优先价值网络的多智能体强化学习算法。首先,该算法引入优先经验回放机制,根据重要性权重进行经验复用,解决通过随机采样进行经验复用存在的问题;其次,该算法在智能体的值网络中引入价值优势网络形式,对比状态值与动作优势的信息,使智能体更快地学习到优势动作。多个协同场景的实验结果表明,该算法能够提升多智能体系统的学习与合作质量,使智能体更快、更好地做出决策,完成给定任务。 展开更多
关键词 多智能 强化学习 优先经验回放 价值优势网络 状态值
在线阅读 下载PDF
多智能体强化学习控制与决策研究综述 被引量:5
9
作者 罗彪 胡天萌 +3 位作者 周育豪 黄廷文 阳春华 桂卫华 《自动化学报》 北大核心 2025年第3期510-539,共30页
强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具... 强化学习作为一类重要的人工智能方法,广泛应用于解决复杂的控制和决策问题,其在众多领域的应用已展示出巨大潜力.近年来,强化学习从单智能体决策逐渐扩展到多智能体协作与博弈,形成多智能体强化学习这一研究热点.多智能体系统由多个具有自主感知和决策能力的实体组成,有望解决传统单智能体方法难以应对的大规模复杂问题.多智能体强化学习不仅需要考虑环境的动态性,还需要应对其他智能体策略的不确定性,从而增加学习和决策过程的复杂度.为此,梳理多智能体强化学习在控制与决策领域的研究,分析其面临的主要问题与挑战,从控制理论与自主决策两个层次综述现有的研究成果与进展,并对未来的研究方向进行展望.通过分析,期望为未来多智能体强化学习的研究提供有价值的参考和启示. 展开更多
关键词 强化学习 多智能系统 序列决策 协同控制 博弈
在线阅读 下载PDF
基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法 被引量:1
10
作者 徐业琰 姚良忠 +4 位作者 廖思阳 程帆 徐箭 蒲天骄 王新迎 《中国电机工程学报》 北大核心 2025年第2期513-526,I0010,共15页
为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行... 为保证新型电力系统的安全高效运行,针对模型驱动调度方法存在的调度优化模型求解困难、实时决策求解速度慢等问题,该文提出一种基于多智能体Actor-double-critic深度强化学习的源-网-荷-储实时优化调度方法。通过构建考虑调节资源运行约束和系统安全约束的实时优化调度模型和引入Vickey-Clark-Groves拍卖机制,设计带约束马尔科夫合作博弈模型,将集中调度模型转换为多智能体间的分布式优化问题进行求解。然后,提出多智能体Actor-double-critic算法,分别采用Self-critic和Cons-critic网络评估智能体的动作-价值和动作-成本,降低训练难度、避免即时奖励和安全约束成本稀疏性的影响,提高多智能体训练收敛速度,保证实时调度决策满足系统安全运行约束。最后,通过仿真算例验证所提方法可大幅缩短实时调度决策时间,实现保证系统运行安全可靠性和经济性的源-网-荷-储实时调度。 展开更多
关键词 源-网-荷-储 实时调度 带约束马尔科夫合作博弈 多智能深度强化学习
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
11
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的海上风电传感器节点能效优化
12
作者 贾林朋 王霄 +2 位作者 何志琴 吴钦木 尹曜华 《计算机应用研究》 北大核心 2025年第8期2490-2496,共7页
海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问... 海上风电场的高效运行依赖于无线传感器网络提供的监测数据。通过对现有研究中传感器节点部署与通信进行调查,指出了当前海上风电场景下无线传感器节点部署通信时能效优化研究不充分的问题。针对海上风电机组无线传感器网络的能效优化问题,设计了一种基于多智能体深度确定性策略梯度算法的优化方案。考虑了节点能量有限和特定的海上通信环境特点,通过多智能体协同优化节点的感知与通信策略,有效减少能耗并提升网络覆盖率和数据传输效率。结合自适应噪声策略、优先经验回放机制以及合理的奖励函数设计,进一步提高了算法的学习效率与能效表现。实验结果表明,所提算法相比DDPG基准算法提升了约26%的节点能效,训练速度较DDQN、SAC算法加快了33%和48%。 展开更多
关键词 海上风电 无线传感网络 能效优化 多智能深度强化学习 自适应噪声策略
在线阅读 下载PDF
多智能体强化学习驱动的主动声呐发射参数联合优化
13
作者 生雪莉 穆梦飞 +2 位作者 毕耀 高远 石冰玉 《哈尔滨工程大学学报》 北大核心 2025年第8期1557-1565,共9页
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为... 针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。 展开更多
关键词 主动声呐 水下探测 信道适配 发射参数联合优化 多智能 强化学习 奖励塑形 双深度Q网络
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
14
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于分层多智能体强化学习的雷达协同抗干扰策略优化
15
作者 王子怡 傅雄军 +1 位作者 董健 冯程 《系统工程与电子技术》 北大核心 2025年第4期1108-1114,共7页
雷达协同抗干扰决策过程中奖励存在稀疏性,导致强化学习算法难以收敛,协同训练困难。为解决该问题,提出一种分层多智能体深度确定性策略梯度(hierarchical multi-agent deep deterministic policy gradient,H-MADDPG)算法,通过稀疏奖励... 雷达协同抗干扰决策过程中奖励存在稀疏性,导致强化学习算法难以收敛,协同训练困难。为解决该问题,提出一种分层多智能体深度确定性策略梯度(hierarchical multi-agent deep deterministic policy gradient,H-MADDPG)算法,通过稀疏奖励的累积提升训练过程的收敛性能,引入哈佛结构思想分别存储多智能体的训练经验以消除经验回放混乱问题。在2部和4部雷达组网仿真中,在某种强干扰条件下,雷达探测成功率比多智能体深度确定性梯度(multi-agent deep deterministic policy gradient,MADDPG)算法分别提高了15%和30%。 展开更多
关键词 雷达抗干扰策略 分层强化学习 多智能系统 深度确定性策略梯度 稀疏奖励
在线阅读 下载PDF
基于多智能体安全深度强化学习的电压控制 被引量:2
16
作者 曾仪 周毅 +3 位作者 陆继翔 周良才 唐宁恺 李红 《中国电力》 北大核心 2025年第2期111-117,共7页
针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时... 针对分布式光伏在配电网中的高比例接入带来的电压越限和波动问题,提出了一种基于多智能体安全深度强化学习的电压控制方法。将含光伏的电压控制建模为分布式部分可观马尔可夫决策过程。在深度策略网络中引入安全层进行智能体设计,同时在智能体奖励函数定义时,使用基于传统优化模型电压约束的电压屏障函数。在IEEE 33节点算例上的测试结果表明:所提方法在光伏高渗透率场景下可生成符合安全约束的电压控制策略,可用于在线辅助调度员进行实时决策。 展开更多
关键词 无功电压控制 安全深度强化学习 多智能
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理
17
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
远海多智能体空中对抗深度强化学习环境模型构建
18
作者 张原 王江南 +1 位作者 王伟 李璇 《航空兵器》 北大核心 2025年第3期48-56,共9页
深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实... 深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。本文结合远海环境和多智能体空中对抗任务特点,构建了远海空中对抗多智能体深度强化学习训练环境。其中,基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实际和仿真性能的智能体模型;遴选18维状态空间和7维动作空间,构造了包含主线和10个子目标的多元奖励体系,解决了稀疏奖励引导性差、维度空间高诱使算法难以收敛等问题,并通过仿真验证了环境的合规性、对深度强化学习经典算法的有效性,以及对主流训练框架的兼容性。 展开更多
关键词 远海远域 空中对抗 多智能 深度强化学习 JSBSim 训练环境模型
在线阅读 下载PDF
云边协同环境下一种面向任务的多智能体强化学习任务卸载方案
19
作者 唐宁昆 王高才 《小型微型计算机系统》 北大核心 2025年第4期863-875,共13页
在云边协同计算环境中,计算任务的卸载决策问题是当前的研究热点.现有的方案通常采用单智能体强化学习算法求解该问题,存在鲁棒性低、决策空间过大等缺陷,且未考虑用户移动性、奖励延迟性以及信息观测与同步问题.针对上述不足,本文提出... 在云边协同计算环境中,计算任务的卸载决策问题是当前的研究热点.现有的方案通常采用单智能体强化学习算法求解该问题,存在鲁棒性低、决策空间过大等缺陷,且未考虑用户移动性、奖励延迟性以及信息观测与同步问题.针对上述不足,本文提出一种考虑设备局部观测能力的云边协同网络模型及任务计算队列和传输队列模型,并设计一种基于“面向任务”的多智能体强化学习的分布式卸载方案.首先,该方案给出信息同步协议以便设备获取网络全局状态,同时设计任务卸载调度规则以规定服务器在用户跨区移动和线路故障等场景下的计算和调度流程.然后,该方案以边缘服务器为智能体构建基于Actor-Critic框架的多智能体系统,给出智能体之间的协作方法,同时考虑线路故障时智能体的独立工作问题.随后为解决奖励延迟问题,本文将卸载决策问题建模为一种“面向任务”的马尔可夫决策过程,摒弃了常用的等距时隙模型,转而以任务处理时间为步长,采用动态且并行的时隙.最后以此过程为数学基础,本文提出一种任务卸载决策算法TOMAC-A2C.该算法利用多智能体强化学习思想,给出智能体之间协作完成卸载工作并相互评价以更新神经网络参数的方法,同时引入长短期记忆网络以对用户的移动性进行记忆和预测.基于来自现实世界的安卓设备移动情况数据集的实验结果表明,本文所提出的分布式卸载决策方案在面临高负载和高线路故障率时均能有效降低服务时延、能耗及任务丢弃率. 展开更多
关键词 移动边缘计算 任务卸载 深度强化学习 多智能 面向任务
在线阅读 下载PDF
基于多智能体强化学习的地铁接驳高铁客流疏散优化研究
20
作者 孙峣 柯水平 +1 位作者 贾宁 辛秀颖 《北京交通大学学报》 北大核心 2025年第4期19-28,共10页
针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,... 针对地铁接驳高铁客流疏散场景中乘客拥挤、候车时间过长及交通资源浪费等问题,提出基于多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)的地铁接驳高铁客流疏散优化方法.该方法通过动态调整地铁时刻表,提高乘客疏散效率,减少拥挤情况,并提高交通资源利用率.首先,根据地铁的时空信息及乘客换乘的时空参数,将地铁接驳高铁客流疏散优化问题建模为马尔可夫博弈过程,并设计通用状态特征、行为空间和奖励函数.然后,采用Actor-Critic(AC)框架建立多智能体的决策模型,并在集中式训练和分布式执行的框架下设计一种异步动作协同机制,以提高方法的训练效率.最后,以天津西站换乘地铁为案例进行优化研究.研究结果表明:优化地铁接驳高铁客流疏散能显著降低乘客候车时间,并提高地铁的运行效率;乘客平均候车时间减少了26.80%,地铁的平均运行效率提高了14.11%. 展开更多
关键词 多智能强化学习 地铁接驳 客流疏散 异步动作协同机制
在线阅读 下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部