期刊文献+
共找到236篇文章
< 1 2 12 >
每页显示 20 50 100
基于通信的协作型多智能体强化学习算法综述 被引量:1
1
作者 田琪 吴飞 《航天控制》 CSCD 北大核心 2023年第4期13-19,共7页
多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术是... 多智能体系统在许多实际领域中得到了广泛应用,包括机器人技术、分布式控制和多人游戏等。这些领域中的许多复杂任务无法通过预定义的智能体行为来解决,而基于通信的多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术是应对这些挑战的有效方法之一。该领域存在2个核心问题:1)如何建立有效的多智能体通信机制,从而提升多智能体系统的整体性能;2)在带宽受限的场景下,如何设计高效的通信调度方案从而压缩通信过程中冗余信息。本文首先对处理这两个核心问题的文献进行了概述并重点介绍具有代表性的一些工作,接着说明其在航天领域的应用前景,最后进行总结。 展开更多
关键词 强化学习 通信机制 多智能系统
在线阅读 下载PDF
基于平均场内生奖励的多智能体强化学习算法
2
作者 孙文绮 李大鹏 +1 位作者 田峰 丁良辉 《无线电通信技术》 2023年第3期556-565,共10页
针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidenc... 针对复杂的多智能体应用场景中只依靠根据最终目标设计的简单奖励函数无法对智能体学习策略做出有效引导的问题,提出了一种基于平均场内生奖励的多智能体强化学习(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3IR-UCRL)算法。该算法在奖励函数中增加了内生奖励模块,用生成的内生奖励与定义任务的外部奖励一起帮助代表智能体在用平均场控制(Mean-Field Control, MFC)化简的多智能体系统中学习策略。智能体学习时首先按照期望累积内外奖励加权和的梯度方向更新策略参数,然后按照期望累积外部奖励的梯度方向更新内生奖励参数。仿真结果表明,相比于只用简单外部奖励引导智能体学习的(Model-based Multi-agent Mean-field Intrinsic Reward Upper Confidence Reinforcement Learning, M3-UCRL)算法,所提算法可以有效提高智能体在复杂的多智能体场景中的任务完成率,降低与周围环境的碰撞率,从而使算法的整体性能得到提升。 展开更多
关键词 多智能系统 平均场控制 基于模型的强化学习 内生奖励
在线阅读 下载PDF
一种集群通信的多智能体强化学习算法 被引量:1
3
作者 段昶 陈亮 耿俊香 《沈阳理工大学学报》 CAS 2021年第4期11-17,共7页
人工智能中的许多任务需要多个智能体的协作,而智能体间有效通信是进行高效协作不可或缺的一步。为保证智能体间的通信高效,提出一种集群通信的多智能体强化学习算法MACDDPG,采用一种智能体集群机制将每个智能体分成不同的智能体群,只... 人工智能中的许多任务需要多个智能体的协作,而智能体间有效通信是进行高效协作不可或缺的一步。为保证智能体间的通信高效,提出一种集群通信的多智能体强化学习算法MACDDPG,采用一种智能体集群机制将每个智能体分成不同的智能体群,只允许智能体群内部的智能体进行通信;为加速收敛,采用集中训练、分散执行的框架;以多智能体粒子环境MPE为测试环境,设置多个不同的智能体相互协作来共同完成的任务。实验表明:在MPE环境中的4种任务场景下,使用MACDDPG算法比使用其他算法得分更高,且收敛速度更快;通过消融实验验证了MACDDPG算法中集群模块的有效性。 展开更多
关键词 多智能系统 集群通信 多智能协作 强化学习 信息过滤
在线阅读 下载PDF
基于多智能体强化学习的可移动基站智能规划与优化
4
作者 赵欣然 陈美娟 +1 位作者 袁志伟 朱晓荣 《电信科学》 北大核心 2025年第2期68-83,共16页
为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在... 为了在城市环境中快速部署可移动基站并实现运维优化,针对终端用户移动带来的网络覆盖率下降问题与密集部署基站带来的干扰问题,提出了一种基于多智能体强化学习的网络覆盖规划与优化方法。在部署阶段,使用粒子群与果蝇混合优化算法,在建站成本最小化的情况下确定基站最优站址;在运维阶段,设计了多智能体深度确定性策略梯度算法与轻量级梯度提升机算法的联合优化算法,根据终端接收信号强度优化站址,在性能指标仍无法达到要求时,能自动在合适位置新增基站。仿真结果表明,所提出的站址规划算法在覆盖率与服务率方面均优于传统启发式算法;所设计的联合运维优化算法在网络覆盖率恢复能力方面优于传统k均值(k-means)聚类算法,并且能适应更多场景。 展开更多
关键词 可移动基站 站址 规划 优化 多智能强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的无人平台箔条干扰末端防御动态决策方法
5
作者 李传浩 明振军 +4 位作者 王国新 阎艳 丁伟 万斯来 丁涛 《兵工学报》 北大核心 2025年第3期19-33,共15页
无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应... 无人平台箔条质心干扰是导弹末端防御的重要手段,其在平台机动和箔条发射等方面的智能决策能力是决定战略资产能否保护成功的重要因素。针对目前基于机理模型的计算分析和基于启发式算法的空间探索等决策方法存在的智能化程度低、适应能力差和决策速度慢等问题,提出基于多智能体深度强化学习的箔条干扰末端防御动态决策方法:对多平台协同进行箔条干扰末端防御的问题进行定义并构建仿真环境,建立导弹制导与引信模型、无人干扰平台机动模型、箔条扩散模型和质心干扰模型;将质心干扰决策问题转化为马尔科夫决策问题,构建决策智能体,定义状态、动作空间并设置奖励函数;通过多智能体近端策略优化算法对决策智能体进行训练。仿真结果显示,使用训练后的智能体进行决策,相比多智能体深度确定性策略梯度算法,训练时间减少了85.5%,资产保护成功率提升了3.84倍,相比遗传算法,决策时长减少了99.96%,资产保护成功率增加了1.12倍。 展开更多
关键词 无人平台 质心干扰 箔条干扰 末端防御 多智能强化学习 电子对抗
在线阅读 下载PDF
基于生成对抗网络辅助多智能体强化学习的边缘计算网络联邦切片资源管理
6
作者 林艳 夏开元 张一晋 《电子与信息学报》 北大核心 2025年第3期666-677,共12页
为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率... 为满足动态边缘计算网络场景下用户差异化服务需求,该文提出一种基于生成对抗网络(GAN)辅助多智能体强化学习(RL)的联邦切片资源管理方案。首先,考虑未知时变信道和随机用户流量到达的场景,以同时优化长期平均服务等待时延和服务满意率为目标,构建联合带宽和计算切片资源管理优化问题,并进一步建模为分布式部分可观测马尔可夫决策过程(Dec-POMDP)。其次,运用多智能体竞争双深度Q网络(D3QN)方法,结合GAN算法对状态值分布多模态学习的优势,以及利用联邦学习框架促使智能体合作学习,最终实现仅需共享各智能体生成网络加权参数即可完成切片资源管理协同决策。仿真结果表明,所提方案相较于基准方案能够在保护用户隐私的前提下,降低用户平均服务等待时延28%以上,且同时提升用户平均服务满意率8%以上。 展开更多
关键词 边缘计算 网络切片 多智能强化学习 联邦学习 生成对抗网络
在线阅读 下载PDF
基于多智能体强化学习的履带机器人摆臂控制方法
7
作者 张洪川 任君凯 +2 位作者 潘海南 梅勇 卢惠民 《兵工自动化》 北大核心 2025年第2期92-95,共4页
为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂... 为解决摆臂式履带机器人在3维环境下实现自主摆臂控制面临的挑战,提出一种基于多智能体强化学习的摆臂控制方法。将机器人的每个摆臂视为一个独立智能体,设计一套兼顾底盘稳定性和摆臂动作的奖励函数,采用多智能体强化学习训练各个摆臂运动;将所提方法部署在基于Isaac Sim搭建的3维仿真环境中,通过向每个智能体输入局部高程图和机器人状态,输出摆臂转角。实验结果表明:该方法能实现多种地形下的摆臂自主控制,在机器人自主越障方面相对于单智能体强化学习有显著提升。 展开更多
关键词 多智能强化学习 履带机器人 自主越障 摆臂自主控制
在线阅读 下载PDF
基于多智能体深度强化学习的多无人机辅助移动边缘计算轨迹设计
8
作者 徐少毅 杨磊 《北京交通大学学报》 CSCD 北大核心 2024年第5期1-9,共9页
无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度... 无人机(Unmanned Aerial Vehicle,UAV)辅助的移动边缘计算(Mobile Edge Computing,MEC)网络能够为地面用户设备(User Equipment,UE)提供优质的计算服务,但是为多无人机进行实时的轨迹设计仍是一个挑战.针对该问题,提出基于多智能体深度强化学习的轨迹设计算法,利用多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)框架对无人机的轨迹进行协作设计.考虑到无人机有限的电池容量是限制无人机网络性能的重要因素,因此以无人机的能量效率之和为优化目标构建优化问题,联合优化无人机集群的轨迹和用户设备的卸载决策.每个智能体与边缘计算网络环境进行交互并观测自己的局部状态,通过Actor网络得到轨迹坐标,联合其他智能体的动作和观测训练Critic网络,从而改善Actor网络输出的轨迹策略.仿真结果表明:基于MADDPG的无人机轨迹设计算法具有良好的收敛性和鲁棒性,能够高效地提升无人机的能量效率;所提算法性能较随机飞行算法最高可提升120%,较圆周飞行算法最高可提升20%,较深度确定性策略梯度算法可提升5%~10%. 展开更多
关键词 无人机轨迹设计 移动边缘计算 强化学习 多智能深度确定性策略梯度
在线阅读 下载PDF
基于多智能体强化学习的目标跟踪辐射方法及设计
9
作者 陈翰 张远媛 +2 位作者 何聪 朱城磊 张为 《电子器件》 CAS 2024年第2期544-551,共8页
针对分布式空间功率合成中单平台微波发射装置有最大发射功率限制的问题,提出了一种基于Friend-Q多智能强化学习的微波发射装置路径规划方法,以实现对目标施加持续4 min及以上的10 mW/cm^(2)~15 mW/cm^(2)的辐射强度。在所提方法中通过... 针对分布式空间功率合成中单平台微波发射装置有最大发射功率限制的问题,提出了一种基于Friend-Q多智能强化学习的微波发射装置路径规划方法,以实现对目标施加持续4 min及以上的10 mW/cm^(2)~15 mW/cm^(2)的辐射强度。在所提方法中通过变ε-贪婪策略平衡探索和利用的关系,同时提出一种具有选择性的输入功率方案,以减少系统耗能。通过对三种具有代表性的仿真场景进行训练,实验结果表明:(1)相比于分散远离场景和单一接近场景,路径结合场景的成功率分别提高了55.7%和120.9%,证实了微波辐射源的合理位置排布可以在很大程度上提高模型的成功率;(2)采用多智能体强化学习训练的模型相比于采用随机策略的模型,三种仿真场景中的成功率分别提高了48.8%、72%、41.8%,进一步验证了该算法的有效性。 展开更多
关键词 多智能强化学习 分布式空间功率合成 跟踪辐射 路径规划
在线阅读 下载PDF
基于多智能体深度强化学习的车联网频谱共享 被引量:1
10
作者 王为念 苏健 +2 位作者 陈勇 张建照 唐震 《电子学报》 EI CAS CSCD 北大核心 2024年第5期1690-1699,共10页
针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通... 针对高动态车联网环境中基站难以收集和管理瞬时信道状态信息的问题,提出了基于多智能体深度强化学习的车联网频谱分配算法.该算法以车辆通信延迟和可靠性约束条件下最大化网络吞吐量为目标,利用学习算法改进频谱和功率分配策略.首先通过改进DQN模型和Exp3策略训练隐式协作智能体.其次,利用迟滞性Q学习和并发体验重放轨迹解决多智能体并发学习引起的非平稳性问题.仿真结果表明,该算法有效载荷平均成功交付率可达95.89%,比随机基线算法提高了16.48%,可快速获取近似最优解,在降低车联网通信系统信令开销方面具有显著优势. 展开更多
关键词 车联网 分布式频谱共享 多智能 深度强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的多星观测任务分配方法 被引量:1
11
作者 王桢朗 何慧群 +1 位作者 周军 金云飞 《上海航天(中英文)》 CSCD 2024年第1期108-115,共8页
为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况... 为应对多星环境中复杂多约束条件下的任务分配场景,提出一种多星自主决策观测任务分配算法,该算法采用基于集中式训练、分布式执行的多智能体深度强化学习算法。通过这种方式训练后的卫星智能体,即使在没有中心决策节点或通信受限的情况下,仍具有一定的自主协同能力及独立实现多星观测任务的高效分配能力。 展开更多
关键词 多智能系统 深度强化学习 多星系统 多智能深度确定性策略梯度算法 任务规划
在线阅读 下载PDF
基于深度强化学习模型的纯电动牵引车智能充电调度系统
12
作者 曹小雄 廖伟文 李卓君 《港口装卸》 2025年第1期24-28,共5页
为提升港口纯电动牵引车充电效率,提出一种基于物联网技术和深度强化学习的智能充电调度系统。系统采用微服务架构,实现各功能模块的松耦合和高扩展性。多智能体深度强化学习模型用于智能充电调度决策,可有效降低充电等待时间,提高港口... 为提升港口纯电动牵引车充电效率,提出一种基于物联网技术和深度强化学习的智能充电调度系统。系统采用微服务架构,实现各功能模块的松耦合和高扩展性。多智能体深度强化学习模型用于智能充电调度决策,可有效降低充电等待时间,提高港口运营效率,同时满足港口作业中的实时数据服务需求。 展开更多
关键词 纯电动牵引车 智能调度 微服务 多智能 强化学习
在线阅读 下载PDF
一种基于多智能强化学习的车货匹配算法 被引量:1
13
作者 郭振华 郭钊侠 王伟 《武汉理工大学学报(交通科学与工程版)》 2024年第4期812-818,共7页
文中针对网络货运企业“多对多”车货匹配问题,基于匹配决策过程,将车货匹配问题建模为一个多智能体马尔科夫决策过程,并利用一种基于多层感知器的代理网络、全连接层的混合网络和超参数网络的多智能体强化学习算法,来模拟并优化多智能... 文中针对网络货运企业“多对多”车货匹配问题,基于匹配决策过程,将车货匹配问题建模为一个多智能体马尔科夫决策过程,并利用一种基于多层感知器的代理网络、全连接层的混合网络和超参数网络的多智能体强化学习算法,来模拟并优化多智能体马尔科夫决策过程.基于真实网络货运平台车货匹配数据和不同规模的运输路网环境进行数值实验.结果表明:所提出的算法在解决大规模车货匹配问题具有较好性能. 展开更多
关键词 车货匹配 多智能 马尔科夫决策 强化学习
在线阅读 下载PDF
基于多智能体深度强化学习的车联网资源分配方法 被引量:2
14
作者 孟水仙 刘艳超 王树彬 《无线电工程》 2024年第6期1388-1397,共10页
在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinf... 在车联网中,合理分配频谱资源对满足不同车辆链路业务的服务质量(Quality of Service,QoS)需求具有重要意义。为解决车辆高速移动性和全局状态信息获取困难等问题,提出了一种基于完全分布式多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)的资源分配算法。该算法在考虑车辆通信延迟和可靠性的情况下,通过优化频谱选择和功率分配策略来实现最大化网络吞吐量。引入共享经验池机制来解决多智能体并发学习导致的非平稳性问题。该算法基于深度Q网络(Deep Q Network,DQN),利用长短期记忆(Long Short Term Memory,LSTM)网络来捕捉和利用动态环境信息,以解决智能体的部分可观测性问题。将卷积神经网络(Convolutional Neural Network,CNN)和残差网络(Residual Network,ResNet)结合增强算法训练的准确性和预测能力。实验结果表明,所提出的算法能够满足车对基础设施(Vehicle-to-Infrastructure,V2I)链路的高吞吐量以及车对车(Vehicle-to-Vehicle,V2V)链路的低延迟要求,并且对环境变化表现出良好的适应性。 展开更多
关键词 车联网 资源分配 多智能深度强化学习 深度Q网络
在线阅读 下载PDF
多智能体强化学习方法综述 被引量:3
15
作者 陈人龙 陈嘉礼 +1 位作者 李善琦 谭营 《信息对抗技术》 2024年第1期18-32,共15页
在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前... 在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体和训练技巧。主要研究方向涵盖混合型学习方法、协同与竞争学习、通信与知识共享、适应性与鲁棒性、分层与模块化学习、基于博弈论的方法以及可解释性。未来的研究方向包括解决维度灾难问题、求解大型组合优化问题和分析多智能体强化学习算法的全局收敛性。这些研究方向将推动多智能体强化学习在实际应用中取得更大的突破。 展开更多
关键词 多智能强化学习 强化学习 多智能系统 协同 维度灾难
在线阅读 下载PDF
基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法 被引量:7
16
作者 赵知劲 朱家晟 +1 位作者 叶学义 尚俊娜 《电子与信息学报》 EI CSCD 北大核心 2022年第8期2814-2823,共10页
为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为... 为提高复杂电磁环境下跳频异步组网的抗干扰性能,该文提出一种基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(MFDRL-CTDE)算法。针对多种干扰并存的复杂电磁环境和异步组网结构,设计了相应的状态-动作空间和奖赏函数。为应对智能体之间的相互影响和动态的环境,引入集中式训练和分散式执行(CTDE)框架。该文提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各智能体的权重分配问题。采用竞争性深度Q网络算法和优先经验回放技术以提高算法的效率。仿真结果表明,该算法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。 展开更多
关键词 异步组网 多智能 深度强化学习 集中式学习和分散式执行 模糊推理系统
在线阅读 下载PDF
智能电网中基于多智能体强化学习的频谱分配算法 被引量:2
17
作者 燕锋 林晓薇 +3 位作者 李正浩 徐霞 夏玮玮 沈连丰 《通信学报》 EI CSCD 北大核心 2023年第9期12-24,共13页
针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最... 针对智能电网中利用5G网络承载多样化电力终端的业务需求,提出了一种基于多智能体强化学习的频谱分配算法。首先,基于智能电网中部署的集成接入回程系统,考虑智能电网中轻量化和非轻量化终端业务的不同通信需求,将频谱分配问题建模为最大化系统总能效的非凸混合整数规划。其次,将前述问题构建为一个部分可观测的马尔可夫决策过程并转换为完全协作的多智能体问题,进而提出了一种集中训练分布执行框架下基于多智能体近端策略优化的频谱分配算法。最后,通过仿真验证了所提算法的性能。仿真结果表明,所提算法具有更快的收敛速度,通过有效减少层内与层间干扰、平衡接入与回程链路速率,可以将系统总速率提高25.2%。 展开更多
关键词 智能电网 集成接入回程 频谱分配 多智能强化学习
在线阅读 下载PDF
基于多智能体强化学习的重载运输车队队列控制
18
作者 张海龙 赵永娟 +1 位作者 张鹏飞 董瀚萱 《兵器装备工程学报》 CAS CSCD 北大核心 2024年第8期45-50,66,共7页
重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列... 重载运输队列作为现代战争战备物资高效运输方式,有效提升运输能力并降低运输成本。现有队列控制主要关注运动控制特征,忽略了重载特种车辆自身驱动系统构型下系统动力响应特性。基于此,提出了基于多智能体强化学习的重载运输车队队列控制策略,通过控制策略自主式参数优化实现重载队列协同控制,搭建了融合长短时记忆网络的柔性动力需求引导方法,将长期规划策略与短期控制策略解耦,并分别在双层马尔科夫链迭代,建立动力总成元件工况柔性调节控制方法。标准工况试验结果表明:所提出的队列控制策略使队列行驶过程中车头时距保持在1.2 s,动力电池荷电状态维持在35%~65%,并使发动机工作在高效经济区间内,有效提升了重载运输队列的稳定性、耐久性与燃油经济性。 展开更多
关键词 队列控制 重载特种车辆 多智能强化学习 长短时记忆网络 混合动力系统
在线阅读 下载PDF
深空探测器多智能体强化学习自主任务规划
19
作者 孙泽翼 王彬 +2 位作者 胡馨月 熊新 金怀平 《深空探测学报(中英文)》 CSCD 北大核心 2024年第3期244-255,共12页
针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规... 针对深空探测器执行附着任务时各子系统协同规划自主性、快速性和自适应性的要求,提出一种基于近端策略优化方法的多智能体强化学习协同规划,将单智能体近端策略优化算法与多智能体混合式协作机制相融合,设计了一种多智能体自主任务规划模型,并引入噪声正则化优势值解决多智能体集中训练中协同策略过拟合的问题。仿真结果表明,多智能体强化学习自主任务规划方法能根据实时环境变化,对智能自主优化小天体附着任务的协作策略适时调整,与改进前的算法相比提高了任务规划成功率和规划解的质量,缩短了任务规划的时间。 展开更多
关键词 多智能强化学习 深空探测自主任务规划 近端策略优化 小天附着
在线阅读 下载PDF
基于多智能体强化学习的异构网络CRE偏置动态优化算法 被引量:1
20
作者 张铖 朱家烨 +1 位作者 刘泽宁 黄永明 《通信学报》 EI CSCD 北大核心 2023年第12期86-98,共13页
为应对无线网络用户激增导致的高吞吐量需求,针对宏微异构网络干扰场景,提出一种基于多智能体强化学习的小区范围扩展(CRE)偏置动态优化算法。基于协作多智能体强化学习的值分解网络框架,通过合理利用并在微微基站间交互系统内用户分布... 为应对无线网络用户激增导致的高吞吐量需求,针对宏微异构网络干扰场景,提出一种基于多智能体强化学习的小区范围扩展(CRE)偏置动态优化算法。基于协作多智能体强化学习的值分解网络框架,通过合理利用并在微微基站间交互系统内用户分布及其所受干扰水平,实现所有微微基站的个性化CRE偏置值在线本地化决策。仿真结果表明,与CRE=5 dB、分布式Q-Learning算法相比,所提算法在提高系统吞吐量、均衡各基站吞吐量及改善边缘用户吞吐量方面具有明显优势。 展开更多
关键词 异构网络 小区范围扩展 多智能强化学习 值分解网络算法
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部