期刊文献+
共找到605篇文章
< 1 2 31 >
每页显示 20 50 100
Task assignment in ground-to-air confrontation based on multiagent deep reinforcement learning 被引量:4
1
作者 Jia-yi Liu Gang Wang +2 位作者 Qiang Fu Shao-hua Yue Si-yuan Wang 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第1期210-219,共10页
The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to... The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to ground-to-air confrontation,there is low efficiency in dealing with complex tasks,and there are interactive conflicts in multiagent systems.This study proposes a multiagent architecture based on a one-general agent with multiple narrow agents(OGMN)to reduce task assignment conflicts.Considering the slow speed of traditional dynamic task assignment algorithms,this paper proposes the proximal policy optimization for task assignment of general and narrow agents(PPOTAGNA)algorithm.The algorithm based on the idea of the optimal assignment strategy algorithm and combined with the training framework of deep reinforcement learning(DRL)adds a multihead attention mechanism and a stage reward mechanism to the bilateral band clipping PPO algorithm to solve the problem of low training efficiency.Finally,simulation experiments are carried out in the digital battlefield.The multiagent architecture based on OGMN combined with the PPO-TAGNA algorithm can obtain higher rewards faster and has a higher win ratio.By analyzing agent behavior,the efficiency,superiority and rationality of resource utilization of this method are verified. 展开更多
关键词 Ground-to-air confrontation Task assignment General and narrow agents deep reinforcement learning Proximal policy optimization(PPO)
在线阅读 下载PDF
面向多网联无人机的MADRL协同路径规划算法
2
作者 李安 余传鑫 陈成 《西安电子科技大学学报》 北大核心 2025年第3期163-175,共13页
针对多架网联无人机执行多个动态目标点巡航监测任务的协同路径规划问题,文中提出了一种基于多智能体深度强化学习的协同动态目标分配与路径规划算法。具体而言,首先对多架CUAV对地通信系统环境建模,在CUAV与蜂窝网络通信连接约束、防... 针对多架网联无人机执行多个动态目标点巡航监测任务的协同路径规划问题,文中提出了一种基于多智能体深度强化学习的协同动态目标分配与路径规划算法。具体而言,首先对多架CUAV对地通信系统环境建模,在CUAV与蜂窝网络通信连接约束、防碰撞等移动性约束下,构建多架CUAV任务完成总时间和总中断时间加权和最小化优化问题。然后把优化问题离散化并转为马尔可夫博弈。为解决所构建的组合优化问题,提出了基于深度确定性策略梯度的系列算法,有效地处理CUAV之间的合作与竞争关系,且引入一个共享经验池,以提高算法的稳定性和学习效率。仿真实验验证了所提出的MADRL框架在多架CUAV协同路径规划的可行性、有效性和鲁棒性。研究表明:多智能体双延迟-确定策略梯度算法在动态目标位置的协同目标分配与路径规划中具有更好的效果。 展开更多
关键词 无人机 强化学习 网联无人机 多智能体深度强化学习 路径规划 动态目标分配
在线阅读 下载PDF
DP-Q(λ):大规模Web3D场景中Multi-agent实时路径规划算法 被引量:4
3
作者 闫丰亭 贾金原 《系统仿真学报》 CAS CSCD 北大核心 2019年第1期16-26,共11页
大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一... 大规模场景中Multi-agent可视化路径规划算法,需要在Web3D上实现实时、稳定的碰撞避让。提出了动态概率单链收敛回溯DP-Q(λ)算法,采用方向启发约束,使用高奖赏或重惩罚训练方法,在单智能体上采用概率p(0-1随机数)调节奖罚值,决定下一步的寻路策略,同时感知下一位置是否空闲,完成行走过程的避碰行为,将单智能体的路径规划方案扩展到多智能体路径规划方案中,并进一步在Web3D上实现了这一方案。实验结果表明:该算法实现的多智能体实时路径规划具备了在Web3D上自主学习的高效性和稳定性的要求。 展开更多
关键词 WEB3D 大规模未知环境 多智能体 强化学习 动态奖赏p 路径规划
在线阅读 下载PDF
基于多Agent深度强化学习的无人机协作规划方法 被引量:2
4
作者 王娜 马利民 +1 位作者 姜云春 宗成国 《计算机应用与软件》 北大核心 2024年第9期83-89,96,共8页
人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互... 人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互依赖关系;设计一种深度学习强化方法,解决群体行为最优策略和协同控制方法,并利用混合主动行为选择机制评估学习策略。实验结果表明:作为人机交互实例,所提方法通过深度强化学习使群体全局联合动作表现较好,学习速度和稳定性均能优于确定性策略梯度方法。同时,在跟随、自主和混合主动3种模式比较下,可以较好地控制无人机飞行路径和任务,为无人机集群任务执行提供了智能决策依据。 展开更多
关键词 agent规划 深度强化学习 无人机协同规划 混合主动行为
在线阅读 下载PDF
竞争与合作视角下的多Agent强化学习研究进展
5
作者 田小禾 李伟 +3 位作者 许铮 刘天星 戚骁亚 甘中学 《计算机应用与软件》 北大核心 2024年第4期1-15,共15页
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习... 随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。 展开更多
关键词 深度学习 强化学习 agent强化学习 环境的不稳定性
在线阅读 下载PDF
基于多智能体深度强化学习的随机事件驱动故障恢复策略 被引量:2
6
作者 王冲 石大夯 +3 位作者 万灿 陈霞 吴峰 鞠平 《电力自动化设备》 北大核心 2025年第3期186-193,共8页
为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢... 为了减少配电网故障引起的失负荷,提升配电网弹性,提出一种基于多智能体深度强化学习的随机事件驱动故障恢复策略:提出了在电力交通耦合网故障恢复中的随机事件驱动问题,将该问题描述为半马尔可夫随机决策过程问题;综合考虑系统故障恢复优化目标,构建基于半马尔可夫的随机事件驱动故障恢复模型;利用多智能体深度强化学习算法对所构建的随机事件驱动模型进行求解。在IEEE 33节点配电网与Sioux Falls市交通网形成的电力交通耦合系统中进行算例验证,结果表明所提模型和方法在电力交通耦合网故障恢复中有着较好的应用效果,可实时调控由随机事件(故障维修和交通行驶)导致的故障恢复变化。 展开更多
关键词 随机事件驱动 故障恢复 深度强化学习 电力交通耦合网 多智能体
在线阅读 下载PDF
面向DAG任务的分布式智能计算卸载和服务缓存联合优化 被引量:1
7
作者 李云 南子煜 +2 位作者 姚枝秀 夏士超 鲜永菊 《中山大学学报(自然科学版)(中英文)》 CAS 北大核心 2025年第1期71-82,共12页
建立了一种有向无环图(DAG,directed acyclic graph)任务卸载和资源优化问题,旨在应用最大可容忍时延等约束实现系统能耗最小化。考虑到网络中计算请求高度动态、完整的系统状态信息难以获取等因素,最后使用多智能体深度确定性策略梯度(... 建立了一种有向无环图(DAG,directed acyclic graph)任务卸载和资源优化问题,旨在应用最大可容忍时延等约束实现系统能耗最小化。考虑到网络中计算请求高度动态、完整的系统状态信息难以获取等因素,最后使用多智能体深度确定性策略梯度(MADDPG,multi-agent deep deterministic policy gradient)算法来探寻最优的策略。相比于现有的任务卸载算法,MADDPG算法能够降低14.2%至40.8%的系统平均能耗,并且本地缓存命中率提高3.7%至4.1%。 展开更多
关键词 移动边缘计算 多智能体深度强化学习 计算卸载 资源分配 服务缓存
在线阅读 下载PDF
多目标联合优化的车联网动态资源分配算法 被引量:2
8
作者 宋晓勤 张文静 +2 位作者 雷磊 宋铁成 赵丽屏 《东南大学学报(自然科学版)》 北大核心 2025年第1期266-274,共9页
为了解决车联网(IoV)信道高动态不确定性及多用户干扰所导致的通信传输性能下降问题,提出了一种基于多智能体增强型双深度Q网络(EDDQN)的多目标联合优化资源分配算法。首先,考虑车辆运动和信道时变特性,建立多用户干扰下频谱共享和功率... 为了解决车联网(IoV)信道高动态不确定性及多用户干扰所导致的通信传输性能下降问题,提出了一种基于多智能体增强型双深度Q网络(EDDQN)的多目标联合优化资源分配算法。首先,考虑车辆运动和信道时变特性,建立多用户干扰下频谱共享和功率控制联合优化的资源分配决策模型,在满足时延和可靠性等约束下,最小化网络时延和能耗加权和(成本);然后,将模型转换为马尔可夫决策过程(MDP),利用双深度Q网络(DDQN),并引入优先经验回放和多步学习,通过集中式训练和分布式执行,优化车间(V2V)链路的频谱共享和功率分配策略。结果表明,所提算法具有良好的收敛性,在不同负载下相较对比算法成本减少8%以上,负载传输成功率提升19%以上,有效提高了通信传输性能。 展开更多
关键词 车联网 多用户干扰 多目标联合优化 深度强化学习
在线阅读 下载PDF
MA-CDMR:多域SDWN中一种基于多智能体深度强化学习的智能跨域组播路由方法 被引量:1
9
作者 叶苗 胡洪文 +4 位作者 王勇 何倩 王晓丽 文鹏 郑基浩 《计算机学报》 北大核心 2025年第6期1417-1442,共26页
多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针... 多域软件定义无线网络(SDWN)中的跨域组播路由问题不仅是NP难组合优化问题,随着网络规模的增加和组播组成员的动态变化,构建高效的跨域组播路由路径还需要及时灵活获取和维护全局网络状态信息并设计出最优跨域组播树问题的求解算法。针对现有求解方法对网络流量状态感知性能欠缺影响组播业务对QoS方面需求的满足,并且收敛速度慢难以适应网络状态高度动态变化的问题,本文设计和实现了一种基于多智能体深度强化学习的SDWN跨域组播路由方法(MA-CDMR)。首先,设计了组播组管理模块和多控制器之间的通信机制来实现不同域之间网络状态信息的传递和同步,有效管理跨域组播组成员的加入和离开;其次,在通过理论分析和证明最优跨域组播树包括最优的域间组播树和域内组播树两个部分的结论后,本文对每个控制器设计了一个智能体,并设计了这些多智能体之间的协作机制,以保证为跨域组播路由决策提供网络状态信息表示的一致性和有效性;然后,设计一种在线与离线相结合的多智能体强化学习训练方式,以减少对实时环境的依赖并加快多智能体收敛速度;最后,通过系列实验及其结果表明所提方法在不同网络链路信息状态下具有达到了很好的网络性能,平均瓶颈带宽相较于现有KMB、SCTF、DRL-M4MR和MADRL-MR方法分别提升了7.09%、46.01%、9.61%和10.11%;平均时延在与MADRL-MR方法表现相近的同时,相比KMB、SCTF和DRL-M4MR方法有明显提升,而丢包率和组播树平均长度等也均优于这些现有方法。本文工作源代码已提交至开源平台https://github.com/GuetYe/MA-CDMR。 展开更多
关键词 组播树 软件定义无线网络 跨域组播路由 多智能体 深度强化学习
在线阅读 下载PDF
Wi-Fi7多链路通感一体化的功率和信道联合智能分配算法 被引量:1
10
作者 王靖 方旭明 《计算机应用》 北大核心 2025年第2期563-570,共8页
针对下一代Wi-Fi7设备中多链路传输时通信与感知一体化的功率和信道联合资源分配的问题,根据多链路设备(MLD)特殊的上下两层媒体接入控制层(MAC)结构,提出一种基于QMIX的联合功率控制与信道分配的多链路多智能体强化学习算法(JPCQMIX)... 针对下一代Wi-Fi7设备中多链路传输时通信与感知一体化的功率和信道联合资源分配的问题,根据多链路设备(MLD)特殊的上下两层媒体接入控制层(MAC)结构,提出一种基于QMIX的联合功率控制与信道分配的多链路多智能体强化学习算法(JPCQMIX)。该算法将MLD的每个下层MAC即每条链路作为一个智能体,并在上层MAC中设置混合网络用来处理所有下层MAC的局部值函数,以达到中心式训练的效果。训练完成后,每个下层MAC进入分布式执行模式,并独立地与它的局部环境进行交互,以进行功率控制和信道分配决策。仿真结果表明,相较于多智能体深度Q网络(MADQN)算法和传统启发式粒子群优化(PSO)算法,所提算法在通信吞吐量性能上分别提高了20.51%和29.10%;同时,所提算法在面对不同感知精度阈值和不同链路最低信干噪比(SINR)时,鲁棒性更好。可见,JPCQMIX能有效提升系统在满足感知精度条件下的通信吞吐量。 展开更多
关键词 Wi-Fi7 多链路 通信感知一体化 多智能体 深度强化学习
在线阅读 下载PDF
基于改进双智能体D3QN的电网N-1新增风险防控策略 被引量:1
11
作者 安军 黎梓聪 +2 位作者 周毅博 石岩 毕建航 《中国电机工程学报》 北大核心 2025年第3期858-869,I0005,共13页
城市电网在发生N-1故障后,极可能新增运行风险,导致N-1-1时出现大面积停电事故。为管控城市电网N-1后运行风险,该文提出一种改进双智能体竞争双深度Q网络(dueling double deep Q network,D3QN)的城市电网N-1风险管控转供策略。根据风险... 城市电网在发生N-1故障后,极可能新增运行风险,导致N-1-1时出现大面积停电事故。为管控城市电网N-1后运行风险,该文提出一种改进双智能体竞争双深度Q网络(dueling double deep Q network,D3QN)的城市电网N-1风险管控转供策略。根据风险管控原则,提出一种无需额外历史数据、考虑备自投装置、单供变电站风险和单供负荷母线风险的N-1场景指标;建立计及动作次序、指标间关系的负荷转供三阶段求解模型。以含预动作-变化探索值选择策略的改进双智能体D3QN方法,将负荷转供分为多个子转供环节学习,使转供思路清晰化,对动作空间进行降维,提高训练寻优效果,得到管控N-1风险的负荷转供策略。通过城市电网多场景算例分析,验证该文模型和方法的有效性。 展开更多
关键词 城市电网 负荷转供 深度强化学习 N-1新增风险 双智能体
在线阅读 下载PDF
基于深度强化学习的游戏智能引导算法 被引量:2
12
作者 白天 吕璐瑶 +1 位作者 李储 何加亮 《吉林大学学报(理学版)》 北大核心 2025年第1期91-98,共8页
针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输... 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能. 展开更多
关键词 深度强化学习 游戏智能体 奖励函数塑形 近端策略优化算法
在线阅读 下载PDF
基于多时间尺度协同的无蜂窝RAN切片资源分配算法
13
作者 夏玮玮 王博业 +5 位作者 夏雅星 缪巍巍 汪大洋 景栋盛 燕锋 沈连丰 《通信学报》 北大核心 2025年第7期60-77,共18页
针对6G无蜂窝无线接入网切片资源分配在业务动态变化时难以保障用户服务质量的问题,提出了一种基于多时间尺度协同优化的资源分配算法。首先,将大时间尺度的面向切片的资源配置问题构建为基于均方误差最小化且以用户平均时延为约束的资... 针对6G无蜂窝无线接入网切片资源分配在业务动态变化时难以保障用户服务质量的问题,提出了一种基于多时间尺度协同优化的资源分配算法。首先,将大时间尺度的面向切片的资源配置问题构建为基于均方误差最小化且以用户平均时延为约束的资源需求预测模型,并通过长短期记忆时序预测网络实现切片资源的精准配置。其次,将小时间尺度的面向用户的资源分配问题构建为最大化系统效用,同时保障用户传输速率服务质量指标的资源分配模型。最后,通过引入基于多智能体协作的近端策略优化算法进行资源的动态分配与实时调整。仿真结果表明,所提算法能够实现切片资源需求的准确预测,有效提高系统传输速率,降低用户平均时延和业务阻塞率。 展开更多
关键词 无蜂窝 网络切片 资源分配 多时间尺度 多智能体强化学习
在线阅读 下载PDF
基于多智能体强化学习的AMR协作任务分配方法
14
作者 张富强 张焱锐 +1 位作者 丁凯 常丰田 《郑州大学学报(工学版)》 北大核心 2025年第3期26-33,共8页
为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置... 为了解决AMR在柔性生产中运输任务的自主分配难题,采用一种基于改进多智能体强化学习算法的多智能体深度确定性策略梯度算法(MADDPG)。首先,引入注意力机制对算法进行改进,采用中心化训练分散式执行的框架,并对AMR的动作及状态进行设置;其次,根据奖励值的大小确定任务节点的覆盖程度以及任务的完成效果;最后,在Pycharm上进行仿真,结果表明:MADDPG算法的平均奖励值较其他算法增幅为3,训练次数减少了300次,在保证求解任务分配完成度的基础上,具有更快的学习速度和更稳定的收敛过程。 展开更多
关键词 自主移动机器人 多智能体 强化学习 协作 任务分配
在线阅读 下载PDF
基于分布式双层强化学习的区域综合能源系统多时间尺度优化调度
15
作者 张薇 王浚宇 +1 位作者 杨茂 严干贵 《电工技术学报》 北大核心 2025年第11期3529-3544,共16页
考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIE... 考虑异质能源在网络中的流动时间差异性,提升系统设备在不同时间尺度下调控的灵活性,是实现区域综合能源系统(RIES)多时间尺度优化调度的关键。为此,该文提出一种面向冷-热-电RIES的分布式双层近端策略优化(DBLPPO)调度模型。首先将RIES内部能源的出力、储存和转换构建高维空间的马尔可夫决策过程数学模型;其次基于改进的分布式近端策略优化算法对其进行序贯决策描述,构建内部双层近端策略优化(PPO)的控制模型,局部网络采用“先耦合-再解耦”的求解思路对冷-热力系统和电力系统的设备进行多时间尺度优化决策,最终实现RIES冷-热力系统与电力系统的多时间尺度调度和协同优化运行;最后仿真结果表明,所提模型不仅能克服深度强化学习算法在复杂随机场景下的“维数灾难”问题,实现RIES各能源网络在不同时间尺度下的协同优化管理,还能加快模型的最优决策求解速度,提高系统运行的经济效益。 展开更多
关键词 区域综合能源系统 多时间尺度 分布式双层近端策略优化 深度强化学习 协同优化管理 经济效益
在线阅读 下载PDF
奖励回溯DQN驱动的多QoS工业网络时隙调度方法
16
作者 梁炜 郑家桐 +1 位作者 张嘉麟 杨雨沱 《计算机应用研究》 北大核心 2025年第7期2141-2146,共6页
现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtra... 现有研究在多QoS(quality of service)调度问题中,由于仅依赖即时奖励反馈机制,在资源受限的场景下处理时延敏感数据和具有连续传输需求的媒体数据时,存在可扩展性差和资源浪费的问题。为此,提出了一种基于奖励回溯的DQN(reward backtracking based deep Q-network,RB-DQN)算法。该算法通过未来时刻的交互来回溯调整当前状态的策略评估,以更加有效地识别并解决因不合理调度策略导致的丢包。同时,设计了一种时延-吞吐均衡度量(latency throughput trade-off,LTT)指标,该指标综合考虑了时延敏感数据和媒体类型数据的业务需求,并可通过权重调整来突出不同的侧重点。大量仿真结果表明,与其他调度策略相比,所提算法能够有效降低时延敏感数据的延迟和抖动,同时确保媒体类型数据的流畅性与稳定性。 展开更多
关键词 时隙调度 深度强化学习 多QoS 奖励回溯
在线阅读 下载PDF
基于算子学习的多目标深度强化学习模型求解消防设施选址问题
17
作者 刘勇 刘宇轩 马良 《计算机应用研究》 北大核心 2025年第2期477-485,共9页
针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcemen... 针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcement learning,MDRL)。设计多种优化算子作为强化学习的动作空间,训练策略网络以选择最佳优化算子来改进解决方案。针对多目标问题,设计基于优势差异的方法(MDRL-AD)和基于支配性评估的方法(MDRL-DE)。采用四种规模的测试算例及实际案例进行数值实验,将MDRL和改进的NSGA-Ⅱ、MOPSO、L2I算法进行比较,并利用Hypervolume指标、Spacing指标、Ω指标、IGD指标对算法性能进行评估。实验结果表明,MDRL-AD方法更适用于求解小规模算例,MDRL-DE方法则在求解大规模和超大规模算例时相比其他算法优势明显。MDRL在非劣解集的收敛性和均匀性方面明显优于其他对比算法,为消防设施布局规划提供了一种有竞争力的解决方案。 展开更多
关键词 深度强化学习 算子学习 优化算子 多目标优化 消防设施选址问题
在线阅读 下载PDF
多特征融合的目标物体导航方法
18
作者 毕盛 林华伟 董敏 《电子科技大学学报》 北大核心 2025年第3期401-410,共10页
目标物体导航是在未知的环境中根据视觉观察到达预期的目标物体。其中,如何从视觉观察中找到目标物体的方向是至关重要的。针对这一问题,提出一种基于多特征融合的目标物体导航方法。该方法通过特征融合模块融合包含导航环境整体信息、... 目标物体导航是在未知的环境中根据视觉观察到达预期的目标物体。其中,如何从视觉观察中找到目标物体的方向是至关重要的。针对这一问题,提出一种基于多特征融合的目标物体导航方法。该方法通过特征融合模块融合包含导航环境整体信息、局部信息的视觉特征和指代目标物体语义的文本特征,得到表征导航方向的方向特征和导航环境的环境特征,将视觉表示与导航方向相关联,从而指导导航动作的生成,约束代理朝目标物体方向导航,提高模型的导航成功率和效率。AI2-Thor数据集上的实验表明,和基准模型对比,导航成功率SR提升11.7%、导航成功路径长度加权比率SPL提升0.093;和目前先进的方法对比,SR提升2.1%、SPL提升0.008。实验结果证明了该方法的准确性和高效性。 展开更多
关键词 目标物体导航 多特征融合 多头注意力机制 深度强化学习
在线阅读 下载PDF
多智能体近端策略优化的动态武器目标分配
19
作者 宫华 王智昕 +1 位作者 许可 张勇 《兵器装备工程学报》 北大核心 2025年第7期93-104,共12页
针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能... 针对地对空防御作战中武器与目标之间的动态关系,以及多类型武器协同作战的复杂性,研究了动态武器目标分配问题。考虑防护效能与成本之间的冲突关系,以最大化资产生存概率和最小化武器消耗成本为目标,结合武器制导能力、软杀伤武器充能特性、时间窗等关键约束,建立了多作战单元协同的动态武器目标分配优化模型。基于策略熵和随机噪声策略设计了改进的多智能体近端策略优化算法进行求解。实验仿真验证了所提出算法的有效性。 展开更多
关键词 地对空防御 动态武器目标分配 多智能体强化学习 近端策略优化 策略熵 随机噪声
在线阅读 下载PDF
基于GCN-LSTM的多交叉口信号灯控制
20
作者 徐东伟 朱宏俊 +2 位作者 郭海锋 周晓刚 汤立新 《高技术通讯》 北大核心 2025年第5期472-479,共8页
强化学习(reinforcement learning,RL)由于其解决高度动态环境中复杂决策问题的能力,成为信号灯控制中一种具有前景的解决方案。大多数基于强化学习的方法独立生成智能体的动作,它们可能导致交叉口的动作冲突、道路资源浪费。因此,本文... 强化学习(reinforcement learning,RL)由于其解决高度动态环境中复杂决策问题的能力,成为信号灯控制中一种具有前景的解决方案。大多数基于强化学习的方法独立生成智能体的动作,它们可能导致交叉口的动作冲突、道路资源浪费。因此,本文提出了基于图卷积网络和长短期记忆(graph convolution network-long short-term memory,GCNLSTM)的多交叉口信号灯控制方法。首先,基于二进制权重网络对多交叉口进行构图。其次,通过图卷积网络聚合周围交叉口的空间状态信息,利用长短期记忆(long short-term memory,LSTM)获得交叉口的历史状态信息。最后,通过基于竞争网络框架的Q值网络进行动作的选择,实现对交叉口相位的控制。实验结果表明,与其他强化学习方法相比,本文方法在多交叉口的信号灯控制中能够减少交叉口的队列长度,并使道路网络中的车辆获得更少的等待时间。 展开更多
关键词 智能交通系统 交通信号灯控制 多智能体强化学习 长短期记忆 图卷积网络
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部