期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于值函数分解的多智能体深度强化学习方法研究综述 被引量:4
1
作者 高玉钊 聂一鸣 《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页
多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和... 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述。 展开更多
关键词 多智能体深度强化学习 值函数分解 拟合能力 收敛效果 可扩展性
在线阅读 下载PDF
基于加权值函数分解的多智能体分层强化学习技能发现方法 被引量:1
2
作者 邹启杰 李文雪 +2 位作者 高兵 赵锡玲 张汝波 《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页
针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。 展开更多
关键词 多智能体强化学习 分层强化学习 集中训练分散执行 值函数分解 技能发现
在线阅读 下载PDF
基于值分解的多智能体深度强化学习综述 被引量:15
3
作者 熊丽琴 曹雷 +1 位作者 赖俊 陈希亮 《计算机科学》 CSCD 北大核心 2022年第9期172-182,共11页
基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系... 基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。 展开更多
关键词 值函数分解 多智能体深度强化学习 注意力机制 IGM原则
在线阅读 下载PDF
面向多智能体与双层卸载的车联网卸载算法 被引量:2
4
作者 张冀 龚雯雯 +1 位作者 朵春红 齐国梁 《计算机工程》 CAS CSCD 北大核心 2024年第8期182-197,共16页
在车联网(IoV)边缘计算环境中,针对如何高效地进行任务卸载和资源分配来缓解移动车辆存储和计算能力有限的问题,提出多智能体与双层卸载的IoV卸载算法。首先,提出移动边缘计算(MEC)服务器与车辆以及空闲车辆(MEC-V-NTVC)互联的3层网络模... 在车联网(IoV)边缘计算环境中,针对如何高效地进行任务卸载和资源分配来缓解移动车辆存储和计算能力有限的问题,提出多智能体与双层卸载的IoV卸载算法。首先,提出移动边缘计算(MEC)服务器与车辆以及空闲车辆(MEC-V-NTVC)互联的3层网络模型,建立了任务模型、判断模型和计算模型;其次,将任务车辆的计算卸载以及资源分配抽象成部分可观测马尔可夫决策过程(POMDP),并提出双层卸载机制以达到最小化系统总成本的目的。基于空闲车辆云以及单调值函数分解QMIX,提出一种基于双层卸载机制的深度强化学习卸载算法DLSQMIX。该算法协调任务车辆、空闲车辆以及环境信息,在考虑车辆任务时间约束的情况下,充分利用MEC服务器以及空闲车辆的计算能力,求得系统最优卸载决策。从边缘服务器、空闲车辆的计算能力、任务车辆、空闲车辆的数量以及平均任务量等方面对系统开销和时延进行对比。仿真实验结果表明,DLSQMIX算法能够有效求解任务卸载问题,与遗传算法(GA)、粒子群优化(PSO)算法以及QMIX算法相比,所提算法的系统开销减小2.52%~3.91%,时延降低3.50%~6.59%。 展开更多
关键词 车联网 边缘计算 空闲车辆云 双层卸载机制 单调值函数分解
在线阅读 下载PDF
多智能体深度强化学习的图像特征分类方法
5
作者 张泽崴 张建勋 +2 位作者 邹航 李林 南海 《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页
为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。 展开更多
关键词 多智能体 图像特征分类 深度强化学习 值函数分解
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部