检索结果-维普期刊中文期刊服务平台

基于值函数分解的多智能体深度强化学习方法研究综述被引量：4: 1; 作者高玉钊聂一鸣《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页; 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和... 展开更多; 关键词多智能体深度强化学习值函数分解拟合能力收敛效果可扩展性; 在线阅读下载PDF 职称材料

基于加权值函数分解的多智能体分层强化学习技能发现方法被引量：1: 2; 作者邹启杰李文雪 +2 位作者高兵赵锡玲张汝波《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页; 针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化... 展开更多; 关键词多智能体强化学习分层强化学习集中训练分散执行值函数分解技能发现; 在线阅读下载PDF 职称材料

基于值分解的多智能体深度强化学习综述被引量：15: 3; 作者熊丽琴曹雷 +1 位作者赖俊陈希亮《计算机科学》 CSCD 北大核心 2022年第9期172-182,共11页; 基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系... 展开更多; 关键词值函数分解多智能体深度强化学习注意力机制 IGM原则; 在线阅读下载PDF 职称材料

面向多智能体与双层卸载的车联网卸载算法被引量：2: 4; 作者张冀龚雯雯 +1 位作者朵春红齐国梁《计算机工程》 CAS CSCD 北大核心 2024年第8期182-197,共16页; 在车联网(IoV)边缘计算环境中,针对如何高效地进行任务卸载和资源分配来缓解移动车辆存储和计算能力有限的问题,提出多智能体与双层卸载的IoV卸载算法。首先,提出移动边缘计算(MEC)服务器与车辆以及空闲车辆(MEC-V-NTVC)互联的3层网络模... 展开更多; 关键词车联网边缘计算空闲车辆云双层卸载机制单调值函数分解; 在线阅读下载PDF 职称材料

多智能体深度强化学习的图像特征分类方法: 5; 作者张泽崴张建勋 +2 位作者邹航李林南海《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页; 为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个... 展开更多; 关键词多智能体图像特征分类深度强化学习值函数分解; 在线阅读下载PDF 职称材料

题名基于值函数分解的多智能体深度强化学习方法研究综述被引量：4: 1; 作者高玉钊聂一鸣; 机构军事科学院国防科技创新研究院; 出处《计算机科学》 CSCD 北大核心 2024年第S01期22-30,共9页; 文摘多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点。文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述。; 关键词多智能体深度强化学习值函数分解拟合能力收敛效果可扩展性; Keywords Multi-agent deep reinforcement learning Value function factorization Fitting ability Convergence effect Scalability; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于加权值函数分解的多智能体分层强化学习技能发现方法被引量：1: 2; 作者邹启杰李文雪高兵赵锡玲张汝波; 机构大连大学信息工程学院大连民族大学机电工程学院; 出处《计算机应用研究》 CSCD 北大核心 2023年第9期2743-2748,2754,共7页; 基金国家自然科学基金资助项目(61673084) 2021年辽宁省教育厅项目(LJKZ1180)。; 文摘针对目前大多数多智能体强化学习算法在智能体数量增多以及环境动态不稳定的情况下导致的维度爆炸和奖励稀疏的问题,提出了一种基于加权值函数分解的多智能体分层强化学习技能发现算法。首先,该算法将集中训练分散执行的架构与分层强化学习相结合,在上层采用加权值函数分解的方法解决智能体在训练过程中容易忽略最优策略而选择次优策略的问题;其次,在下层采用独立Q学习算法使其能够在多智能体环境中分散式地处理高维复杂的任务;最后,在底层独立Q学习的基础上引入技能发现策略,使智能体之间相互学习互补的技能。分别在简易团队运动和星际争霸Ⅱ两个仿真实验平台上对该算法与多智能体强化学习算法和分层强化学习算法进行对比,实验表明,该算法在奖励回报以及双方对抗胜率等性能指标上都有所提高,提升了整个多智能体系统的决策能力和收敛速度,验证了算法的可行性。; 关键词多智能体强化学习分层强化学习集中训练分散执行值函数分解技能发现; Keywords multi-agent reinforcement learning hierarchical reinforcement learning centralized training decentralized execution value function decomposition skill discovery; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名基于值分解的多智能体深度强化学习综述被引量：15: 3; 作者熊丽琴曹雷赖俊陈希亮; 机构陆军工程大学指挥控制工程学院; 出处《计算机科学》 CSCD 北大核心 2022年第9期172-182,共11页; 文摘基于值分解的多智能体深度强化学习是众多多智能体深度强化学习算法中的一类,也是多智能体深度强化学习领域的一个研究热点。它利用某种约束将多智能体系统的联合动作值函数分解为个体动作值函数的某种特定组合,能够有效解决多智能体系统中的环境非稳定性和动作空间指数爆炸等问题。文中首先说明了进行值函数分解的原因;其次,介绍了多智能体深度强化学习的基本理论;接着根据是否引入其他机制以及引入机制的不同将基于值分解的多智能体深度强化学习算法分为3类:简单因子分解型、基于IGM(个体-全局-最大)原则型以及基于注意力机制型;然后按分类重点介绍了几种典型算法并对算法的优缺点进行对比分析;最后简要阐述了所提算法的应用和发展前景。; 关键词值函数分解多智能体深度强化学习注意力机制 IGM原则; Keywords Factorization of value function MADRL Attention mechanism Principle of IGM; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名面向多智能体与双层卸载的车联网卸载算法被引量：2: 4; 作者张冀龚雯雯朵春红齐国梁; 机构华北电力大学(保定)计算机系华北电力大学(保定)河北省能源电力知识计算重点实验室; 出处《计算机工程》 CAS CSCD 北大核心 2024年第8期182-197,共16页; 基金河北省省级科技计划资助(22310302D) 中央高校基本科研业务费专项资金(2021MS086)。; 文摘在车联网(IoV)边缘计算环境中,针对如何高效地进行任务卸载和资源分配来缓解移动车辆存储和计算能力有限的问题,提出多智能体与双层卸载的IoV卸载算法。首先,提出移动边缘计算(MEC)服务器与车辆以及空闲车辆(MEC-V-NTVC)互联的3层网络模型,建立了任务模型、判断模型和计算模型;其次,将任务车辆的计算卸载以及资源分配抽象成部分可观测马尔可夫决策过程(POMDP),并提出双层卸载机制以达到最小化系统总成本的目的。基于空闲车辆云以及单调值函数分解QMIX,提出一种基于双层卸载机制的深度强化学习卸载算法DLSQMIX。该算法协调任务车辆、空闲车辆以及环境信息,在考虑车辆任务时间约束的情况下,充分利用MEC服务器以及空闲车辆的计算能力,求得系统最优卸载决策。从边缘服务器、空闲车辆的计算能力、任务车辆、空闲车辆的数量以及平均任务量等方面对系统开销和时延进行对比。仿真实验结果表明,DLSQMIX算法能够有效求解任务卸载问题,与遗传算法(GA)、粒子群优化(PSO)算法以及QMIX算法相比,所提算法的系统开销减小2.52%~3.91%,时延降低3.50%~6.59%。; 关键词车联网边缘计算空闲车辆云双层卸载机制单调值函数分解; Keywords Internet of Vehicle(IoV) edge computing non-task vehicle cloud double-layer offloading mechanism monotonic value function factorization; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名多智能体深度强化学习的图像特征分类方法: 5; 作者张泽崴张建勋邹航李林南海; 机构重庆理工大学计算机科学与工程学院; 出处《计算机工程与应用》 CSCD 北大核心 2024年第7期222-228,共7页; 基金重庆市教育委员会科学技术研究计划项目(KJQN201901133)。; 文摘为解决在图像特征识别分类等机器学习任务中,存在输入图像数据复杂度过高且与部分数据与特征无关的问题,提出了一种多智能体深度强化学习的图像特征分类方法。将图像特征分类任务转化为一个部分可观测的马尔可夫决策过程。通过使用多个移动的同构智能体去收集部分图像信息,并研究智能体如何形成对图像的局部理解并采取行动,以及如何从局部观察的图像中提取相关特征并分类,以此降低数据复杂性和过滤掉不相关数据。通过改进的值函数分解方法训练智能体策略网络,对环境的全局回报按照每个智能体的贡献进行拆分,解决智能体的信度分配问题。该方法在MNIST手写数字数据集和NWPU-RESISC45遥感图像数据集上进行了验证,相比基线算法能够学习到更加有效的联合策略,分类过程拥有更好的稳定性,同时精确率也有提升。; 关键词多智能体图像特征分类深度强化学习值函数分解; Keywords multi-agent image feature classification deep reinforcement learning value function decomposition; 分类号 TP181 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于值函数分解的多智能体深度强化学习方法研究综述	高玉钊聂一鸣	《计算机科学》 CSCD 北大核心	2024	4	在线阅读下载PDF 职称材料
2	基于加权值函数分解的多智能体分层强化学习技能发现方法	邹启杰李文雪高兵赵锡玲张汝波	《计算机应用研究》 CSCD 北大核心	2023	1	在线阅读下载PDF 职称材料
3	基于值分解的多智能体深度强化学习综述	熊丽琴曹雷赖俊陈希亮	《计算机科学》 CSCD 北大核心	2022	15	在线阅读下载PDF 职称材料
4	面向多智能体与双层卸载的车联网卸载算法	张冀龚雯雯朵春红齐国梁	《计算机工程》 CAS CSCD 北大核心	2024	2	在线阅读下载PDF 职称材料
5	多智能体深度强化学习的图像特征分类方法	张泽崴张建勋邹航李林南海	《计算机工程与应用》 CSCD 北大核心	2024	0	在线阅读下载PDF 职称材料