题名 开放分布式对象系统中的通信智能体
被引量:3
1
作者
李巧云
李健东
康卓
戴大为
康立山
机构
武汉大学计算机科学系软件工程国家重点实验室
出处
《软件学报》
EI
CSCD
北大核心
1997年第3期235-240,共6页
文摘
本文提出了一种新的通信智能体,称为通用对象请求智能体,通过超时技术提高开放分布式对象系统的客户/服务器模型通信的可靠性.本文提出通信智能体模型的目的在于提高请求的可靠性.在这个模型中,应用由时间段事务处理支持的反馈机制,对服务器完成请求的过程有更大的控制能力,并且客户以超时操作作为避免死亡的最后手段。
关键词
通信智能体
超时
ODOS
软件工程
Keywords
Communication agent, time out, timesegment, reliability, client/server model.
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
题名 基于图注意力的分组多智能体强化学习方法
2
作者
朱士昊
彭可兴
马廷淮
机构
南京信息工程大学软件学院
南京信息工程大学计算机学院
江苏海洋大学计算机工程学院
出处
《计算机科学》
北大核心
2025年第9期330-336,共7页
基金
国家自然科学基金(62372243,62102187)。
文摘
目前,多智能体强化学习在各类合作任务中被广泛应用。但在真实环境中,智能体通常只能获取部分观测值,导致合作策略的探索效率低下。此外,智能体共享奖励值,导致其难以准确衡量个体贡献。针对这些问题,提出一种基于图注意力的分组多智能体强化学习框架,其有效提高了合作效率并改善了个体贡献的衡量。首先,构建图结构的多智能体系统,通过图注意力网络学习个体与邻居的关系以进行信息共享,扩大智能体个体的感受野,从而缓解部分可观测的限制并有效衡量个体贡献。其次,设计了动作参考模块,为个体动作选择提供联合动作参考信息,使智能体在探索时更高效、多样。在两个不同规模的多智能体控制场景下,所提方法相比基线方法展现出显著的优势;同时,消融实验证明了图注意力分组方法和通信设置的有效性。
关键词
多智能 体 强化学习
图注意力网络
集中训练分散执行
多智能 体 协作
多智能 体 通信
Keywords
Multi-agent reinforcement learning
Graph attention network
Centralized training decentralized execution
Multi-agent cooperation
Multi-agent communication
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于角色学习的多智能体强化学习方法
3
作者
沈思彤
王耀吾
谢在鹏
唐斌
机构
河海大学计算机与软件学院
出处
《计算机工程》
北大核心
2025年第6期102-115,共14页
基金
水灾害防御全国重点实验室“一带一路”水与可持续发展科技基金(2021490811)
国家自然科学基金青年科学基金项目(62102131)。
文摘
多智能体强化学习(MARL)在解决复杂协作任务中具有重要作用。然而,传统方法在动态环境和信息非平稳性方面存在显著局限性。针对这些挑战,提出一种基于角色学习的多智能体强化学习框架(RoMAC)。该框架通过基于动作属性的角色划分,并借助角色分配网络实现智能体角色的动态分配,以提升多智能体协作效率。框架采用分层通信设计,包括基于注意力机制的角色间通信和基于互信息的智能体间通信。在角色间通信中,利用注意力机制生成高效的通信信息,以实现角色代理间的协调;在智能体间通信中,通过互信息生成有针对性的信息,从而提升角色组内部的决策质量。实验在星际争霸多智能体挑战(SMAC)环境中进行,结果表明,RoMAC胜率平均提高了约8.62百分点,收敛时间缩短了0.92×10^(6)时间步,通信负载平均降低了28.18百分点。消融实验进一步验证了RoMAC各模块在提升性能中的关键作用,体现了模型的稳健性与灵活性。综合实验结果表明,RoMAC在MARL和协作任务中具有显著优势,为复杂任务的高效解决提供了可靠支持。
关键词
多智能 体 强化学习
角色学习
多智能 体 通信
互信息
协作
Keywords
Multi-Agent Reinforcement Learning(MARL)
role learning
multi-agent communication
mutual information
cooperation
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于图神经网络的多智能体路径规划方法
4
作者
禹鑫燚
刘飞
欧林林
机构
浙江工业大学信息工程学院
出处
《高技术通讯》
CAS
北大核心
2024年第10期1081-1090,共10页
基金
国家自然科学基金(62373329)
浙江省自然科学基金白马湖实验室联合基金(LBMHD24F030002)资助项目。
文摘
在多智能体路径规划问题中,每个智能体需要互相协调来完成共同的全局目标,智能体之间通常需要显式的通信策略。传统的多智能体路径规划算法受限于实时性、扩展性、不完全通信等问题,很难适用于复杂的工作环境中。为了解决多智能体工作环境中的通信问题,本文提出了一种基于图神经网络(GNN)的路径规划方法。该方法首先通过卷积神经网络(CNN)在局部观测中采集特征数据,由图神经网络在智能体之间传递这些数据。其次,为了减少智能体的惰性,提出了一种新的奖励函数,鼓励智能体更积极地探索并学习有效的协调策略。接着通过集中式收集数据训练、分布式执行提高学习效率。最后,进行多个环境下的仿真实验评估本文提出的算法,并与其他算法进行对比,验证了算法的有效性和可扩展性。
关键词
路径规划
多智能 体 强化学习
图神经网络(GNN)
多智能 体 通信
Keywords
path planning
multi-agent reinforcement learning
graph neural network(GNN)
multi-agent communication
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 基于图神经网络的多智能体强化学习值函数分解方法
被引量:1
5
作者
孙文洁
李宗民
孙浩淼
机构
中国石油大学(华东)计算机科学与技术学院
山东石油化工学院大数据与基础科学学院
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第5期62-70,共9页
基金
国家重点研发计划(2019YFF0301800)
国家自然科学基金(61379106)
山东省自然科学基金(ZR2013FM036,ZR2015FM011)。
文摘
如何在部分可观测的情况下实现智能体之间的协同配合是多智能体强化学习(MARL)中的一个重要问题。值函数分解方法解决了信用分配问题,是一种实现多智能体之间协同配合的有效方法,然而在现有的值函数分解方法中,智能体个体动作值函数仅取决于局部信息,不允许智能体之间进行显式的信息交换,阻碍了这一系列算法的性能,使其无法适用于复杂场景。为了解决这一问题,在值函数分解方法中引入智能体间的通信,为智能体提供有效的非局部信息以帮助其理解复杂环境。在此基础上,提出一个基于图神经网络的分层通信模型,通过图神经网络提取相邻智能体之间需要交换的有用信息,同时模型能够实现从非通信向充分通信过渡,在通信范围有限的情况下实现全局合作,适用于现实世界中通信范围受约束的情况。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境和捕食者-猎物(PP)环境下进行实验,结果表明,在SMAC的4个不同场景下,该方法与QMIX、VBC等基线算法相比平均胜率提升2~40个百分点,并且能够有效解决非单调环境下的捕食者-猎物问题。
关键词
深度强化学习
多智能 体 环境
智能 体 协同
智能 体 通信
图神经网络
Keywords
deep reinforcement learning
multi-agent environment
agent cooperation
agent communication
Graph Neural Network(GNN)
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 自注意力与强化学习耦合的多智能体通信
被引量:1
6
作者
韩兆荣
钱宇华
刘郭庆
机构
山西大学大数据科学与产业研究院
山西大学计算智能与中文信息处理教育部重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第6期1134-1139,共6页
基金
国家自然科学基金项目(61672332)资助
山西省重点研发计划项目(201903D421003)资助
山西省教育厅科技成果转化与培育项目(2020CG001)资助.
文摘
利用通信规则的多智能体算法通过智能体间交互信息进行协作,而其中信息质量决定了智能体协作能力与完成任务的能力,是提升智能体表现的关键因素.目前通信规则型算法存在通信信息产生方式单一、信息冗余等问题.针对以上问题本文提出了基于自注意力机制的信息处理模块TDU以及适配的信息产生智能体算法.首先,通过改进适配信息生成的强化学习算法作为智能体网络,通过网络学习生成适配信息,提高了智能体间信息产生的适配性并固定了信息选择的范围,降低了信息处理的难度.之后,利用基于自注意力机制的信息处理模块,对生成的信息进行筛选,提取高价值信息进行传输,提高智能体传递信息质量.本文提出的算法在经典智能体通信规则测试环境Swtich Riddle中进行了大量实验,并与主流通信规则型算法进行对比.实验结果表明,本文提出算法有效提高了智能体信息质量,加快了智能体学习速度,增强了智能体通信能力.
关键词
强化学习
多智能 体
不完全观测环境
自注意力机制
多智能 体 通信 规则方法
Keywords
reinforcement lerning
multi-agent
inperfect observation environment
self-attention mechanism
communication rule-based multi-agent algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于一致性的多智能体Q学习算法
7
作者
崔浩岩
张震
赵德京
廖登宇
机构
青岛大学自动化学院
山东省工业控制技术重点实验室
出处
《控制工程》
CSCD
北大核心
2024年第7期1169-1177,共9页
基金
国家自然科学基金资助项目(61903209)
青岛市博士后应用研究项目。
文摘
针对多智能体系统中智能体通信能力受限和多智能体强化学习中联合动作空间维数灾难问题,提出一种基于一致性的多智能体Q学习(multi-agent Q-learning based on consensus,MAQC)算法。该算法采用集中训练-分散执行框架。在集中训练阶段,MAQC算法采用值分解方法缓解联合动作空间维数灾难问题。此外,每个智能体将自己感知到的局部状态和接收到的邻居的局部状态发送给所有邻居,最终使网络中的智能体获得所有智能体的全局状态。智能体所需的时间差分信息由一致性算法获得,智能体只需向邻居发送时间差分信息的分量信息。在执行阶段,每个智能体只需根据与自己动作有关的Q值函数来选择动作。结果表明,MAQC算法能够收敛到最优联合策略。
关键词
多智能 体 强化学习
智能 体 通信
一致性
Q学习
值分解
Keywords
Multi-agent reinforcement learning
agent communication
consensus
Q-learning
value decomposition
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 引入通信与探索的多智能体强化学习QMIX算法
被引量:7
8
作者
邓晖奕
李勇振
尹奇跃
机构
北京建筑大学电气与信息工程学院
厦门大学自动化系
中国科学院自动化研究所
出处
《计算机应用》
CSCD
北大核心
2023年第1期202-208,共7页
基金
北京高等学校高水平人才交叉培养“实培计划”项目
北京建筑大学2022年度青年教师科研能力提升计划项目(X22022)。
文摘
非平稳性问题是多智能体环境中深度学习面临的主要挑战之一,它打破了大多数单智能体强化学习算法都遵循的马尔可夫假设,使每个智能体在学习过程中都有可能会陷入由其他智能体所创建的环境而导致无终止的循环。为解决上述问题,研究了中心式训练分布式执行(CTDE)架构在强化学习中的实现方法,并分别从智能体间通信和智能体探索这两个角度入手,采用通过方差控制的强化学习算法(VBC)并引入好奇心机制来改进QMIX算法。通过星际争霸Ⅱ学习环境(SC2LE)中的微操场景对所提算法加以验证。实验结果表明,与QMIX算法相比,所提算法的性能有所提升,并且能够得到收敛速度更快的训练模型。
关键词
多智能 体 环境
深度强化学习
中心式训练分布式执行架构
好奇心机制
智能 体 通信
Keywords
multi-agent environment
deep reinforcement learning
Centralized Training with Decentralized Execution(CTDE)structure
curiosity mechanism
agent communication
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于多智能体的协同研讨关键技术研究
被引量:3
9
作者
李鸣野
王若冰
机构
中国航天系统科学与工程研究院
出处
《计算机应用与软件》
北大核心
2019年第6期21-25,57,共6页
基金
国家自然科学基金项目(U1501253)
文摘
综合集成研讨厅中协同研讨系统是帮助专家交流观点、协同工作、共享资源并最终涌现群体智慧的重要模块。针对传统C/S模式在软件灵活性、可扩展性上的不足,设计综合集成研讨厅中协同研讨系统的多智能体架构,以及智能体的各种行为。提出基于移动智能体的协同研讨场景自适应构建技术,当用户进入协同研讨场景时将研讨所需的各种智能体移动到客户端并进行组装。在此基础上提出基于ACL通信的工具协同化方法,并设计协同研讨场景中的各种本体概念,将本体用于智能体的ACL消息中。使用JADE框架搭建出协同研讨原型系统,并以模拟场景进行了系统验证。实验表明,该架构增强了研讨客户端的灵活性与可扩展性,同时支持专家对工具的协同操作。
关键词
综合集成研讨厅
协同研讨
移动智能 体
智能 体 通信
工具协同化
Keywords
HWME
Collaborative work
Mobile agent
Agent communication
Tool collaboration
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于注意力消息共享的多智能体强化学习
被引量:3
10
作者
臧嵘
王莉
史腾飞
机构
太原理工大学大数据学院
北方自动控制技术研究所
出处
《计算机应用》
CSCD
北大核心
2022年第11期3346-3353,共8页
基金
国家自然科学基金资助项目(61872260)。
文摘
通信是非全知环境中多智能体间实现有效合作的重要途径,当智能体数量较多时,通信过程会产生冗余消息。为有效处理通信消息,提出一种基于注意力消息共享的多智能体强化学习算法AMSAC。首先,在智能体间搭建用于有效沟通的消息共享网络,智能体通过消息读取和写入完成信息共享,解决智能体在非全知、任务复杂场景下缺乏沟通的问题;其次,在消息共享网络中,通过注意力消息共享机制对通信消息进行自适应处理,有侧重地处理来自不同智能体的消息,解决较大规模多智能体系统在通信过程中无法有效识别消息并利用的问题;然后,在集中式Critic网络中,使用Native Critic依据时序差分(TD)优势策略梯度更新Actor网络参数,使智能体的动作价值得到有效评判;最后,在执行期间,智能体分布式Actor网络根据自身观测和消息共享网络的信息进行决策。在星际争霸Ⅱ多智能体挑战赛(SMAC)环境中进行实验,结果表明,与朴素Actor⁃Critic(Native AC)、博弈抽象通信(GA⁃Comm)等多智能体强化学习方法相比,AMSAC在四个不同场景下的平均胜率提升了4~32个百分点。AMSAC的注意力消息共享机制为处理多智能体系统中智能体间的通信消息提供了合理方案,在交通枢纽控制和无人机协同领域都具备广泛的应用前景。
关键词
多智能 体 系统
智能 体 协同
深度强化学习
智能 体 通信
注意力机制
策略梯度
Keywords
multi⁃agent system
agent cooperation
deep reinforcement learning
agent communication
attention mechanism
policy gradient
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于FIPA-ACL的高层体系结构互操作性扩展
被引量:1
11
作者
岳英超
肖田元
范文慧
吴松
马成
机构
清华大学国家CIMS工程研究中心
出处
《高技术通讯》
CAS
CSCD
北大核心
2012年第7期758-765,共8页
基金
863计划(2009AA110302)和国家自然科学基金(60874066)资助项目.
文摘
针对高层体系结构(HLA)仿真中联邦对象模型(FOM)固定机制导致仿真系统交互信息灵活性不足的问题,提出了基于国际组织FIPA的智能体通信语言(FIPA-ACL)的HLA仿真互操作性扩展方法。该方法利用多智能体通信技术支持基于FIPA-ACL的中间件技术,以实现对FOM固定机制的扩展。它能提高系统的通信性能,有效改进分布式仿真互操作的灵活性与动态性,提高分布式仿真的智能化水平。该方法是对现有标准HLA的扩展,具有很好的技术继承性,实现成本低。此方法在典型复杂产品——高速列车的仿真实例中得到了实际应用,从而检验了其可行性和有效性。
关键词
基于国际组织FIPA的智能 体 通信 语言(FIPA-ACL)
高层体 系结构(HLA)分布式仿真
中间件
互操作性扩展
Keywords
the agent communication language Agents (FIPA-ACL), high level architecture (HLA) (ACL) put forward by the Foundation for Intelligent Physical distributed simulation, middleware, interoperation extension
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 基于Multi-Agent技术的网上审批系统研究
被引量:1
12
作者
李宗明
胡代平
窦慧明
机构
上海交通大学安泰经济与管理学院
出处
《计算机工程与设计》
CSCD
北大核心
2008年第13期3351-3354,共4页
基金
国家自然科学基金项目(70450001)
文摘
网上审批系统是电子政务的重要组成部分,但传统的网上审批系统存在诸多弱点。在对网上审批系统在信息共享、智能化和用户个性化方面的不足和Agent技术的优点研究的基础上,提出了一个基于Agent技术的网上审批系统的模型,描述了各种Agent的功能,Agent的结构及各种Agent在系统工作流程中协作。最后,描述了基于KQML和XML的Agent通信机制。
关键词
网上审批系统
电子政务
多智能 体
智能 体 结构
智能 体 通信 机制
Keywords
intemet-based examining & approving system
E-government
multi-Agent
Agent structure
Agent communication mechanism
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]