期刊文献+
共找到568篇文章
< 1 2 29 >
每页显示 20 50 100
Knowledge transfer in multi-agent reinforcement learning with incremental number of agents 被引量:4
1
作者 LIU Wenzhang DONG Lu +1 位作者 LIU Jian SUN Changyin 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2022年第2期447-460,共14页
In this paper, the reinforcement learning method for cooperative multi-agent systems(MAS) with incremental number of agents is studied. The existing multi-agent reinforcement learning approaches deal with the MAS with... In this paper, the reinforcement learning method for cooperative multi-agent systems(MAS) with incremental number of agents is studied. The existing multi-agent reinforcement learning approaches deal with the MAS with a specific number of agents, and can learn well-performed policies. However, if there is an increasing number of agents, the previously learned in may not perform well in the current scenario. The new agents need to learn from scratch to find optimal policies with others,which may slow down the learning speed of the whole team. To solve that problem, in this paper, we propose a new algorithm to take full advantage of the historical knowledge which was learned before, and transfer it from the previous agents to the new agents. Since the previous agents have been trained well in the source environment, they are treated as teacher agents in the target environment. Correspondingly, the new agents are called student agents. To enable the student agents to learn from the teacher agents, we first modify the input nodes of the networks for teacher agents to adapt to the current environment. Then, the teacher agents take the observations of the student agents as input, and output the advised actions and values as supervising information. Finally, the student agents combine the reward from the environment and the supervising information from the teacher agents, and learn the optimal policies with modified loss functions. By taking full advantage of the knowledge of teacher agents, the search space for the student agents will be reduced significantly, which can accelerate the learning speed of the holistic system. The proposed algorithm is verified in some multi-agent simulation environments, and its efficiency has been demonstrated by the experiment results. 展开更多
关键词 knowledge transfer multi-agent reinforcement learning(MARL) new agents
在线阅读 下载PDF
基于改进Agent的空域管制扇区划设方法
2
作者 支博 田勇 +2 位作者 梁满佳 黄潇 吕越 《科学技术与工程》 北大核心 2025年第7期3035-3043,共9页
为解决传统基于主观经验人为划设的扇区所存在的空域资源分配不均问题,满足如今空中交通运行需求,通过改进Agent方法,研究终端区三维扇区划设问题。首先,在满足传统扇区划设约束条件下,以提高扇区同交通流适应性,降低并均衡管制负荷为目... 为解决传统基于主观经验人为划设的扇区所存在的空域资源分配不均问题,满足如今空中交通运行需求,通过改进Agent方法,研究终端区三维扇区划设问题。首先,在满足传统扇区划设约束条件下,以提高扇区同交通流适应性,降低并均衡管制负荷为目标;随后,通过使用遗传算法确定Agent初始解位置以提高计算效率、设计优化Agent生长规则与空域填充规则方式改进传统Agent方法;最后,以上海终端区内数据进行实例分析验证,结果表明:相比现行与传统Agent方法所得扇区划设方案,改进Agent方法能够分别提升25.84%、18.54%的扇区形状特征与空中交通流适应性;同时在降低终端区管制负荷总和基础上,可将各扇区间管制负荷标准差分别降低53.33%、36.58%。可见基于改进Agent的空域管制扇区划设方法为中国本土特色化空域规划提供参考性意见。 展开更多
关键词 空中交通管理 扇区划设 agent模型 启发式算法 强化学习
在线阅读 下载PDF
Task assignment in ground-to-air confrontation based on multiagent deep reinforcement learning 被引量:4
3
作者 Jia-yi Liu Gang Wang +2 位作者 Qiang Fu Shao-hua Yue Si-yuan Wang 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2023年第1期210-219,共10页
The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to... The scale of ground-to-air confrontation task assignments is large and needs to deal with many concurrent task assignments and random events.Aiming at the problems where existing task assignment methods are applied to ground-to-air confrontation,there is low efficiency in dealing with complex tasks,and there are interactive conflicts in multiagent systems.This study proposes a multiagent architecture based on a one-general agent with multiple narrow agents(OGMN)to reduce task assignment conflicts.Considering the slow speed of traditional dynamic task assignment algorithms,this paper proposes the proximal policy optimization for task assignment of general and narrow agents(PPOTAGNA)algorithm.The algorithm based on the idea of the optimal assignment strategy algorithm and combined with the training framework of deep reinforcement learning(DRL)adds a multihead attention mechanism and a stage reward mechanism to the bilateral band clipping PPO algorithm to solve the problem of low training efficiency.Finally,simulation experiments are carried out in the digital battlefield.The multiagent architecture based on OGMN combined with the PPO-TAGNA algorithm can obtain higher rewards faster and has a higher win ratio.By analyzing agent behavior,the efficiency,superiority and rationality of resource utilization of this method are verified. 展开更多
关键词 Ground-to-air confrontation Task assignment General and narrow agents Deep reinforcement learning Proximal policy optimization(PPO)
在线阅读 下载PDF
基于多Agent深度强化学习的无人机协作规划方法 被引量:2
4
作者 王娜 马利民 +1 位作者 姜云春 宗成国 《计算机应用与软件》 北大核心 2024年第9期83-89,96,共8页
人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互... 人机协作控制是多无人机任务规划的重要方式。考虑多无人机任务环境协同解释和策略控制一致性需求,提出基于多Agent深度强化学习的无人机协作规划方法。依据任务知识和行为状态,构建基于任务分配Agent的任务规划器,生成人机交互的相互依赖关系;设计一种深度学习强化方法,解决群体行为最优策略和协同控制方法,并利用混合主动行为选择机制评估学习策略。实验结果表明:作为人机交互实例,所提方法通过深度强化学习使群体全局联合动作表现较好,学习速度和稳定性均能优于确定性策略梯度方法。同时,在跟随、自主和混合主动3种模式比较下,可以较好地控制无人机飞行路径和任务,为无人机集群任务执行提供了智能决策依据。 展开更多
关键词 agent规划 深度强化学习 无人机协同规划 混合主动行为
在线阅读 下载PDF
基于半自治agent的profit-sharing增强学习方法研究 被引量:3
5
作者 杨克巍 张少丁 +1 位作者 岑凯辉 谭跃进 《计算机工程与应用》 CSCD 北大核心 2007年第15期72-75,97,共5页
在基于半自治agent的系统中应用profit-sharing增强学习方法,并与基于动态规划的Q-learning增强学习方法进行比较,在不确定因素较多的动态环境中,当系统状态变化不是一个马尔科夫过程时profit-sharing方法具有很大优势。根据半自治agen... 在基于半自治agent的系统中应用profit-sharing增强学习方法,并与基于动态规划的Q-learning增强学习方法进行比较,在不确定因素较多的动态环境中,当系统状态变化不是一个马尔科夫过程时profit-sharing方法具有很大优势。根据半自治agent中半自治的特性——受制性,提出了一种面向基于半自治agent的增强学习模型,以战场仿真中安全隐蔽的寻找模型为实例对基于半自治agent的profit-sharing增强学习模型进行了试验分析。 展开更多
关键词 增强学习 半自治agent PRofIT-SHARING Q-learning
在线阅读 下载PDF
基于Q-learning的不确定环境BDI Agent最优策略规划研究 被引量:7
6
作者 万谦 刘玮 +1 位作者 徐龙龙 郭竞知 《计算机工程与科学》 CSCD 北大核心 2019年第1期166-172,共7页
BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问... BDI模型能够很好地解决在特定环境下的Agent的推理和决策问题,但在动态和不确定环境下缺少决策和学习的能力。强化学习解决了Agent在未知环境下的决策问题,却缺少BDI模型中的规则描述和逻辑推理。针对BDI在未知和动态环境下的策略规划问题,提出基于强化学习Q-learning算法来实现BDI Agent学习和规划的方法,并针对BDI的实现模型ASL的决策机制做出了改进,最后在ASL的仿真平台Jason上建立了迷宫的仿真,仿真实验表明,在加入Q-learning学习机制后的新的ASL系统中,Agent在不确定环境下依然可以完成任务。 展开更多
关键词 BDIagent 强化学习 Q-learning ASL JASON 规划
在线阅读 下载PDF
竞争与合作视角下的多Agent强化学习研究进展
7
作者 田小禾 李伟 +3 位作者 许铮 刘天星 戚骁亚 甘中学 《计算机应用与软件》 北大核心 2024年第4期1-15,共15页
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习... 随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。 展开更多
关键词 深度学习 强化学习 agent强化学习 环境的不稳定性
在线阅读 下载PDF
多Agent系统中强化学习的研究现状和发展趋势 被引量:12
8
作者 赵志宏 高阳 +1 位作者 骆斌 陈世福 《计算机科学》 CSCD 北大核心 2004年第3期23-27,共5页
本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Ag... 本文对有关强化学习及其在多Agent系统中的应用等方面的研究现状、关键技术、问题和发展趋势进行了综述和讨论,试图给出强化学习目前研究的重点和发展方向。主要内容包括:(1)强化学习的框架结构;(2)几个有代表性的强化学习方法;(3)多Agent系统中强化学习的应用和问题。最后讨论了多Agent系统中应用强化学习所面临的挑战。 展开更多
关键词 人工智能 agent系统 元对策理论 强化学习算法 POMDP模型
在线阅读 下载PDF
一种基于多Agent强化学习的多星协同任务规划算法 被引量:22
9
作者 王冲 景宁 +2 位作者 李军 王钧 陈浩 《国防科技大学学报》 EI CAS CSCD 北大核心 2011年第1期53-58,共6页
在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设... 在分析任务特点和卫星约束的基础上给出了多星协同任务规划问题的数学模型。引入约束惩罚算子和多星联合惩罚算子对卫星Agent原始的效用值增益函数进行改进,在此基础上提出了一种多卫星Agent强化学习算法以求解多星协同任务分配策略,设计了基于黑板结构的多星交互方式以降低学习交互过程中的通信代价。通过仿真实验及分析证明该方法能够有效解决多星协同任务规划问题。 展开更多
关键词 卫星任务规划 协同规划 多智能体强化学习 黑板结构
在线阅读 下载PDF
AODE中基于强化学习的Agent协商模型 被引量:14
10
作者 王立春 高阳 陈世福 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期135-141,共7页
AODE是我们研制的一个面向Agent的智能系统开发环境 .AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续决策过程分别描述系统状态变化和特定系统状态的Agent协商过程 ,并将强化学习技术应用于Agent协商过程 .该协商模型能够... AODE是我们研制的一个面向Agent的智能系统开发环境 .AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续决策过程分别描述系统状态变化和特定系统状态的Agent协商过程 ,并将强化学习技术应用于Agent协商过程 .该协商模型能够描述动态环境下的多Agent协商 ,模型中所有Agent都采用元对策Q 学习算法时 ,系统能获得动态协商环境下的最优协商解 . 展开更多
关键词 多Agnet系统 强化学习 agent协商模型 AODE 智能系统开发环境 协商策略
在线阅读 下载PDF
基于Markov对策的多Agent强化学习模型及算法研究 被引量:30
11
作者 高阳 周志华 +1 位作者 何佳洲 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期257-263,共7页
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学... 在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. 展开更多
关键词 元对策 强化学习 agent系统 人工智能
在线阅读 下载PDF
Agent组织的一种递归模型 被引量:29
12
作者 张伟 石纯一 《软件学报》 EI CSCD 北大核心 2002年第11期2149-2154,共6页
Agent组织是多Agent系统(MAS)的一种求解形式.基于Agent组织的问题求解可以减少MAS中Agent之间交互的复杂性,降低求解难度.结合收益和组织规则提出了一种Agent组织的递归模型,并讨论了Agent组织的目标分解、收益计算和组织规则形成等问... Agent组织是多Agent系统(MAS)的一种求解形式.基于Agent组织的问题求解可以减少MAS中Agent之间交互的复杂性,降低求解难度.结合收益和组织规则提出了一种Agent组织的递归模型,并讨论了Agent组织的目标分解、收益计算和组织规则形成等问题.相对于Ferber和Jennings等人的工作,这种模型适于描述不同规模的组织,有利于MAS宏观分析和微观分析的结合,而且模型中效用参量的引入可以在一定程度上表明Agent组织的演化. 展开更多
关键词 递归模型 agent系统 agent组织 组织目标 组织规则 组织收益
在线阅读 下载PDF
基于强化学习的指挥控制Agent适应性仿真研究 被引量:8
13
作者 李志强 胡晓峰 +1 位作者 张斌 董忠林 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第11期2801-2804,共4页
应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的... 应用人工智能中的学习技术来赋予战争模拟系统中的智能Agent适应能力,是基于CAS理论的战争复杂性研究的基础内容之一。面对战争系统中复杂动态的环境,传统的监督学习方法不能很好满足智能Agent实时学习的要求。而强化学习却可以很好的适应这种动态未知的环境。文章引入强化学习技术对战争系统中指挥控制Agent的适应性进行建模仿真研究。实验结果表明强化学习技术能很好的满足指挥控制Agent无师在线实时学习的要求,从而为战争模拟系统中的智能Agent的适应性机制提供良好的建模手段。 展开更多
关键词 适应性 强化学习 指挥控制 agent
在线阅读 下载PDF
一种基于资源约束的Agent组织规则生成机制 被引量:5
14
作者 张伟 王一川 石纯一 《计算机研究与发展》 EI CSCD 北大核心 2002年第12期1592-1597,共6页
Agent组织是多 Agent系统的一种求解结构 ,可以有效地降低求解难度和 Agent之间的交互复杂性 .对Agent组织的抽象包括组织结构、组织规则和组织模式 ,Agent组织规则的形成是 Agent组织设计的重要问题之一 .基于资源约束给出了 Agent组... Agent组织是多 Agent系统的一种求解结构 ,可以有效地降低求解难度和 Agent之间的交互复杂性 .对Agent组织的抽象包括组织结构、组织规则和组织模式 ,Agent组织规则的形成是 Agent组织设计的重要问题之一 .基于资源约束给出了 Agent组织规则的形式描述和产生机制 ,设计了 Agent组织规则形成的静态算法和动态算法 ,从而改进了 Zam bonelli和 Jennings关于 展开更多
关键词 资源约束 多Agnet系统 agent组织规则 算法 人工智能
在线阅读 下载PDF
一种基于Agent团队的强化学习模型与应用研究 被引量:31
15
作者 蔡庆生 张波 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1087-1093,共7页
多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团... 多 Agent学习是近年来受到较多关注的研究方向 .以单 Agent强化学习 Q - learning算法为基础 ,提出了一种基于 Agent团队的强化学习模型 ,这个模型的最大特点是引入主导 Agent作为团队学习的主角 ,并通过主导Agent的角色变换实现整个团队的学习 .结合仿真机器人足球领域 ,设计了具体的应用模型 ,在几个方面对 Q -learning进行了扩充 ,并进行了实验 . 展开更多
关键词 agent团队 机器人足球 强化学习模型 人工智能
在线阅读 下载PDF
基于强化学习的多Agent协作研究 被引量:5
16
作者 郑淑丽 韩江洪 +1 位作者 骆祥峰 蒋建文 《小型微型计算机系统》 CSCD 北大核心 2003年第11期1986-1988,共3页
强化学习为多 Agent之间的协作提供了鲁棒的学习方法 .本文首先介绍了强化学习的原理和组成要素 ,其次描述了多 Agent马尔可夫决策过程 MMDP,并给出了 Agent强化学习模型 .在此基础上 ,对多 Agent协作过程中存在的两种强化学习方式 :IL... 强化学习为多 Agent之间的协作提供了鲁棒的学习方法 .本文首先介绍了强化学习的原理和组成要素 ,其次描述了多 Agent马尔可夫决策过程 MMDP,并给出了 Agent强化学习模型 .在此基础上 ,对多 Agent协作过程中存在的两种强化学习方式 :IL(独立学习 )和 JAL(联合动作学习 )进行了比较 .最后分析了在有多个最优策略存在的情况下 ,协作多 展开更多
关键词 agent系统 强化学习 MMDP 协调机制
在线阅读 下载PDF
多Agent动态调度方法在染色车间调度中的应用 被引量:12
17
作者 徐新黎 郝平 王万良 《计算机集成制造系统》 EI CSCD 北大核心 2010年第3期611-620,共10页
为解决复杂、繁琐的染色车间调度问题,根据印染生产过程的工艺特点和约束条件,建立了染色车间作业调度问题模型。为了提高调度系统对生产环境经常发生变化的自适应能力和全局优化能力,提出了一种基于蚂蚁智能与强化学习相结合的协商策... 为解决复杂、繁琐的染色车间调度问题,根据印染生产过程的工艺特点和约束条件,建立了染色车间作业调度问题模型。为了提高调度系统对生产环境经常发生变化的自适应能力和全局优化能力,提出了一种基于蚂蚁智能与强化学习相结合的协商策略的多Agent动态调度方法。在该方法中,智能Agent能根据行为的历史反馈和立即反馈来选择相应的行为,也能根据算法的历史奖励来选择相应的智能调度算法,从而把一小部分工序任务的实时局部优化和大部分工序任务的全局优化结合起来。调度实例的求解结果验证了该方法的有效性。 展开更多
关键词 调度 agent系统 染色车间 蚂蚁智能 强化学习
在线阅读 下载PDF
基于分层强化学习及人工势场的多Agent路径规划方法 被引量:14
18
作者 郑延斌 李波 +1 位作者 安德宇 李娜 《计算机应用》 CSCD 北大核心 2015年第12期3491-3496,共6页
针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分... 针对路径规划算法收敛速度慢及效率低的问题,提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先,将多Agent的运行环境虚拟为一个人工势能场,根据先验知识确定每点的势能值,它代表最优策略可获得的最大回报;其次,利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上,提高学习算法的性能;最后,针对出租车问题在栅格环境中对所提算法进行了仿真实验。为了使算法贴近真实环境,增加算法的可移植性,在三维仿真环境中对该算法进行验证,实验结果表明该算法收敛速度快,收敛过程稳定。 展开更多
关键词 路径规划 多智能体系统 分层强化学习 人工势场 先验知识
在线阅读 下载PDF
Agent组织规则的再励学习 被引量:2
19
作者 张伟 王一川 石纯一 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期430-434,共5页
Agent组织是一种灵活有效的多Agent系统求解方式 Agent组织规则在Agent组织的求解过程中起着重要作用 ,可以有效地减少冲突提高求解效率 给出了一种基于再励学习的Agent组织规则生成机制和相应的算法 ,通过实验表明了算法的有效性 。
关键词 agent agent组织 agent组织规则 再励学习
在线阅读 下载PDF
多Agent协作的强化学习模型和算法 被引量:6
20
作者 刘菲 曾广周 宋言伟 《计算机科学》 CSCD 北大核心 2006年第12期156-158,186,共4页
结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并... 结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人-猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。 展开更多
关键词 协作学习 强化学习 agent学习 学习模型 学习算法
在线阅读 下载PDF
上一页 1 2 29 下一页 到第
使用帮助 返回顶部