期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
多智能体博弈学习研究进展 被引量:3
1
作者 罗俊仁 张万鹏 +2 位作者 苏炯铭 袁唯淋 陈璟 《系统工程与电子技术》 EI CSCD 北大核心 2024年第5期1628-1655,共28页
随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文... 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了“端到端”解决方案。多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战。本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法。其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战。再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法。最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向。 展开更多
关键词 博弈学习 多智能体学习 博弈 在线无悔学习
在线阅读 下载PDF
多智能体博弈中的分布式学习:原理与算法
2
作者 谭少林 谷海波 刘克新 《指挥与控制学报》 CSCD 北大核心 2024年第2期127-136,共10页
自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多... 自主智能决策是未来无人系统发展的核心技术,而博弈学习是实现自主智能决策的关键方法之一。围绕多智能体博弈中分布式学习领域,系统地介绍其基本问题、研究背景及意义;针对连续动作空间博弈与离散动作空间博弈两种典型博弈类型,综述多智能体博弈分布式学习算法的构建及收敛性研究进展;给出博弈学习领域尚待突破的挑战性问题。 展开更多
关键词 博弈学习 分布式算法 智能决策 纳什均衡 多智能体系统 集群智能
在线阅读 下载PDF
一个基于博弈学习的多主体竞价模型 被引量:4
3
作者 唐亮贵 程代杰 《计算机工程与应用》 CSCD 北大核心 2006年第17期76-78,104,共4页
根据多主体撮合交易模型,把整个撮合交易看成各交易主体的动态交互过程,设计了基于Multi-Agent的电子商务交易市场中交易主体动态竞价策略,提出了博弈学习的概念,并建立了基于博弈学习的动态竞价模型,根据撮合密度的定义,分析了所建立... 根据多主体撮合交易模型,把整个撮合交易看成各交易主体的动态交互过程,设计了基于Multi-Agent的电子商务交易市场中交易主体动态竞价策略,提出了博弈学习的概念,并建立了基于博弈学习的动态竞价模型,根据撮合密度的定义,分析了所建立模型的性能和效率,试验表明,基于博弈学习的多主体动态竞价模型使多主体撮合交易系统具有一定的自均衡和自学习能力和良好的交易性能。 展开更多
关键词 Muhi-Agent系统 撮合 动态竞标 博弈学习
在线阅读 下载PDF
基于博弈学习的多Agent城市交通协调控制 被引量:3
4
作者 郑延斌 王宁 段领玉 《计算机应用》 CSCD 北大核心 2014年第2期601-604,共4页
交通路口中的各Agent之间的协调问题是一个博弈问题。在有限理性的基础上,利用博弈学习思想,构建多智能体(multi-Agent)博弈学习协调算法,利用此学习协调算法对出行者行为分析并修正,实现城市交通路口的畅通,进而达到区域、全局的交通... 交通路口中的各Agent之间的协调问题是一个博弈问题。在有限理性的基础上,利用博弈学习思想,构建多智能体(multi-Agent)博弈学习协调算法,利用此学习协调算法对出行者行为分析并修正,实现城市交通路口的畅通,进而达到区域、全局的交通优化。最后通过实例仿真验证其可行性。 展开更多
关键词 有限理性 博弈学习 多智能体 协调算法
在线阅读 下载PDF
再制造市场OEM与UOEM的博弈与学习研究 被引量:4
5
作者 石岿然 孙玉玲 吴鸽 《运筹与管理》 CSSCI CSCD 北大核心 2015年第1期129-136,共8页
在再制造利益的驱动下,一些非原始设备制造商(UOEM)欲进入再制造市场。为探究UOEM参与再制造的进入博弈,应用演化博弈理论构建了原始设备制造商(OEM)和UOEM策略选择的复制动态。研究表明:博弈双方的回收价格、UOEM排除障碍的成本会影响U... 在再制造利益的驱动下,一些非原始设备制造商(UOEM)欲进入再制造市场。为探究UOEM参与再制造的进入博弈,应用演化博弈理论构建了原始设备制造商(OEM)和UOEM策略选择的复制动态。研究表明:博弈双方的回收价格、UOEM排除障碍的成本会影响UOEM的策略选择;OEM选择默许而潜在的UOEM进入再制造品市场是二维动态系统唯一的演化稳定策略。进一步考虑了参与人的学习行为,将噪声项引入复制动态方程中,得到了一个非子博弈完美均衡,即当带着噪声项的OEM采取竞争策略时,进入者的最优策略是置身于市场之外。 展开更多
关键词 产品再制造 演化博弈 博弈学习 原始设备制造商 非原始设备制造商
在线阅读 下载PDF
基于局部信息交互的博弈学习算法 被引量:3
6
作者 殷文龙 姚昌华 《计算机应用研究》 CSCD 北大核心 2017年第7期1953-1956,共4页
频谱资源异构性是5G通信系统的重要特性之一。为实现频谱资源分配与需求的最优匹配,关注5G微蜂窝的异构信道选择问题。针对该问题,传统集中式优化机制系统效率较优但优化开销大,而传统分布式优化机制优化开销较少但系统效率受限。为实... 频谱资源异构性是5G通信系统的重要特性之一。为实现频谱资源分配与需求的最优匹配,关注5G微蜂窝的异构信道选择问题。针对该问题,传统集中式优化机制系统效率较优但优化开销大,而传统分布式优化机制优化开销较少但系统效率受限。为实现系统效率与优化开销的有效折中,将优化问题建模为局部合作博弈,提出基于局部信息交互的博弈学习算法,实现了系统在分布式优化机制下的最优频谱资源分配。仿真结果验证了算法的最优性、收敛性和稳健性。 展开更多
关键词 势能博弈 纳什均衡 局部合作 博弈学习
在线阅读 下载PDF
基于博弈学习多Agent交互研究
7
作者 陶雪丽 郑延斌 王宁 《计算机工程与设计》 CSCD 北大核心 2014年第12期4320-4323,4328,共5页
由于人们之间的博弈行为受多种因素的制约和影响,而传统的博弈方法很难处理这种影响因素多变、交互关系复杂的博弈问题,给出一个基于博弈学习的多智能体(multi-Agent)交互模型,并以此为基础构建多Agent交互的博弈学习方法。对合作小组... 由于人们之间的博弈行为受多种因素的制约和影响,而传统的博弈方法很难处理这种影响因素多变、交互关系复杂的博弈问题,给出一个基于博弈学习的多智能体(multi-Agent)交互模型,并以此为基础构建多Agent交互的博弈学习方法。对合作小组中成员的行为进行修正,通过博弈学习中学习因子的更新得到局部均衡,达到全局利益优化。实例仿真验证了该方法的可行性。 展开更多
关键词 交互 博弈学习 多智能体 均衡 学习因子
在线阅读 下载PDF
人机对抗中的博弈学习方法 被引量:7
8
作者 周雷 尹奇跃 黄凯奇 《计算机学报》 EI CAS CSCD 北大核心 2022年第9期1859-1876,共18页
近年来,人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展,如AlphaGo和DeepStack分别在围棋和二人无限注德州扑克中击败了人类专业选手.这些突破离不开博弈论和机器学习的深度结合.本文通过梳理当前人机对抗智能技... 近年来,人机对抗智能技术作为人工智能领域的前沿方向取得了一系列突破性的进展,如AlphaGo和DeepStack分别在围棋和二人无限注德州扑克中击败了人类专业选手.这些突破离不开博弈论和机器学习的深度结合.本文通过梳理当前人机对抗智能技术领域的重要工作,深入分析博弈论和机器学习在其中发挥的作用,总结了面向人机对抗任务的博弈学习研究框架,指出博弈论为人机对抗任务提供博弈模型和定义求解目标,机器学习帮助形成稳定高效可扩展的求解算法.具体地,本文首先介绍了人机对抗中的博弈学习方法的内涵,详细阐述了面向人机对抗任务的博弈学习研究框架,包括博弈模型构建、解概念定义、博弈解计算三个基本步骤,之后利用该框架分析了当前人机对抗智能技术领域的典型进展,最后指出了人机对抗中的博弈学习未来发展可能面临的挑战.本文梳理总结的人机对抗中的博弈学习研究框架为人机对抗智能技术领域的发展提供了方法保障和技术途径,同时也为通用人工智能的发展提供了新思路. 展开更多
关键词 人工智能 人机对抗 博弈 机器学习 博弈学习
在线阅读 下载PDF
考虑市场因素的电力系统供需互动混合博弈强化学习算法 被引量:7
9
作者 包涛 李昊飞 +1 位作者 余涛 张孝顺 《控制理论与应用》 EI CAS CSCD 北大核心 2020年第4期907-917,共11页
为对电力市场环境下电力系统供需互动问题更精确地建模,使其更好地与未来电力市场环境下需求侧负荷聚合商之间多变的关系和复杂的通信拓扑结构相匹配,本文将电力系统供需互动的Stackelberg博弈与复杂网络上反映需求侧负荷聚合商互动的... 为对电力市场环境下电力系统供需互动问题更精确地建模,使其更好地与未来电力市场环境下需求侧负荷聚合商之间多变的关系和复杂的通信拓扑结构相匹配,本文将电力系统供需互动的Stackelberg博弈与复杂网络上反映需求侧负荷聚合商互动的演化博弈相结合,搭建考虑市场因素的电力系统供需互动混合博弈模型.并提出混合博弈强化学习算法求解相应的非凸非连续优化问题,该算法以Q学习为载体,通过引入博弈论和图论的思想,把分块协同和演化博弈的方法相结合,充分地利用博弈者之间互动博弈关系所形成的知识矩阵信息,高质量地求解考虑复杂网络上多智能体系统的非凸优化问题.基于复杂网络理论搭建的四类3机-6负荷系统和南方某一线城市电网的仿真结果表明:混合博弈强化学习算法的寻优性能比大多数集中式的智能算法好,且在不同网络下均可以保证较好的寻优结果,具有很强的适应性和稳定性. 展开更多
关键词 混合博弈强化学习算法 供需互动 STACKELBERG博弈 演化博弈 复杂网络
在线阅读 下载PDF
基于多智能体博弈强化学习的无人机智能攻击策略生成模型 被引量:1
10
作者 赵芷若 曹雷 +2 位作者 陈希亮 赖俊 章乐贵 《系统工程与电子技术》 EI CSCD 北大核心 2023年第10期3165-3171,共7页
如何利用以攻击型无人机(unmanned aerial vehicle,UAV)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术,基于马尔可夫随机博弈的基本概念,建立了基于多... 如何利用以攻击型无人机(unmanned aerial vehicle,UAV)为代表的新型作战力量增强战斗力,是智能化、无人化战争研究的重点之一。研究了基于多智能体博弈强化学习的无人机智能攻击关键技术,基于马尔可夫随机博弈的基本概念,建立了基于多智能体博弈强化学习的无人机智能攻击策略生成模型,并利用博弈论中“颤抖的手完美”思想提出优化方法,改进了策略模型。仿真实验表明,优化后的算法在原算法基础上有所提升,训练得到的模型可生成多种实时攻击战术,对智能化指挥控制具有较强的现实意义。 展开更多
关键词 多智能体博弈强化学习 马尔可夫随机博弈 无人机 战术策略
在线阅读 下载PDF
发电商的模仿学习竞价策略 被引量:4
11
作者 曾亮 齐翔 陈迎春 《中国电机工程学报》 EI CSCD 北大核心 2008年第31期74-80,共7页
在重复博弈的电力市场中,发电商的竞价策略和个体学习行为是个复杂的动态问题。分析发电商竞价策略这一热点问题的最新研究思路和仿真方法。为模拟发电商的自主学习和市场的动态演化过程,引入博弈学习理论,建立基于模仿学习的发电商竞... 在重复博弈的电力市场中,发电商的竞价策略和个体学习行为是个复杂的动态问题。分析发电商竞价策略这一热点问题的最新研究思路和仿真方法。为模拟发电商的自主学习和市场的动态演化过程,引入博弈学习理论,建立基于模仿学习的发电商竞价策略模型,分析不同信息条件下的学习动态过程,及重复竞标时发电商模仿学习对博弈演变及市场均衡的影响。仿真结果表明模仿学习具有较好的收敛性。另外,完全信息条件下,发电商全局学习能引导市场趋于瓦尔拉斯均衡和古诺–纳什均衡二者之间的一个均衡状态;非完全信息条件下,发电商全局学习的结果是市场总体行为收敛到古诺–纳什均衡,而发电商的个体行为则与古诺-纳什均衡状态存在偏差。 展开更多
关键词 博弈学习理论 模仿学习 竞价策略 博弈演变 市场均衡 古诺-纳什均衡
在线阅读 下载PDF
基于债转股的企业并购支付方式的博弈
12
作者 周媛媛 李帮义 《系统管理学报》 CSSCI 2012年第4期452-460,共9页
使用博弈学习理论,研究了信息不对称和参与人有限理性条件下,并购方以债转股形式进行并购支付的最优行动过程。结论表明:并购方可以通过影响和操纵外部投资者和被并购方对谈判破裂风险的判断,将并购方股权融资比例和债转股比例控制在一... 使用博弈学习理论,研究了信息不对称和参与人有限理性条件下,并购方以债转股形式进行并购支付的最优行动过程。结论表明:并购方可以通过影响和操纵外部投资者和被并购方对谈判破裂风险的判断,将并购方股权融资比例和债转股比例控制在一定范围内,就可以顺利融入外部资金以实现对被并购方的并购支付,同时也能从被并购方获取更多利益,从而使自身利益最大化。 展开更多
关键词 有限回合 信息不对称 破裂风险 并购支付 债转股 博弈学习理论
在线阅读 下载PDF
机器学习在频谱大数据分析与处理上的应用 被引量:5
13
作者 史通 王洁 +2 位作者 罗畅 肖军 王世强 《火力与指挥控制》 CSCD 北大核心 2018年第6期47-51,共5页
作为通信的主要方式,无线通信产生了极具价值的频谱大数据。而机器学习作为新兴的智能算法,可以挖掘出频谱大数据中的有用信息,作出正确的频谱预测和决策,以提高频谱资源的利用率。对机器学习和频谱大数据进行了简要介绍;结合频谱大数... 作为通信的主要方式,无线通信产生了极具价值的频谱大数据。而机器学习作为新兴的智能算法,可以挖掘出频谱大数据中的有用信息,作出正确的频谱预测和决策,以提高频谱资源的利用率。对机器学习和频谱大数据进行了简要介绍;结合频谱大数据的四大特点,讨论了用于频谱大数据分析的4种机器学习方法——分布并行学习、极速学习机、核学习、深度学习;又以频谱大数据的智能预测和决策为目的,讨论了用于频谱大数据处理的两种机器学习方法——强化学习、博弈学习;最后对机器学习方法在频谱大数据上的应用前景进行了展望。 展开更多
关键词 无线通信 频谱大数据 机器学习 深度学习 博弈学习
在线阅读 下载PDF
基于RLoMAG+EAS的同构集群装备体系作战效能评估方法 被引量:1
14
作者 张国辉 高昂 张雅楠 《系统仿真学报》 CAS CSCD 北大核心 2024年第1期160-169,共10页
装备体系是作战体系在装备视角的反映,研究装备体系作战效能评估问题,对装备体系优化、建设发展具有重要现实意义。集群装备作战体系对抗,具有大规模、高动态、强对抗特点,传统方法难以对其作战效能直接进行评估,针对单一任务同构集群... 装备体系是作战体系在装备视角的反映,研究装备体系作战效能评估问题,对装备体系优化、建设发展具有重要现实意义。集群装备作战体系对抗,具有大规模、高动态、强对抗特点,传统方法难以对其作战效能直接进行评估,针对单一任务同构集群装备体系(如无人机侦察蜂群、地面无人平台火力突击集群等),从多智能体博弈理论的视角,将装备体系对抗过程看作为多智能体系统马尔可夫博弈过程,提出一种基于多智能体博弈强化学习(reinforcement learning of multiagent game,RLoMAG)的装备体系作战效能评估方法。分析了评估方法原理,建立了装备体系对抗模型。给出了装备体系作战效能评估方法框架,包括智能体建模、博弈算法设计、装备体系作战效能指标设计,开展探索性体系对抗仿真,求解装备体系博弈最优策略,分析最优策略下的装备体系作战效能指标等步骤。以基地防御作战场景为背景,给出了无人机蜂群装备体系作战效能评估方法应用示例,验证了方法的有效性。 展开更多
关键词 装备体系 作战效能评估 多智能体博弈强化学习 最优策略
在线阅读 下载PDF
基于双边合同二次交易的高低匹配竞价机制Swarm仿真 被引量:5
15
作者 刘贞 任玉珑 +1 位作者 王恩创 唐皓阳 《电力系统自动化》 EI CSCD 北大核心 2007年第18期26-29,共4页
在发电侧电力市场双边竞价过程中,为了约束发电商的市场力,提出一种基于双边合同二次交易的高低匹配竞价机制。为了验证该机制的正确性,构建了基于Swarm的多主体仿真模型。在模型中考虑了报价接受风险因素,从而使模型与现实中的报价行... 在发电侧电力市场双边竞价过程中,为了约束发电商的市场力,提出一种基于双边合同二次交易的高低匹配竞价机制。为了验证该机制的正确性,构建了基于Swarm的多主体仿真模型。在模型中考虑了报价接受风险因素,从而使模型与现实中的报价行为更加接近。在多主体博弈过程中,主体具有自治能力,可以采取学习博弈方法,充分利用所获取的信息,在竞价过程中不断修正其价格和电量的申报策略。通过对南方某电力市场进行仿真,发现基于双边合同二次交易的竞价机制可以把发电商的市场力约束在一个较小的范围内。 展开更多
关键词 发电侧电力市场 市场力 高低匹配竞价机制 SWARM仿真 双边合同 学习博弈
在线阅读 下载PDF
发电商竞价策略研究
16
作者 董秀明 周晓阳 《应用数学》 CSCD 北大核心 2006年第S1期14-17,共4页
电力市场交易过程中,发电公司之间为了获得额外利润,可能会默契地形成联盟.本文从博弈学习理论的观点,研究了联盟和非联盟情况下有限理性的发电商进行古诺调节学习对市场电价的影响.案例实验表明,联盟情况下的市场电价明显高于非联盟时... 电力市场交易过程中,发电公司之间为了获得额外利润,可能会默契地形成联盟.本文从博弈学习理论的观点,研究了联盟和非联盟情况下有限理性的发电商进行古诺调节学习对市场电价的影响.案例实验表明,联盟情况下的市场电价明显高于非联盟时的电价,防范市场力的一个重要措施是防止联盟的产生. 展开更多
关键词 电力市场 联盟 有限理性 博弈学习理论 古诺调节
在线阅读 下载PDF
兵棋推演的智能决策技术与挑战 被引量:16
17
作者 尹奇跃 赵美静 +2 位作者 倪晚成 张俊格 黄凯奇 《自动化学报》 EI CAS CSCD 北大核心 2023年第5期913-928,共16页
近年来,以人机对抗为途径的智能决策技术取得了飞速发展,人工智能(Artificial intelligence, AI)技术AlphaGo、AlphaStar等分别在围棋、星际争霸等游戏环境中战胜了顶尖人类选手.兵棋推演作为一种人机对抗策略验证环境,由于其非对称环... 近年来,以人机对抗为途径的智能决策技术取得了飞速发展,人工智能(Artificial intelligence, AI)技术AlphaGo、AlphaStar等分别在围棋、星际争霸等游戏环境中战胜了顶尖人类选手.兵棋推演作为一种人机对抗策略验证环境,由于其非对称环境决策、更接近真实环境的随机性与高风险决策等特点,受到智能决策技术研究者的广泛关注.通过梳理兵棋推演与目前主流人机对抗环境(如围棋、德州扑克、星际争霸等)的区别,阐述了兵棋推演智能决策技术的发展现状,分析了当前主流技术的局限与瓶颈,对兵棋推演中的智能决策技术研究进行了思考,期望能对兵棋推演相关问题中的智能决策技术研究带来启发. 展开更多
关键词 兵棋推演 人机对抗 智能决策技术 博弈学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部