期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
不完美信息扩展式博弈中在线虚拟遗憾最小化 被引量:9
1
作者 胡裕靖 高阳 安波 《计算机研究与发展》 EI CSCD 北大核心 2014年第10期2160-2170,共11页
研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在... 研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率. 展开更多
关键词 扩展式博弈 不完美信息 遗憾最小 虚拟遗憾最小化 静态估计法 动态估计法
在线阅读 下载PDF
合作-竞争混合型多智能体系统的虚拟遗憾优势自博弈方法 被引量:2
2
作者 张明悦 金芝 刘坤 《软件学报》 EI CSCD 北大核心 2024年第2期739-757,共19页
合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的... 合作-竞争混合型多智能体系统由受控的目标智能体和不受控的外部智能体组成.目标智能体之间互相合作,同外部智能体展开竞争,应对环境和外部智能体的动态变化,最终完成指定的任务.针对如何训练目标智能体使他们获得完成任务的最优策略的问题,现有工作从两个方面展开:(1)仅关注目标智能体间的合作,将外部智能体视为环境的一部分,利用多智能体强化学习来训练目标智能体.这种方法难以应对外部智能体策略未知或者动态改变的情况;(2)仅关注目标智能体和外部智能体间的竞争,将竞争建模为双人博弈,采用自博弈的方法训练目标智能体.这种方法主要针对单个目标智能体和单个外部智能体的情况,难以扩展到由多个目标智能体和多个外部智能体组成的系统中.结合这两类研究,提出一种基于虚拟遗憾优势的自博弈方法.具体地,首先以虚拟遗憾最小化和虚拟多智能体策略梯度为基础,设计虚拟遗憾优势策略梯度方法,使目标智能体能更准确地更新策略;然后,引入模仿学习,以外部智能体的历史决策轨迹作为示教数据,模仿外部智能体的策略,显式地建模外部智能体的行为,来应对自博弈过程中外部智能体策略的动态变化;最后,以虚拟遗憾优势策略梯度和外部智能体行为建模为基础,设计一种自博弈训练方法,该方法能够在外部智能体策略未知或者动态变化的情况下,为多个目标智能体训练出最优的联合策略.以协同电磁对抗为研究案例,设计具有合作-竞争混合特征的3个典型任务.实验结果表明,同其他方法相比,所提方法在自博弈效果方面有至少78%的提升. 展开更多
关键词 多智能体强学习 虚拟遗憾最小化 自博弈 动态决策
在线阅读 下载PDF
基于不完全信息的工业园区多主体需求响应博弈策略研究 被引量:2
3
作者 孙勇 王惠锋 +5 位作者 孟祥东 李宝聚 王大亮 王尧 胡枭 陈厚合 《电工电能新技术》 CSCD 北大核心 2024年第2期65-77,共13页
随着我国电力市场化改革进程的推进与发展,在工业园区层面如何攫取各响应主体最大利润,以引导用户积极参与需求响应成为亟待解决的新问题。基于响应流程中市场信息披露有限且用户与聚合商自由缔结合约的情形,本文提出了一种聚合商视角... 随着我国电力市场化改革进程的推进与发展,在工业园区层面如何攫取各响应主体最大利润,以引导用户积极参与需求响应成为亟待解决的新问题。基于响应流程中市场信息披露有限且用户与聚合商自由缔结合约的情形,本文提出了一种聚合商视角下的最佳博弈策略及针对用户的收益分配方式。考虑工业园区内用户的利益关系,建立以不完全信息贝叶斯博弈作为上层、以合作博弈作为下层的多主体双层博弈架构;其次以最大化自身利益为目标,采用改进的虚拟遗憾最小化思想结合启发式算法求解博弈均衡,达成园区内的稳定合作关系。最后通过算例进行验证,分别设置了不同场景下申报策略和收益分配两方面的多个对比模型,结果表明本文所提方法得出的策略能够提高用户收益,且利益分配机制的合理选择能够在提高用户需求响应积极性方面起到促进作用。 展开更多
关键词 多主体需求响应 贝叶斯博弈 电力市场 工业园区 不完全信息 虚拟遗憾最小化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部