期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
模糊多目标两人零和博弈的Pareto策略 被引量:1
1
作者 逄金辉 张强 《北京理工大学学报》 EI CAS CSCD 北大核心 2008年第10期934-936,940,共4页
利用Sakawa模糊目标函数研究了多目标两人零和博弈Pareto最优安全策略.在分析模糊多目标Pareto策略性质的基础上,提出了该策略的确定方法.证明了当博弈达到Pareto均衡时模糊多目标向量函数满足的等价条件,该条件体现了博弈均衡受到局中... 利用Sakawa模糊目标函数研究了多目标两人零和博弈Pareto最优安全策略.在分析模糊多目标Pareto策略性质的基础上,提出了该策略的确定方法.证明了当博弈达到Pareto均衡时模糊多目标向量函数满足的等价条件,该条件体现了博弈均衡受到局中人模糊偏好的影响. 展开更多
关键词 模糊目标 两人零和博弈 Pareto策略
在线阅读 下载PDF
基于Choquet积分的多目标模糊两人零和博弈Nash均衡
2
作者 逄金辉 张强 《北京理工大学学报》 EI CAS CSCD 北大核心 2008年第12期1125-1128,共4页
利用Choquet积分研究了多目标模糊两人零和博弈Nash均衡问题.引入gλ测度描述任意博弈目标子集的重要程度,建立了基于gλ测度Choquet积分的多目标模糊博弈集结矩阵,验证了该博弈集结矩阵的Nash均衡也是各单目标模糊两人零和博弈的Nash均衡.
关键词 模糊两人零和博弈 CHOQUET积分 gλ测度 NASH均衡
在线阅读 下载PDF
一种用于两人零和博弈对手适应的元策略演化学习算法 被引量:3
3
作者 吴哲 李凯 +1 位作者 徐航 兴军亮 《自动化学报》 EI CAS CSCD 北大核心 2022年第10期2462-2473,共12页
围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并... 围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold’em, LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路. 展开更多
关键词 两人零和博弈 纳什均衡 对手建模 元学习 种群演化
在线阅读 下载PDF
基于对手池的两人格斗游戏深度强化学习
4
作者 梁荣钦 朱圆恒 赵冬斌 《控制理论与应用》 北大核心 2025年第2期226-234,共9页
双人游戏在游戏人工智能领域是一个基本且重要的问题,其中一对一零和格斗游戏是最为典型的双人游戏之一.本文基于深度强化学习对格斗游戏博弈对抗策略进行研究.首先建模格斗游戏环境,设计可用于格斗游戏决策的状态、动作以及奖赏函数,... 双人游戏在游戏人工智能领域是一个基本且重要的问题,其中一对一零和格斗游戏是最为典型的双人游戏之一.本文基于深度强化学习对格斗游戏博弈对抗策略进行研究.首先建模格斗游戏环境,设计可用于格斗游戏决策的状态、动作以及奖赏函数,并将阶段策略梯度算法应用于对抗策略的学习.为了尽可能学到纳什均衡策略实现战胜任意对手的目标,本文设计了基于历年参赛的智能体构造对手池用于智能体训练,并探索对手选择机制对于训练过程的影响.最后在固定对手池的基础上,设计了自增长对手池算法,以提升对手策略的完备性和训练智能体的鲁棒性.为了提高环境采样速度,本文从传统并行框架出发,设计了可用于双人游戏的多服务器分布式并行采样框架.通过实验对比发现,基于自增长对手池方法所学的智能体能以96.6%的胜率击败固定对手池中的智能体,并且在与3个仅用于测试的智能体对战时,也表现出了72.2%的胜率. 展开更多
关键词 实时格斗游戏 深度强化学习 两人零和博弈 对手策略池
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部