期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一类非完备信息博弈的信息模型 被引量:5
1
作者 马骁 王轩 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 2010年第12期2100-2109,共10页
近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获... 近年来随着对非完备信息博弈研究的不断深入,如何表示、处理博弈过程中的信息成了新的问题.提出了信息空间的概念,指出了信息集与信息空间的关系.首次采用二分图构建了Ⅱ型非完备信息游戏的通用信息模型,并在此模型基础上研究了信息获取方法,引入Markov模型进行信息处理.通过在四国军棋上的实验验证了通用信息模型在获取、管理非完备信息上的有效性,并证明了Markov网络在非完备信息处理中的有效性. 展开更多
关键词 非完备信息博弈 信息空间 MARKOV网络 二分图 四国军棋
在线阅读 下载PDF
基于Expectimax搜索与Double DQN的非完备信息博弈算法 被引量:7
2
作者 雷捷维 王嘉旸 +2 位作者 任航 闫天伟 黄伟 《计算机工程》 CAS CSCD 北大核心 2021年第3期304-310,320,共8页
麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜... 麻将作为典型的非完备信息博弈游戏主要通过传统Expectimax搜索算法实现,其剪枝策略与估值函数基于人工先验知识设计,存在假设不合理等问题。提出一种结合Expectimax搜索与Double DQN强化学习算法的非完备信息博弈算法。在Expectimax搜索树扩展过程中,采用Double DQN输出的估值设计估值函数并在限定搜索层数内获得分支估值,同时设计剪枝策略对打牌动作进行排序与部分扩展实现搜索树剪枝。在Double DQN模型训练过程中,将麻将信息编码为特征数据输入神经网络获得估值,使用Expectimax搜索算法得到最优动作以改进探索策略。实验结果表明,与Expectimax搜索算法、Double DQN算法等监督学习算法相比,该算法在麻将游戏上胜率与得分更高,具有更优异的博弈性能。 展开更多
关键词 Double DQN算法 Expectimax搜索 非完备信息博弈 麻将 强化学习
在线阅读 下载PDF
UCT-RAVE算法在多人非完备信息博弈中的应用 被引量:1
3
作者 芮雄星 王一莉 《计算机工程与设计》 CSCD 北大核心 2012年第3期1136-1139,共4页
针对传统博弈搜索算法无法适用于多人非完备信息博弈,通过分析UCT-RAVE算法的原理和特性,提出了运用UCT-RAVE算法与蒙特卡罗抽样技术相结合的方法。通过蒙特卡罗抽样技术将非完备信息提取为有一定可信度的完备信息,运用UCT-RAVE算法基... 针对传统博弈搜索算法无法适用于多人非完备信息博弈,通过分析UCT-RAVE算法的原理和特性,提出了运用UCT-RAVE算法与蒙特卡罗抽样技术相结合的方法。通过蒙特卡罗抽样技术将非完备信息提取为有一定可信度的完备信息,运用UCT-RAVE算法基于此完备信息进行搜索,结合多次蒙特卡罗抽样下的最佳收益,选择最适行动。实例结果表明了该方法的可行性和有效性。 展开更多
关键词 博弈搜索 UCT-RAVE算法 多人非完备信息博弈 蒙特卡罗抽样 牌类博弈
在线阅读 下载PDF
结合PPO和蒙特卡洛树搜索的斗地主博弈模型
4
作者 王世鹏 王亚杰 +2 位作者 吴燕燕 郭其龙 赵甜宇 《重庆理工大学学报(自然科学)》 北大核心 2025年第8期126-133,共8页
斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy... 斗地主是一种典型的非完备信息博弈,由于具有多人博弈、动作空间庞大、合作与竞争并存等决策需求,单一的蒙特卡洛树搜索在应用时存在效率低的问题。为提升蒙特卡洛树搜索的策略效果和搜索效率,提出一种基于近端策略优化(proximal policy optimization,PPO)算法结合蒙特卡洛树搜索的斗地主博弈模型。利用PPO算法学习斗地主中的牌局和策略信息,训练出可根据当前局面提供动作概率的策略模型,为蒙特卡洛树搜索的选择和模拟阶段提供策略指导。在选择阶段,通过PPO策略模型输出的动作概率优化策略选择公式,指导高质量动作节点的选择。在模拟阶段,PPO替代了随机模拟过程,使模拟更加符合策略,减少低效路径的探索。实验结果表明:结合PPO优化后的蒙特卡洛树搜索不仅提高了决策的效率,还提升了模型的胜率,表现出较强的斗地主博弈决策优势。 展开更多
关键词 PPO算法 蒙特卡洛树搜索 斗地主 非完备信息博弈
在线阅读 下载PDF
麻将博弈AI构建方法综述 被引量:7
5
作者 李霞丽 王昭琦 +1 位作者 刘博 吴立成 《智能系统学报》 CSCD 北大核心 2023年第6期1143-1155,共13页
麻将及其不同变体的规则复杂,构建高水平的麻将博弈AI(artificial intelligence)算法及其测试环境等面临巨大挑战。本文分析了麻将博弈的相关研究文献,梳理出基于知识和基于数据的两大类麻将AI构建方法,分析了每种类型的构建方法的优势... 麻将及其不同变体的规则复杂,构建高水平的麻将博弈AI(artificial intelligence)算法及其测试环境等面临巨大挑战。本文分析了麻将博弈的相关研究文献,梳理出基于知识和基于数据的两大类麻将AI构建方法,分析了每种类型的构建方法的优势和局限性,重点分析了Suphx构建方法。指出了麻将AI构建面临的问题和挑战;提出将经验回放、分层强化学习、好奇心模型、对手模型、元学习、迁移学习、课程学习等应用到麻将博弈AI算法优化中,构建多元化的麻将AI评估指标、通用对抗平台和高质量的数据集等未来的研究重点。 展开更多
关键词 机器博弈 非完备信息博弈 麻将 Suphx 知识 对手建模 深度学习 强化学习
在线阅读 下载PDF
基于手牌预测的多人无限注德州扑克博弈方法 被引量:14
6
作者 李翔 姜晓红 +1 位作者 陈英芝 包友军 《计算机学报》 EI CSCD 北大核心 2018年第1期47-64,共18页
作为非完备信息博弈的典型代表,德州扑克一直是人工智能领域内的难题.尤其在多人无限注德州扑克中,博弈策略的制定需要考虑诸多复杂因素,加上其解空间巨大,使问题极具挑战.一般有两种思路解决之:第一种是基于博弈论的方法,通过搜索博弈... 作为非完备信息博弈的典型代表,德州扑克一直是人工智能领域内的难题.尤其在多人无限注德州扑克中,博弈策略的制定需要考虑诸多复杂因素,加上其解空间巨大,使问题极具挑战.一般有两种思路解决之:第一种是基于博弈论的方法,通过搜索博弈树、寻找纳什均衡点得到最佳策略;第二种是基于知识的方法,通过学习人类玩家的行动来制定博弈策略.该文的方法属于后者:提出了一种基于牌型预测的德州扑克博弈方法.该方法的基本思想是模拟人类玩家的"读牌"能力.读牌是德州扑克对抗中的重要部分,即根据对手表现出的即时信息及过往的行为习惯,判断对手手牌的大致分布甚至精确牌型.读牌之所以可行,是因为随着牌局发展,对手会进行多次行动,而这些行动往往体现了其手牌信息.文章从非完备信息博弈的角度出发,提出了一套完整的博弈框架,并讨论框架的适用性.随后,将该框架具体应用于德州扑克,将研究重点放在未知信息集的预测上,并采用蒙特卡洛方法计算胜率、得出决策.文章详细地阐述了该方法的设计思想和实现细节,为多人无限注德州扑克程序的设计提供了宝贵的参考.该文是首篇全面论述并设计实现了基于对手手牌预测的多人(超过三人)无限注德州扑克程序的论文.在对手牌型预测上,该文程序比马尔可夫模型的预测精度平均高出6.65%.在博弈性能上,选择2015年华为软件精英挑战赛上的七个程序进行比较,采用锦标赛赛制(允许一次后续买入).两人局比赛的平均胜率为89%,八人局比赛的平均名次为1.74.同时在筹码胜负、坚持局数等多项指标上均取得最好成绩. 展开更多
关键词 非完备信息博弈 人工智能 德州扑克 手牌预测 蒙特卡洛
在线阅读 下载PDF
基于卷积神经网络的“拱猪”博弈算法
7
作者 吴立成 吴启飞 +2 位作者 钟宏鸣 王世尧 李霞丽 《智能系统学报》 CSCD 北大核心 2023年第4期775-782,共8页
“拱猪”又称“华牌”,是一款极具特点的牌类游戏,属于非完备信息博弈,由亮牌和出牌2个阶段组成,整个游戏过程具有极强的反转性。为了研究“拱猪”计算机博弈算法,本文提出了一种基于深度学习的“拱猪”博弈算法,包含亮牌和出牌2个神经... “拱猪”又称“华牌”,是一款极具特点的牌类游戏,属于非完备信息博弈,由亮牌和出牌2个阶段组成,整个游戏过程具有极强的反转性。为了研究“拱猪”计算机博弈算法,本文提出了一种基于深度学习的“拱猪”博弈算法,包含亮牌和出牌2个神经网络,分别用于亮牌和出牌阶段。亮牌和出牌网络均采用卷积神经网络(convolutional neural network,CNN)来构建,根据功能特点分别设计为不同的网络结构。采用11000局人类高级玩家的真实牌谱按比例生成训练数据和测试数据,对2个CNN网络进行了训练、测试和分析。结果表明,亮牌和出牌网络分别达到了88.4%和71.4%的准确率。对亮牌和出牌的一些具体例子进行的分析表明,本文算法能够产生合理的亮牌和出牌策略。 展开更多
关键词 人工智能 非完备信息博弈 深度学习 卷积神经网络 拱猪 华牌 亮牌 出牌
在线阅读 下载PDF
机器博弈风险分析及其估算方法的研究 被引量:1
8
作者 张加佳 王轩 《高技术通讯》 CAS CSCD 北大核心 2013年第9期965-972,共8页
提出了风险损失的概念,讨论了机器博弈问题中可能导致风险损失的几种因素。针对完备信息和非完备信息机器博弈问题的风险损失情况进行分析,提出了一个在博弈过程中估算机器博弈问题风险损失的方法。通过对完备信息博弈问题和非完备信息... 提出了风险损失的概念,讨论了机器博弈问题中可能导致风险损失的几种因素。针对完备信息和非完备信息机器博弈问题的风险损失情况进行分析,提出了一个在博弈过程中估算机器博弈问题风险损失的方法。通过对完备信息博弈问题和非完备信息多人博弈问题的实验,论证了所提出的观点,并验证了提出的风险损失估算方法的有效性。最后提出了一种基于风险损失的博弈策略选择方法。 展开更多
关键词 多重均衡 风险占优均衡 非完备信息博弈 风险损失
在线阅读 下载PDF
面向智能博弈游戏的卷积神经网络估值方法 被引量:1
9
作者 唐杰 许华虎 谈广云 《计算机应用与软件》 北大核心 2020年第7期259-265,共7页
非完备信息博弈中存在的许多问题在日常生活也同样存在,研究它对解决人们日常中的问题以及提高生活质量有重要意义。德州扑克是典型的非完备信息博弈牌类游戏,针对德州扑克博弈提出一种基于卷积神经网络的估值算法模型。选择用大师之间... 非完备信息博弈中存在的许多问题在日常生活也同样存在,研究它对解决人们日常中的问题以及提高生活质量有重要意义。德州扑克是典型的非完备信息博弈牌类游戏,针对德州扑克博弈提出一种基于卷积神经网络的估值算法模型。选择用大师之间的博弈历史记录来训练该模型,从而达到学习大师的目的。将该估值模型的博弈程序与前人设计的博弈程序进行博弈,实验结果表明:学习人类大师经验的卷积神经网络估值方法可以提供更好的决策,增强了德州扑克博弈程序的牌力。 展开更多
关键词 非完备信息博弈 德州博弈 卷积神经网络 估值算法
在线阅读 下载PDF
基于数据库和经验分析的桥牌混合策略打牌模型 被引量:3
10
作者 邱虹坤 郑晓东 王亚杰 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第12期134-139,154,共7页
基于桥牌博弈模型现状,分别从3个方面提出模型优化思路,得到最终的混合策略打牌模型:对于叫牌,采用更为适合计算机理解的精确叫牌体系,运用数据库对于精确叫牌体系造成的代码冗余问题,进行二次优化;对于打牌,在开局阶段根据经验制定不... 基于桥牌博弈模型现状,分别从3个方面提出模型优化思路,得到最终的混合策略打牌模型:对于叫牌,采用更为适合计算机理解的精确叫牌体系,运用数据库对于精确叫牌体系造成的代码冗余问题,进行二次优化;对于打牌,在开局阶段根据经验制定不同打牌方位的出牌策略,采用经验分析与明手求解策略混合模式,通过数学分析,发现2种模式交换的分割线,从而实现混合模式打牌策略;对于评估函数,通过提高细化度,使其更精确地描述牌局现状。最后,通过对比实验,验证了优化后的桥牌打牌模型的综合能力有所提升。 展开更多
关键词 桥牌 非完备信息博弈 叫牌 打牌 评估
在线阅读 下载PDF
基于预期收益策略与UCT的德州扑克算法 被引量:3
11
作者 王亚杰 丁傲冬 +1 位作者 祁冰枝 张云博 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第3期166-173,共8页
针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改进UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌... 针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改进UCT算法。首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌,然后比较双方牌型大小,计算己方胜率;其次,根据己方胜率和己方动作下注量计算预期收益并根据每个动作的预期收益,选择一个最大的动作作为下一步;最后,根据己方胜率与对手下注量评估对手胜率,从而将预期收益策略作为对手策略模型应用在传统UCT算法中。在开局筹码量为20 000的情况下,改进后的UCT算法与基于预期收益策略实现的德州扑克程序THPZZ进行100局的对弈,平均每局赢得的筹码量为655,水平显著高于THPZZ。 展开更多
关键词 UCT算法 蒙特卡罗 德州扑克 预期收益 对手胜率评估 非完备信息博弈
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部