期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种针对德州扑克AI的对手建模与策略集成框架
被引量:
6
1
作者
张蒙
李凯
+3 位作者
吴哲
臧一凡
徐航
兴军亮
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第4期1004-1017,共14页
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收...
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到能够剥削不同博弈风格对手的策略神经网络.在第2博弈阶段中,智能体在线建模并适应未知风格对手,利用种群策略集成的方法最大化剥削对手.在两人无限注德州扑克环境中的实验结果表明,本框架在面对动态对手策略时,相比已有方法能够大幅提升博弈性能.
展开更多
关键词
不完美信息博弈
德州扑克
演化学习
在线对手建模
种群策略集成
在线阅读
下载PDF
职称材料
题名
一种针对德州扑克AI的对手建模与策略集成框架
被引量:
6
1
作者
张蒙
李凯
吴哲
臧一凡
徐航
兴军亮
机构
中国科学院自动化研究所
中国科学院大学
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第4期1004-1017,共14页
基金
国家自然科学基金(62076238,61902402)
国家重点研发计划(2020AAA0103401)
+1 种基金
中国科学院战略性先导研究项目(XDA27000000)
CCF-腾讯犀牛鸟基金(RAGR20200104)资助。
文摘
以德州扑克游戏为代表的大规模不完美信息博弈是现实世界中常见的一种博弈类型.现有以求解纳什均衡策略为目标的主流德州扑克求解算法存在依赖博弈树模型、算力消耗大、策略过于保守等问题,导致智能体在面对不同对手时无法最大化自身收益.为解决上述问题,提出一种轻量高效且能快速适应对手策略变化进而剥削对手的不完美信息博弈求解框架.本框架分为智能体离线训练和在线博弈两个阶段.第1阶段基于演化学习思想训练智能体,得到能够剥削不同博弈风格对手的策略神经网络.在第2博弈阶段中,智能体在线建模并适应未知风格对手,利用种群策略集成的方法最大化剥削对手.在两人无限注德州扑克环境中的实验结果表明,本框架在面对动态对手策略时,相比已有方法能够大幅提升博弈性能.
关键词
不完美信息博弈
德州扑克
演化学习
在线对手建模
种群策略集成
Keywords
Imperfect information game
Texas Hold'em
evolutionary learning
online opponent modeling
population strategy integration
分类号
O225 [理学—运筹学与控制论]
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种针对德州扑克AI的对手建模与策略集成框架
张蒙
李凯
吴哲
臧一凡
徐航
兴军亮
《自动化学报》
EI
CAS
CSCD
北大核心
2022
6
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部