期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
模糊多目标两人零和博弈的Pareto策略
被引量:
1
1
作者
逄金辉
张强
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008年第10期934-936,940,共4页
利用Sakawa模糊目标函数研究了多目标两人零和博弈Pareto最优安全策略.在分析模糊多目标Pareto策略性质的基础上,提出了该策略的确定方法.证明了当博弈达到Pareto均衡时模糊多目标向量函数满足的等价条件,该条件体现了博弈均衡受到局中...
利用Sakawa模糊目标函数研究了多目标两人零和博弈Pareto最优安全策略.在分析模糊多目标Pareto策略性质的基础上,提出了该策略的确定方法.证明了当博弈达到Pareto均衡时模糊多目标向量函数满足的等价条件,该条件体现了博弈均衡受到局中人模糊偏好的影响.
展开更多
关键词
模糊目标
两人零和博弈
Pareto策略
在线阅读
下载PDF
职称材料
基于Choquet积分的多目标模糊两人零和博弈Nash均衡
2
作者
逄金辉
张强
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008年第12期1125-1128,共4页
利用Choquet积分研究了多目标模糊两人零和博弈Nash均衡问题.引入gλ测度描述任意博弈目标子集的重要程度,建立了基于gλ测度Choquet积分的多目标模糊博弈集结矩阵,验证了该博弈集结矩阵的Nash均衡也是各单目标模糊两人零和博弈的Nash均衡.
关键词
模糊
两人零和博弈
CHOQUET积分
gλ测度
NASH均衡
在线阅读
下载PDF
职称材料
一种用于两人零和博弈对手适应的元策略演化学习算法
被引量:
3
3
作者
吴哲
李凯
+1 位作者
徐航
兴军亮
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第10期2462-2473,共12页
围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并...
围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold’em, LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路.
展开更多
关键词
两人零和博弈
纳什均衡
对手建模
元学习
种群演化
在线阅读
下载PDF
职称材料
基于对手池的两人格斗游戏深度强化学习
4
作者
梁荣钦
朱圆恒
赵冬斌
《控制理论与应用》
北大核心
2025年第2期226-234,共9页
双人游戏在游戏人工智能领域是一个基本且重要的问题,其中一对一零和格斗游戏是最为典型的双人游戏之一.本文基于深度强化学习对格斗游戏博弈对抗策略进行研究.首先建模格斗游戏环境,设计可用于格斗游戏决策的状态、动作以及奖赏函数,...
双人游戏在游戏人工智能领域是一个基本且重要的问题,其中一对一零和格斗游戏是最为典型的双人游戏之一.本文基于深度强化学习对格斗游戏博弈对抗策略进行研究.首先建模格斗游戏环境,设计可用于格斗游戏决策的状态、动作以及奖赏函数,并将阶段策略梯度算法应用于对抗策略的学习.为了尽可能学到纳什均衡策略实现战胜任意对手的目标,本文设计了基于历年参赛的智能体构造对手池用于智能体训练,并探索对手选择机制对于训练过程的影响.最后在固定对手池的基础上,设计了自增长对手池算法,以提升对手策略的完备性和训练智能体的鲁棒性.为了提高环境采样速度,本文从传统并行框架出发,设计了可用于双人游戏的多服务器分布式并行采样框架.通过实验对比发现,基于自增长对手池方法所学的智能体能以96.6%的胜率击败固定对手池中的智能体,并且在与3个仅用于测试的智能体对战时,也表现出了72.2%的胜率.
展开更多
关键词
实时格斗游戏
深度强化学习
两人零和博弈
对手策略池
在线阅读
下载PDF
职称材料
题名
模糊多目标两人零和博弈的Pareto策略
被引量:
1
1
作者
逄金辉
张强
机构
北京理工大学信息资源管理研究所
北京理工大学管理与经济学院
出处
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008年第10期934-936,940,共4页
基金
国家自然科学基金资助项目(70771010)
"九八五"工程二期资助项目(107008200400024)
+1 种基金
北京理工大学研究生科技创新项目资助(GA200813
GB200818)
文摘
利用Sakawa模糊目标函数研究了多目标两人零和博弈Pareto最优安全策略.在分析模糊多目标Pareto策略性质的基础上,提出了该策略的确定方法.证明了当博弈达到Pareto均衡时模糊多目标向量函数满足的等价条件,该条件体现了博弈均衡受到局中人模糊偏好的影响.
关键词
模糊目标
两人零和博弈
Pareto策略
Keywords
fuzzy goals
two-person zero-sum game
Pareto strategy
分类号
O159 [理学—基础数学]
在线阅读
下载PDF
职称材料
题名
基于Choquet积分的多目标模糊两人零和博弈Nash均衡
2
作者
逄金辉
张强
机构
北京理工大学信息资源管理研究所
北京理工大学管理与经济学院
出处
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008年第12期1125-1128,共4页
基金
国家自然科学基金资助项目(70471063
70771010)
文摘
利用Choquet积分研究了多目标模糊两人零和博弈Nash均衡问题.引入gλ测度描述任意博弈目标子集的重要程度,建立了基于gλ测度Choquet积分的多目标模糊博弈集结矩阵,验证了该博弈集结矩阵的Nash均衡也是各单目标模糊两人零和博弈的Nash均衡.
关键词
模糊
两人零和博弈
CHOQUET积分
gλ测度
NASH均衡
Keywords
fuzzy two-person zero-sum game
Choquet integral
gλ-measure
Nash equilibrium
分类号
O159 [理学—基础数学]
在线阅读
下载PDF
职称材料
题名
一种用于两人零和博弈对手适应的元策略演化学习算法
被引量:
3
3
作者
吴哲
李凯
徐航
兴军亮
机构
中国科学院自动化研究所智能系统与工程研究中心
中国科学院大学人工智能学院
清华大学计算机科学与技术系
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2022年第10期2462-2473,共12页
基金
国家重点研发计划(2020AAA0103401)
国家自然科学基金(62076238,61902402)
+1 种基金
中国科学院战略性先导研究项目(XDA27000000)
CCF-腾讯犀牛鸟基金(RAGR20200104)资助。
文摘
围绕两人零和博弈所开展的一系列研究,近年来在围棋、德州扑克等问题中取得了里程碑式的突破.现有的两人零和博弈求解方案大多在理性对手的假设下围绕纳什均衡解开展,是一种力求不败的保守型策略,但在实际博弈中由于对手非理性等原因并不能保证收益最大化.对手建模为最大化博弈收益提供了一种新途径,但仍存在建模困难等问题.结合元学习的思想提出了一种能够快速适应对手策略的元策略演化学习求解框架.在训练阶段,首先通过种群演化的方法不断生成风格多样化的博弈对手作为训练数据,然后利用元策略更新方法来调整元模型的网络权重,使其获得快速适应的能力.在Leduc扑克、两人有限注德州扑克(Heads-up limit Texas Hold’em, LHE)和RoboSumo上的大量实验结果表明,该算法能够有效克服现有方法的弊端,实现针对未知风格对手的快速适应,从而为两人零和博弈收益最大化求解提供了一种新思路.
关键词
两人零和博弈
纳什均衡
对手建模
元学习
种群演化
Keywords
Two-player zero-sum games
Nash equilibrium
opponent modeling
meta learning
population evolution
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
O225 [理学—运筹学与控制论]
在线阅读
下载PDF
职称材料
题名
基于对手池的两人格斗游戏深度强化学习
4
作者
梁荣钦
朱圆恒
赵冬斌
机构
中国科学院大学
中国科学院自动化研究所
出处
《控制理论与应用》
北大核心
2025年第2期226-234,共9页
基金
科技创新2030“新一代人工智能”重大项目(2018AAA0102404)
中国科学院战略性先导研究项目(XDA27030400)
+1 种基金
国家自然科学基金项目(62293541,62136008)
中国科学院青年创新促进会项目(2021132)资助.
文摘
双人游戏在游戏人工智能领域是一个基本且重要的问题,其中一对一零和格斗游戏是最为典型的双人游戏之一.本文基于深度强化学习对格斗游戏博弈对抗策略进行研究.首先建模格斗游戏环境,设计可用于格斗游戏决策的状态、动作以及奖赏函数,并将阶段策略梯度算法应用于对抗策略的学习.为了尽可能学到纳什均衡策略实现战胜任意对手的目标,本文设计了基于历年参赛的智能体构造对手池用于智能体训练,并探索对手选择机制对于训练过程的影响.最后在固定对手池的基础上,设计了自增长对手池算法,以提升对手策略的完备性和训练智能体的鲁棒性.为了提高环境采样速度,本文从传统并行框架出发,设计了可用于双人游戏的多服务器分布式并行采样框架.通过实验对比发现,基于自增长对手池方法所学的智能体能以96.6%的胜率击败固定对手池中的智能体,并且在与3个仅用于测试的智能体对战时,也表现出了72.2%的胜率.
关键词
实时格斗游戏
深度强化学习
两人零和博弈
对手策略池
Keywords
real-time fighting game
deep reinforcement learning
two-player zero-sum game
opponent policy pool
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
模糊多目标两人零和博弈的Pareto策略
逄金辉
张强
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008
1
在线阅读
下载PDF
职称材料
2
基于Choquet积分的多目标模糊两人零和博弈Nash均衡
逄金辉
张强
《北京理工大学学报》
EI
CAS
CSCD
北大核心
2008
0
在线阅读
下载PDF
职称材料
3
一种用于两人零和博弈对手适应的元策略演化学习算法
吴哲
李凯
徐航
兴军亮
《自动化学报》
EI
CAS
CSCD
北大核心
2022
3
在线阅读
下载PDF
职称材料
4
基于对手池的两人格斗游戏深度强化学习
梁荣钦
朱圆恒
赵冬斌
《控制理论与应用》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部