期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种融合注意力机制的德扑计算机博弈决策模型
1
作者
张小川
梁渝卓
+2 位作者
彭丽蓉
钱毅
刘莉莉
《重庆理工大学学报(自然科学)》
北大核心
2025年第8期85-89,共5页
德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化...
德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化能力差,通过不断与其他AI进行对弈,不断更新神经网络参数、持续提升决策精度。为进一步加快模型收敛速度、提高博弈能力,再引入注意力机制,赋予对手历史下注、弃牌等博弈动作权重知识,帮助德州扑克AI更好地分析对手打牌风格。实验数据表明:在与其他AI的对战结果中,德州扑克AI在5000局对战中,击败了先验知识型AI和使用CFR算法的AI、使用NFSP算法的AI,证明本文中的德州扑克AI有效性、先进性较好。
展开更多
关键词
非完美信息博弈
德州扑克
深度强化学习
注意力机制
在线阅读
下载PDF
职称材料
面向网络控制的数据驱动主动补偿控制算法
被引量:
2
2
作者
付伟
唐谦
《计算机应用与软件》
北大核心
2021年第6期225-230,248,共7页
针对实际工程中网络控制系统建模困难的情况,引入子空间方法,从输入输出数据角度辨识系统的子空间矩阵。为克服开环子空间方法的有偏性,通过计算系统输入输出误差序列,构造闭环子空间从而计算闭环子空间矩阵。为克服时延的影响,构造预...
针对实际工程中网络控制系统建模困难的情况,引入子空间方法,从输入输出数据角度辨识系统的子空间矩阵。为克服开环子空间方法的有偏性,通过计算系统输入输出误差序列,构造闭环子空间从而计算闭环子空间矩阵。为克服时延的影响,构造预测模型,设计闭环子空间预测控制算法及补偿结构,主动补偿网络时延的影响。为便于在线递推计算,采用一种简单的参数矩阵更新方法,相比于复杂的矩阵分解算法,减小了计算复杂度,提高了系统的实时性。
展开更多
关键词
网络控制系统
闭环子空间
预测控制
在线阅读
下载PDF
职称材料
一种大众麻将计算机博弈的胡牌方法研究
被引量:
8
3
作者
彭丽蓉
赵海璐
+2 位作者
甘春晏
刘洁
陈俊宇
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021年第12期127-133,共7页
麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法...
麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法。为此,首先分析麻将的大众规则;其次,基于各种牌型和持有牌点数,提出一种胡牌距离概念,以最短胡牌距离为标准,作为玩家的决策依据;最后,依据已知公开的出牌和玩家手上牌张信息,融合先验知识后,进一步计算每种出牌行为的期望胜率,从而获得出牌行为评估值,作为玩家的决策依据。实验结果表明:利用维持最短胡牌距离为核心的快速胡牌方法,在有限牌对局数下,比如在中国计算机博弈锦标赛中此局数设定为10000局,依据设计的智能体,能取得46.85%以上的牌局胜利,该值远高于仅仅使用纯粹经验方法的数值。
展开更多
关键词
计算机博弈
非完美信息博弈
麻将博弈
胡牌方法
胡牌距离
在线阅读
下载PDF
职称材料
一种结合策略价值网络的五子棋自博弈方法研究
被引量:
4
4
作者
刘溜
张小川
+3 位作者
彭丽蓉
田震
万家强
任越
《重庆理工大学学报(自然科学)》
CAS
北大核心
2022年第12期129-135,共7页
针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结...
针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结果用以持续更新网络参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化。实验表明:相较于各种经典搜索算法,所提算法在平均落子时间上降低了约95%,平均对局胜率达到80%以上。
展开更多
关键词
蒙特卡洛树搜索
深度神经网络
五子棋计算机博弈
自博弈
在线阅读
下载PDF
职称材料
题名
一种融合注意力机制的德扑计算机博弈决策模型
1
作者
张小川
梁渝卓
彭丽蓉
钱毅
刘莉莉
机构
重庆
理工大学两江
人工智能
学院
重庆工业职业技术学院人工智能与大数据学院
重庆
理工大学
人工智能
系统研究所
出处
《重庆理工大学学报(自然科学)》
北大核心
2025年第8期85-89,共5页
基金
国家自然科学基金项目(60443004)
重庆市技术创新与应用发展专项项目(cstc2021jscx-dxwtBX0019)。
文摘
德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化能力差,通过不断与其他AI进行对弈,不断更新神经网络参数、持续提升决策精度。为进一步加快模型收敛速度、提高博弈能力,再引入注意力机制,赋予对手历史下注、弃牌等博弈动作权重知识,帮助德州扑克AI更好地分析对手打牌风格。实验数据表明:在与其他AI的对战结果中,德州扑克AI在5000局对战中,击败了先验知识型AI和使用CFR算法的AI、使用NFSP算法的AI,证明本文中的德州扑克AI有效性、先进性较好。
关键词
非完美信息博弈
德州扑克
深度强化学习
注意力机制
Keywords
non-perfect information games
Texas Hold’em poker
deep reinforcement learning
attention mechanisms
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
面向网络控制的数据驱动主动补偿控制算法
被引量:
2
2
作者
付伟
唐谦
机构
重庆工业职业技术学院人工智能与大数据学院
出处
《计算机应用与软件》
北大核心
2021年第6期225-230,248,共7页
基金
国家自然科学基金联合基金项目(107-KZ18W30016)
重庆市教委科学技术研究项目青年项目(KJQN201903202)
重庆工业职业技术学院重点科研项目(GZY201802-ZA)。
文摘
针对实际工程中网络控制系统建模困难的情况,引入子空间方法,从输入输出数据角度辨识系统的子空间矩阵。为克服开环子空间方法的有偏性,通过计算系统输入输出误差序列,构造闭环子空间从而计算闭环子空间矩阵。为克服时延的影响,构造预测模型,设计闭环子空间预测控制算法及补偿结构,主动补偿网络时延的影响。为便于在线递推计算,采用一种简单的参数矩阵更新方法,相比于复杂的矩阵分解算法,减小了计算复杂度,提高了系统的实时性。
关键词
网络控制系统
闭环子空间
预测控制
Keywords
Networked control system
Closed-loop subspace
Predictive contorl
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
一种大众麻将计算机博弈的胡牌方法研究
被引量:
8
3
作者
彭丽蓉
赵海璐
甘春晏
刘洁
陈俊宇
机构
重庆
理工大学
人工智能
系统研究所
重庆工业职业技术学院人工智能与大数据学院
出处
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021年第12期127-133,共7页
基金
国家自然科学基金项目(60443004)。
文摘
麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法。为此,首先分析麻将的大众规则;其次,基于各种牌型和持有牌点数,提出一种胡牌距离概念,以最短胡牌距离为标准,作为玩家的决策依据;最后,依据已知公开的出牌和玩家手上牌张信息,融合先验知识后,进一步计算每种出牌行为的期望胜率,从而获得出牌行为评估值,作为玩家的决策依据。实验结果表明:利用维持最短胡牌距离为核心的快速胡牌方法,在有限牌对局数下,比如在中国计算机博弈锦标赛中此局数设定为10000局,依据设计的智能体,能取得46.85%以上的牌局胜利,该值远高于仅仅使用纯粹经验方法的数值。
关键词
计算机博弈
非完美信息博弈
麻将博弈
胡牌方法
胡牌距离
Keywords
computer game
imperfect-information game
Mahjong
hu method
hu distance
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种结合策略价值网络的五子棋自博弈方法研究
被引量:
4
4
作者
刘溜
张小川
彭丽蓉
田震
万家强
任越
机构
重庆
理工大学两江
人工智能
学院
重庆
理工大学
人工智能
系统研究所
重庆工业职业技术学院人工智能与大数据学院
重庆
市南开两江中学校
出处
《重庆理工大学学报(自然科学)》
CAS
北大核心
2022年第12期129-135,共7页
基金
国家自然科学基金项目(60443004)。
文摘
针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结果用以持续更新网络参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化。实验表明:相较于各种经典搜索算法,所提算法在平均落子时间上降低了约95%,平均对局胜率达到80%以上。
关键词
蒙特卡洛树搜索
深度神经网络
五子棋计算机博弈
自博弈
Keywords
Monte Carlo tree search
deep neural network
computer-based Gobang game
self-play
分类号
TP301 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种融合注意力机制的德扑计算机博弈决策模型
张小川
梁渝卓
彭丽蓉
钱毅
刘莉莉
《重庆理工大学学报(自然科学)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
面向网络控制的数据驱动主动补偿控制算法
付伟
唐谦
《计算机应用与软件》
北大核心
2021
2
在线阅读
下载PDF
职称材料
3
一种大众麻将计算机博弈的胡牌方法研究
彭丽蓉
赵海璐
甘春晏
刘洁
陈俊宇
《重庆理工大学学报(自然科学)》
CAS
北大核心
2021
8
在线阅读
下载PDF
职称材料
4
一种结合策略价值网络的五子棋自博弈方法研究
刘溜
张小川
彭丽蓉
田震
万家强
任越
《重庆理工大学学报(自然科学)》
CAS
北大核心
2022
4
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部