检索结果-维普期刊中文期刊服务平台

一种融合注意力机制的德扑计算机博弈决策模型: 1; 作者张小川梁渝卓 +2 位作者彭丽蓉钱毅刘莉莉《重庆理工大学学报(自然科学)》北大核心 2025年第8期85-89,共5页; 德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化... 展开更多; 关键词非完美信息博弈德州扑克深度强化学习注意力机制; 在线阅读下载PDF 职称材料

面向网络控制的数据驱动主动补偿控制算法被引量：2: 2; 作者付伟唐谦《计算机应用与软件》北大核心 2021年第6期225-230,248,共7页; 针对实际工程中网络控制系统建模困难的情况,引入子空间方法,从输入输出数据角度辨识系统的子空间矩阵。为克服开环子空间方法的有偏性,通过计算系统输入输出误差序列,构造闭环子空间从而计算闭环子空间矩阵。为克服时延的影响,构造预... 展开更多; 关键词网络控制系统闭环子空间预测控制; 在线阅读下载PDF 职称材料

一种大众麻将计算机博弈的胡牌方法研究被引量：8: 3; 作者彭丽蓉赵海璐 +2 位作者甘春晏刘洁陈俊宇《重庆理工大学学报（自然科学）》 CAS 北大核心 2021年第12期127-133,共7页; 麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法... 展开更多; 关键词计算机博弈非完美信息博弈麻将博弈胡牌方法胡牌距离; 在线阅读下载PDF 职称材料

一种结合策略价值网络的五子棋自博弈方法研究被引量：4: 4; 作者刘溜张小川 +3 位作者彭丽蓉田震万家强任越《重庆理工大学学报（自然科学）》 CAS 北大核心 2022年第12期129-135,共7页; 针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结... 展开更多; 关键词蒙特卡洛树搜索深度神经网络五子棋计算机博弈自博弈; 在线阅读下载PDF 职称材料

题名一种融合注意力机制的德扑计算机博弈决策模型: 1; 作者张小川梁渝卓彭丽蓉钱毅刘莉莉; 机构重庆理工大学两江人工智能学院重庆工业职业技术学院人工智能与大数据学院重庆理工大学人工智能系统研究所; 出处《重庆理工大学学报(自然科学)》北大核心 2025年第8期85-89,共5页; 基金国家自然科学基金项目(60443004) 重庆市技术创新与应用发展专项项目(cstc2021jscx-dxwtBX0019)。; 文摘德州扑克是一种状态空间庞大的非完美信息博弈游戏,传统的决策模型依赖于人类先验知识,为此,以深度强化学习框架为基础,在零先验知识情况下,构造了一种德州扑克AI,较好地克服了神经虚拟自博弈(neural fictitious self play)算法的泛化能力差,通过不断与其他AI进行对弈,不断更新神经网络参数、持续提升决策精度。为进一步加快模型收敛速度、提高博弈能力,再引入注意力机制,赋予对手历史下注、弃牌等博弈动作权重知识,帮助德州扑克AI更好地分析对手打牌风格。实验数据表明:在与其他AI的对战结果中,德州扑克AI在5000局对战中,击败了先验知识型AI和使用CFR算法的AI、使用NFSP算法的AI,证明本文中的德州扑克AI有效性、先进性较好。; 关键词非完美信息博弈德州扑克深度强化学习注意力机制; Keywords non-perfect information games Texas Hold’em poker deep reinforcement learning attention mechanisms; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名面向网络控制的数据驱动主动补偿控制算法被引量：2: 2; 作者付伟唐谦; 机构重庆工业职业技术学院人工智能与大数据学院; 出处《计算机应用与软件》北大核心 2021年第6期225-230,248,共7页; 基金国家自然科学基金联合基金项目(107-KZ18W30016) 重庆市教委科学技术研究项目青年项目(KJQN201903202) 重庆工业职业技术学院重点科研项目(GZY201802-ZA)。; 文摘针对实际工程中网络控制系统建模困难的情况,引入子空间方法,从输入输出数据角度辨识系统的子空间矩阵。为克服开环子空间方法的有偏性,通过计算系统输入输出误差序列,构造闭环子空间从而计算闭环子空间矩阵。为克服时延的影响,构造预测模型,设计闭环子空间预测控制算法及补偿结构,主动补偿网络时延的影响。为便于在线递推计算,采用一种简单的参数矩阵更新方法,相比于复杂的矩阵分解算法,减小了计算复杂度,提高了系统的实时性。; 关键词网络控制系统闭环子空间预测控制; Keywords Networked control system Closed-loop subspace Predictive contorl; 分类号 TP273 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名一种大众麻将计算机博弈的胡牌方法研究被引量：8: 3; 作者彭丽蓉赵海璐甘春晏刘洁陈俊宇; 机构重庆理工大学人工智能系统研究所重庆工业职业技术学院人工智能与大数据学院; 出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2021年第12期127-133,共7页; 基金国家自然科学基金项目(60443004)。; 文摘麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法。为此,首先分析麻将的大众规则;其次,基于各种牌型和持有牌点数,提出一种胡牌距离概念,以最短胡牌距离为标准,作为玩家的决策依据;最后,依据已知公开的出牌和玩家手上牌张信息,融合先验知识后,进一步计算每种出牌行为的期望胜率,从而获得出牌行为评估值,作为玩家的决策依据。实验结果表明:利用维持最短胡牌距离为核心的快速胡牌方法,在有限牌对局数下,比如在中国计算机博弈锦标赛中此局数设定为10000局,依据设计的智能体,能取得46.85%以上的牌局胜利,该值远高于仅仅使用纯粹经验方法的数值。; 关键词计算机博弈非完美信息博弈麻将博弈胡牌方法胡牌距离; Keywords computer game imperfect-information game Mahjong hu method hu distance; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名一种结合策略价值网络的五子棋自博弈方法研究被引量：4: 4; 作者刘溜张小川彭丽蓉田震万家强任越; 机构重庆理工大学两江人工智能学院重庆理工大学人工智能系统研究所重庆工业职业技术学院人工智能与大数据学院重庆市南开两江中学校; 出处《重庆理工大学学报（自然科学）》 CAS 北大核心 2022年第12期129-135,共7页; 基金国家自然科学基金项目(60443004)。; 文摘针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结果用以持续更新网络参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化。实验表明:相较于各种经典搜索算法,所提算法在平均落子时间上降低了约95%,平均对局胜率达到80%以上。; 关键词蒙特卡洛树搜索深度神经网络五子棋计算机博弈自博弈; Keywords Monte Carlo tree search deep neural network computer-based Gobang game self-play; 分类号 TP301 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种融合注意力机制的德扑计算机博弈决策模型	张小川梁渝卓彭丽蓉钱毅刘莉莉	《重庆理工大学学报(自然科学)》北大核心	2025	0	在线阅读下载PDF 职称材料
2	面向网络控制的数据驱动主动补偿控制算法	付伟唐谦	《计算机应用与软件》北大核心	2021	2	在线阅读下载PDF 职称材料
3	一种大众麻将计算机博弈的胡牌方法研究	彭丽蓉赵海璐甘春晏刘洁陈俊宇	《重庆理工大学学报（自然科学）》 CAS 北大核心	2021	8	在线阅读下载PDF 职称材料
4	一种结合策略价值网络的五子棋自博弈方法研究	刘溜张小川彭丽蓉田震万家强任越	《重庆理工大学学报（自然科学）》 CAS 北大核心	2022	4	在线阅读下载PDF 职称材料