期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
两团队零和博弈下熵引导的极小极大值分解强化学习方法
1
作者 胡光政 朱圆恒 赵冬斌 《自动化学报》 北大核心 2025年第4期875-889,共15页
在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-g... 在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization,EGMF)强化学习方法,在线学习队内合作和队间对抗的策略.首先,提出基于极小极大值分解的多智能体执行器−评估器框架,在高采样成本的、不限动作空间的任务中,提升优化效率和博弈性能;其次,引入最大熵使智能体可以更充分地探索状态空间,避免在线学习过程收敛到局部最优;此外,策略在时间域累加的熵值用于评估策略的熵,并将其与分解的个体独立Q函数结合用于策略改进;最后,在多种博弈仿真场景和一个实体机器人任务平台上进行方法验证,并与其他基线方法进行比较.结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略. 展开更多
关键词 多智能体深度强化学习 两团队零和马尔科夫博弈 最大熵 值分解
在线阅读 下载PDF
对手类型未知情况下的两人零和马尔科夫博弈决策
2
作者 王成意 朱进 赵云波 《控制理论与应用》 EI CAS CSCD 北大核心 2024年第11期2131-2138,共8页
本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对... 本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性. 展开更多
关键词 和马尔科夫博弈 非完全信息 极大极小Q学习 纳什均衡 多智能体强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部