期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
两团队零和博弈下熵引导的极小极大值分解强化学习方法
1
作者
胡光政
朱圆恒
赵冬斌
《自动化学报》
北大核心
2025年第4期875-889,共15页
在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-g...
在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization,EGMF)强化学习方法,在线学习队内合作和队间对抗的策略.首先,提出基于极小极大值分解的多智能体执行器−评估器框架,在高采样成本的、不限动作空间的任务中,提升优化效率和博弈性能;其次,引入最大熵使智能体可以更充分地探索状态空间,避免在线学习过程收敛到局部最优;此外,策略在时间域累加的熵值用于评估策略的熵,并将其与分解的个体独立Q函数结合用于策略改进;最后,在多种博弈仿真场景和一个实体机器人任务平台上进行方法验证,并与其他基线方法进行比较.结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
展开更多
关键词
多智能体深度强化学习
两团队零和马尔科夫博弈
最大熵
值分解
在线阅读
下载PDF
职称材料
对手类型未知情况下的两人零和马尔科夫博弈决策
2
作者
王成意
朱进
赵云波
《控制理论与应用》
EI
CAS
CSCD
北大核心
2024年第11期2131-2138,共8页
本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对...
本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.
展开更多
关键词
两
人
零
和马尔科夫
博弈
非完全信息
极大极小Q学习
纳什均衡
多智能体强化学习
在线阅读
下载PDF
职称材料
题名
两团队零和博弈下熵引导的极小极大值分解强化学习方法
1
作者
胡光政
朱圆恒
赵冬斌
机构
中国科学院大学人工智能学院
中国科学院自动化研究所多模态人工智能系统全国重点实验室
出处
《自动化学报》
北大核心
2025年第4期875-889,共15页
基金
国家自然科学基金(62293541,62136008)
北京市自然科学基金(4232056)
+1 种基金
北京市科技新星计划(20240484514)
中国科学院“全球共性挑战专项”(104GJHZ2022013GC)资助。
文摘
在两团队零和马尔科夫博弈中,一组玩家通过合作与另一组玩家进行对抗.由于对手行为的不确定性和复杂的团队内部合作关系,在高采样成本的任务中快速识别优势的分布式策略仍然具有挑战性.鉴于此,提出一种熵引导的极小极大值分解(Entropy-guided minimax factorization,EGMF)强化学习方法,在线学习队内合作和队间对抗的策略.首先,提出基于极小极大值分解的多智能体执行器−评估器框架,在高采样成本的、不限动作空间的任务中,提升优化效率和博弈性能;其次,引入最大熵使智能体可以更充分地探索状态空间,避免在线学习过程收敛到局部最优;此外,策略在时间域累加的熵值用于评估策略的熵,并将其与分解的个体独立Q函数结合用于策略改进;最后,在多种博弈仿真场景和一个实体机器人任务平台上进行方法验证,并与其他基线方法进行比较.结果显示EGMF可以在更少样本下学到更具有对抗性能的两团队博弈策略.
关键词
多智能体深度强化学习
两团队零和马尔科夫博弈
最大熵
值分解
Keywords
Multi-agent deep reinforcement learning
two-team zero-sum Markov games
maximum entropy
factorization
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
O225 [理学—运筹学与控制论]
在线阅读
下载PDF
职称材料
题名
对手类型未知情况下的两人零和马尔科夫博弈决策
2
作者
王成意
朱进
赵云波
机构
中国科学技术大学信息科学技术学院
出处
《控制理论与应用》
EI
CAS
CSCD
北大核心
2024年第11期2131-2138,共8页
基金
国家重点研发计划项目(2018AAA0100802)
安徽省自然科学基金项目(2008085MF198)资助.
文摘
本文研究一类典型的非完全信息博弈问题—-对手类型未知的两人零和马尔科夫博弈,其中对手类型多样且每次博弈开始前无法得知对手类型.文中提出了一种基于模型的多智能体强化学习算法—-对手辨识的极大极小Q学习(DOMQ).该算法首先建立对手相关环境的经验模型,再使用经验模型学习纳什均衡策略,己方智能体在实际博弈中根据经验模型判断对手类型,从而使用相应的纳什均衡策略,以保证收益下限.本文所提的DOMQ算法只需要在采样阶段的每轮博弈结束后得知对手的类型,除此之外无需知道任何环境的信息.仿真实验验证了所提算法的有效性.
关键词
两
人
零
和马尔科夫
博弈
非完全信息
极大极小Q学习
纳什均衡
多智能体强化学习
Keywords
two-player zero-sum Markov game
incomplete information
minimax Q-learning
Nash equilibrium
multiagent reinforcement learning
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
O225 [理学—运筹学与控制论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
两团队零和博弈下熵引导的极小极大值分解强化学习方法
胡光政
朱圆恒
赵冬斌
《自动化学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
对手类型未知情况下的两人零和马尔科夫博弈决策
王成意
朱进
赵云波
《控制理论与应用》
EI
CAS
CSCD
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部