期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于动作采样的Q学习算法 被引量:2
1
作者 赵德京 马洪聪 +1 位作者 廖登宇 崔浩岩 《控制工程》 CSCD 北大核心 2024年第1期70-79,共10页
强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampli... 强化学习使用马尔可夫决策过程的形式化框架,使用状态、动作和奖励定义学习型智能体与环境的交互过程。多智能体强化学习存在联合动作数随智能体个数的增加呈指数级增长的问题。为缓解此问题,提出一种基于动作采样的Q学习(action-sampling based Q-learning,ASQ)算法。该算法采用集中训练-分散执行的框架,在集中训练阶段更新联合动作Q值时并没有遍历所有联合动作Q值,而只对部分联合动作Q值进行采样。在动作选择和执行阶段,每个智能体又独立选择动作,有效减少了学习阶段的计算量。实验结果表明,该算法能够以100%的成功率学习到最优联合策略。 展开更多
关键词 多智能体强化学习 强化学习 Q学习 动作采样
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部