-
题名基于平均序列累计奖赏的自适应ε-greedy策略
被引量:6
- 1
-
-
作者
杨彤
秦进
-
机构
贵州大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2021年第11期148-155,共8页
-
基金
国家自然科学基金(61562009)
贵州省科学技术厅项目(黔科合支撑[2020]3Y004号)。
-
文摘
探索与利用的权衡是强化学习的挑战之一。探索使智能体为进一步改进策略而采取新的动作,而利用使智能体采用历史经验中的信息以最大化累计奖赏。深度强化学习中常用"ε-greedy"策略处理探索与利用的权衡问题,未考虑影响智能体做出决策的其他因素,具有一定的盲目性。针对此问题提出一种自适应调节探索因子的ε-greedy策略,该策略依据智能体每完成一次任务所获得的序列累计奖赏值指导智能体进行合理的探索或利用。序列累计奖赏值越大,说明当前智能体所采用的有效动作越多,减小探索因子以便更多地利用历史经验。反之,序列累计奖赏值越小,说明当前策略还有改进的空间,增大探索因子以便探索更多可能的动作。实验结果证明改进的策略在Playing Atari 2600视频游戏中取得了更高的平均奖赏值,说明改进的策略能更好地权衡探索与利用。
-
关键词
深度强化学习
探索与利用
序列累计奖赏
ε-greedy策略
-
Keywords
deep reinforcement learning
exploration and exploitation
episodic cumulative reward
ε-greedy strategy
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-