期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
增强型深度确定策略梯度算法 被引量:9
1
作者 陈建平 何超 +3 位作者 刘全 吴宏杰 胡伏原 傅启明 《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。 展开更多
关键词 深度强化学习 样本排序 自模拟度量 时间差分误差
在线阅读 下载PDF
基于值函数迁移的启发式Sarsa算法 被引量:3
2
作者 陈建平 杨正霞 +3 位作者 刘全 吴宏杰 徐杨 傅启明 《通信学报》 EI CSCD 北大核心 2018年第8期37-47,共11页
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进... 针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。 展开更多
关键词 强化学习 值函数迁移 自模拟度量 变分贝叶斯
在线阅读 下载PDF
小样本场景下的强化学习研究综述
3
作者 王哲超 傅启明 +3 位作者 陈建平 胡伏原 陆悠 吴宏杰 《南京师范大学学报(工程技术版)》 CAS 2022年第1期86-92,共7页
根据小样本问题背景,将小样本场景分成两类,第一类场景追求更专业的性能,第二类场景追求更通用的性能.一般在知识泛化过程中,不同的场景对知识载体的需求有着明显的倾向性.针对小样本学习方法,以知识载体的角度,将其分为使用过程性知识... 根据小样本问题背景,将小样本场景分成两类,第一类场景追求更专业的性能,第二类场景追求更通用的性能.一般在知识泛化过程中,不同的场景对知识载体的需求有着明显的倾向性.针对小样本学习方法,以知识载体的角度,将其分为使用过程性知识的方法和使用陈述性知识的方法,再讨论该分类下的小样本强化学习算法.最后,从理论和应用等方面提出了可能的发展方向,以期为后续研究提供参考. 展开更多
关键词 强化学习 小样本学习 元学习 迁移学习 终身学习 知识泛化
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部