-
题名增强型深度确定策略梯度算法
被引量:9
- 1
-
-
作者
陈建平
何超
刘全
吴宏杰
胡伏原
傅启明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室
苏州大学计算机科学与技术学院
-
出处
《通信学报》
EI
CSCD
北大核心
2018年第11期106-115,共10页
-
基金
国家自然科学基金资助项目(No.61502329
No.61772357
+9 种基金
No.61750110519
No.61772355
No.61702055
No.61672371
No.61602334
No.61502323)
江苏省自然科学基金资助项目(No.BK20140283)
江苏省重点研发计划基金资助项目(No.BE2017663)
江苏省高校自然科学研究基金资助项目(No.13KJB520020)
苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
-
文摘
针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。
-
关键词
深度强化学习
样本排序
自模拟度量
时间差分误差
-
Keywords
deep reinforcement learning
sample ranking
bisimulation metric
temporal difference error
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于值函数迁移的启发式Sarsa算法
被引量:3
- 2
-
-
作者
陈建平
杨正霞
刘全
吴宏杰
徐杨
傅启明
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
苏州大学计算机科学与技术学院
浙江纺织服装职业技术学院信息工程学院
-
出处
《通信学报》
EI
CSCD
北大核心
2018年第8期37-47,共11页
-
基金
国家自然科学基金资助项目(No.61502329
No.61772357
+8 种基金
No.61750110519
No.61772355
No.61702055
No.61672371
No.61602334)
江苏省自然科学基金资助项目(No.BK20140283)
江苏省重点研发计划基金资助项目(No.BE2017663)
江苏省高校自然科学基金资助项目(No.13KJB520020)
苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~
-
文摘
针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。
-
关键词
强化学习
值函数迁移
自模拟度量
变分贝叶斯
-
Keywords
reinforcement learning
value function transfer
bisimulation metric
variational Bayes
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名小样本场景下的强化学习研究综述
- 3
-
-
作者
王哲超
傅启明
陈建平
胡伏原
陆悠
吴宏杰
-
机构
苏州科技大学电子与信息工程学院
苏州科技大学江苏省建筑智慧节能重点实验室
苏州科技大学苏州市移动网络技术与应用重点实验室
-
出处
《南京师范大学学报(工程技术版)》
CAS
2022年第1期86-92,共7页
-
基金
国家重点研发计划项目(2020YFC2006602)
国家自然科学基金项目(62072324、61876217、61876121、61772357、62073231、61902272)
江苏省重点研发计划项目(BE2017663)。
-
文摘
根据小样本问题背景,将小样本场景分成两类,第一类场景追求更专业的性能,第二类场景追求更通用的性能.一般在知识泛化过程中,不同的场景对知识载体的需求有着明显的倾向性.针对小样本学习方法,以知识载体的角度,将其分为使用过程性知识的方法和使用陈述性知识的方法,再讨论该分类下的小样本强化学习算法.最后,从理论和应用等方面提出了可能的发展方向,以期为后续研究提供参考.
-
关键词
强化学习
小样本学习
元学习
迁移学习
终身学习
知识泛化
-
Keywords
reinforcement learning
few-shot learning
meta-learning
transfer learning
lifelong learning
knowledge generalization
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-