检索结果-维普期刊中文期刊服务平台

一种基于生成对抗网络的强化学习算法被引量：11: 1; 作者陈建平邹锋 +3 位作者刘全吴宏杰胡伏原傅启明《计算机科学》 CSCD 北大核心 2019年第10期265-272,共8页; 针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用... 展开更多; 关键词强化学习深度学习经验样本生成对抗网络; 在线阅读下载PDF 职称材料

基于多重指数移动平均评估的DDPG算法被引量：1: 2; 作者范晶晶陈建平 +2 位作者傅启明陆悠吴宏杰《计算机工程与设计》北大核心 2021年第11期3084-3090,共7页; 针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本... 展开更多; 关键词深度学习强化学习指数移动平均平均评估双重经验回放; 在线阅读下载PDF 职称材料

增强型深度确定策略梯度算法被引量：9: 3; 作者陈建平何超 +3 位作者刘全吴宏杰胡伏原傅启明《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页; 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 展开更多; 关键词深度强化学习样本排序自模拟度量时间差分误差; 在线阅读下载PDF 职称材料

基于值函数迁移的启发式Sarsa算法被引量：3: 4; 作者陈建平杨正霞 +3 位作者刘全吴宏杰徐杨傅启明《通信学报》 EI CSCD 北大核心 2018年第8期37-47,共11页; 针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进... 展开更多; 关键词强化学习值函数迁移自模拟度量变分贝叶斯; 在线阅读下载PDF 职称材料

基于多线程并行强化学习的建筑节能方法被引量：1: 5; 作者陈建平康怡怡 +3 位作者胡龄爻陆悠吴宏杰傅启明《计算机工程与应用》 CSCD 北大核心 2019年第15期219-227,共9页; 提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agen... 展开更多; 关键词强化学习并行强化学习经验回放多线程技术建筑节能; 在线阅读下载PDF 职称材料

基于相对熵的元逆强化学习方法被引量：4: 6; 作者吴少波傅启明 +2 位作者陈建平吴宏杰陆悠《计算机科学》 CSCD 北大核心 2021年第9期257-263,共7页; 针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任... 展开更多; 关键词逆强化学习元学习奖赏函数相对熵梯度下降; 在线阅读下载PDF 职称材料

基于随机方差减小方法的DDPG算法被引量：3: 7; 作者杨薛钰陈建平 +2 位作者傅启明陆悠吴宏杰《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页; 针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优... 展开更多; 关键词深度强化学习深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术; 在线阅读下载PDF 职称材料

题名一种基于生成对抗网络的强化学习算法被引量：11: 1; 作者陈建平邹锋刘全吴宏杰胡伏原傅启明; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室苏州大学计算机科学与技术学院; 出处《计算机科学》 CSCD 北大核心 2019年第10期265-272,共8页; 基金国家自然科学基金项目(61502329,61772357,61750110519,61772355,61702055,61672371,61602334,61472267) 江苏省自然科学基金项目(13KJB520020) +4 种基金十三五省重点学科(20168765) 航空基金(20151996016) 苏州市应用基础研究计划工业部分(SYG201422)资助; 文摘针对强化学习方法在训练初期由于缺少经验样本所导致的学习速度慢的问题,提出了一种基于生成对抗网络的强化学习算法。在训练初期,该算法通过随机策略收集经验样本以构成真实样本池,并利用所收集的经验样本来训练生成对抗网络,然后利用生成对抗网络生成新的样本以构成虚拟样本池,再结合真实样本池和虚拟样本池来批量选择训练样本,以此来提高学习速度。同时,该算法引入了关系修正单元,结合深度神经网络,训练了真实样本池中样本的状态、动作与后续状态、奖赏之间的内部联系,结合相对熵优化生成对抗网络,提高生成样本的质量。最后,将所提出的算法与DQN算法应用于OpenAI Gym中的CartPole问题和MountainCar问题。实验结果表明,与DQN算法相比,所提算法可以有效地加快训练初期的学习速度,且收敛时间缩短了15%。; 关键词强化学习深度学习经验样本生成对抗网络; Keywords Reinforcement learning Deep learning Experience samples Generative adversarial networks; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于多重指数移动平均评估的DDPG算法被引量：1: 2; 作者范晶晶陈建平傅启明陆悠吴宏杰; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室珠海米枣智能科技有限公司科研部; 出处《计算机工程与设计》北大核心 2021年第11期3084-3090,共7页; 基金国家自然科学基金项目(61876217、61876121、61772357、61750110519、61772355、61702055、61672371) 江苏省重点研发计划基金项目(BE2017663)。; 文摘针对深度确定性策略梯度算法中双网络结构的不稳定及单评论家评估不准确的问题,提出基于多重指数移动平均评估的DDPG算法。介绍EMA-Q网络和目标Q网络合作得出目标更新值,对多个评论家给出的Q值求平均,降低单评论家评估的不准确性。样本池部分引入双重经验回放方法,采用两个样本池分别存储不同的经验,提高算法的收敛性能。将所提算法及原始DDPG算法分别实验于经典的Pendulum问题和Mountain Car问题中。实验结果表明,与传统的DDPG算法相比,所提算法准确性更好,稳定性更高,收敛速度明显提升。; 关键词深度学习强化学习指数移动平均平均评估双重经验回放; Keywords deep learning reinforcement learning exponential moving average average evaluation double experience replay; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名增强型深度确定策略梯度算法被引量：9: 3; 作者陈建平何超刘全吴宏杰胡伏原傅启明; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室苏州大学计算机科学与技术学院; 出处《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页; 基金国家自然科学基金资助项目(No.61502329 No.61772357 +9 种基金 No.61750110519 No.61772355 No.61702055 No.61672371 No.61602334 No.61502323) 苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~; 文摘针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样性样本池和高误差样本池按比例选取,以兼顾样本多样性以及样本价值信息,提高样本的利用效率和算法的收敛性能。此外,进一步从理论上证明了利用自模拟度量方法对样本进行相似性度量的合理性,建立值函数与样本相似性之间的关系。将E-DDPG算法以及DDPG算法用于经典的Pendulum问题和MountainCar问题,实验结果表明,E-DDPG具有更好的收敛稳定性,同时具有更快的收敛速率。; 关键词深度强化学习样本排序自模拟度量时间差分误差; Keywords deep reinforcement learning sample ranking bisimulation metric temporal difference error; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于值函数迁移的启发式Sarsa算法被引量：3: 4; 作者陈建平杨正霞刘全吴宏杰徐杨傅启明; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室苏州大学计算机科学与技术学院浙江纺织服装职业技术学院信息工程学院; 出处《通信学报》 EI CSCD 北大核心 2018年第8期37-47,共11页; 基金国家自然科学基金资助项目(No.61502329 No.61772357 +8 种基金 No.61750110519 No.61772355 No.61702055 No.61672371 No.61602334) 苏州市应用基础研究计划工业部分基金资助项目(No.SYG201422)~~; 文摘针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。; 关键词强化学习值函数迁移自模拟度量变分贝叶斯; Keywords reinforcement learning value function transfer bisimulation metric variational Bayes; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于多线程并行强化学习的建筑节能方法被引量：1: 5; 作者陈建平康怡怡胡龄爻陆悠吴宏杰傅启明; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室; 出处《计算机工程与应用》 CSCD 北大核心 2019年第15期219-227,共9页; 基金国家自然科学基金(No.61502329,No.61772357,No.61750110519,No.61772355,No.61702055,No.61672371,No.61602334) 江苏省自然科学基金(No.BK20140283) +2 种基金苏州市应用基础研究计划工业部分(No.SYG201422); 文摘提出一种基于并行强化学习的建筑节能方法,该方法结合多线程技术和经验回放方法提出一个多线程并行强化学习算法框架,其新颖点在于:在经验回放过程中引入自模拟度量方法,通过计算样本之间的距离,选取低相似度的样本构造多样样本池,Agent的学习过程从多样样本池中选取样本学习,可有效避免浪费学习资源。实验包括在仿真房间模型上与Q-Learning算法的对比实验和与经典PID控制方法的对比实验。实验结果表明,所提出的并行算法有更快的学习速率和收敛速度,能更快地求解出最优策略,并拥有更高的运行效率。; 关键词强化学习并行强化学习经验回放多线程技术建筑节能; Keywords reinforcement learning parallel reinforcement learning experiment replay multi-threading technology building conversation; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于相对熵的元逆强化学习方法被引量：4: 6; 作者吴少波傅启明陈建平吴宏杰陆悠; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室; 出处《计算机科学》 CSCD 北大核心 2021年第9期257-263,共7页; 基金国家自然科学基金项目(61876217,61876121,61772357,61750110519,61772355,61702055,61672371) 江苏省重点研发计划项目(BE2017663)。; 文摘针对传统逆强化学习算法在缺少足够专家演示样本以及状态转移概率未知的情况下,求解奖赏函数速度慢、精度低甚至无法求解的问题,提出一种基于相对熵的元逆强化学习方法。利用元学习方法,结合与目标任务同分布的一组元训练集,构建目标任务学习先验,在无模型强化学习问题中,采用相对熵概率模型对奖赏函数进行建模,并结合所构建的先验,实现利用目标任务少量样本快速求解目标任务奖赏函数的目的。将所提算法与REIRL算法应用于经典的Gridworld和Object World问题,实验表明,在目标任务缺少足够数目的专家演示样本和状态转移概率信息的情况下,所提算法仍能较好地求解奖赏函数。; 关键词逆强化学习元学习奖赏函数相对熵梯度下降; Keywords Inverse reinforcement learning Meta-learning Reward function Relative entropy Gradient decent; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于随机方差减小方法的DDPG算法被引量：3: 7; 作者杨薛钰陈建平傅启明陆悠吴宏杰; 机构苏州科技大学电子与信息工程学院苏州科技大学江苏省建筑智慧节能重点实验室苏州科技大学苏州市移动网络技术与应用重点实验室珠海米枣智能科技有限公司苏州科技大学苏州市虚拟现实智能交互与应用技术重点实验室; 出处《计算机工程与应用》 CSCD 北大核心 2021年第19期104-111,共8页; 基金国家自然科学基金(61876217,61876121,61772357,61750110519,61772355,61702055,61672371) 江苏省重点研发计划项目(BE2017663)。; 文摘针对深度确定性策略梯度算法(DDPG)收敛速度比较慢,训练不稳定,方差过大,样本应用效率低的问题,提出了一种基于随机方差减小梯度方法的深度确定性策略梯度算法(SVR-DDPG)。该算法通过利用随机方差减小梯度技术(SVRG)提出一种新的创新优化策略,将之运用到DDPG算法之中,在DDPG算法的参数更新过程中,加入了随机方差减小梯度技术,利用该方法的更新方式,使得估计的梯度方差有一个不断减小的上界,令方差不断缩小,从而在小的随机训练子集的基础上找到更加精确的梯度方向,以此来解决了由近似梯度估计误差引发的问题,加快了算法的收敛速度。将SVR-DDPG算法以及DDPG算法应用于Pendulum和Mountain Car问题,实验结果表明,SVR-DDPG算法具有比原算法更快的收敛速度,更好的稳定性,以此证明了算法的有效性。; 关键词深度强化学习深度Q学习算法(DQN) 深度确定性策略梯度算法(DDPG) 随机方差缩减梯度技术; Keywords deep reinforcement learning Deep Q-Network(DQN) Deep Deterministic Policy Gradient(DDPG) stochastic variance reduced techniques; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种基于生成对抗网络的强化学习算法	陈建平邹锋刘全吴宏杰胡伏原傅启明	《计算机科学》 CSCD 北大核心	2019	11	在线阅读下载PDF 职称材料
2	基于多重指数移动平均评估的DDPG算法	范晶晶陈建平傅启明陆悠吴宏杰	《计算机工程与设计》北大核心	2021	1	在线阅读下载PDF 职称材料
3	增强型深度确定策略梯度算法	陈建平何超刘全吴宏杰胡伏原傅启明	《通信学报》 EI CSCD 北大核心	2018	9	在线阅读下载PDF 职称材料
4	基于值函数迁移的启发式Sarsa算法	陈建平杨正霞刘全吴宏杰徐杨傅启明	《通信学报》 EI CSCD 北大核心	2018	3	在线阅读下载PDF 职称材料
5	基于多线程并行强化学习的建筑节能方法	陈建平康怡怡胡龄爻陆悠吴宏杰傅启明	《计算机工程与应用》 CSCD 北大核心	2019	1	在线阅读下载PDF 职称材料
6	基于相对熵的元逆强化学习方法	吴少波傅启明陈建平吴宏杰陆悠	《计算机科学》 CSCD 北大核心	2021	4	在线阅读下载PDF 职称材料
7	基于随机方差减小方法的DDPG算法	杨薛钰陈建平傅启明陆悠吴宏杰	《计算机工程与应用》 CSCD 北大核心	2021	3	在线阅读下载PDF 职称材料