检索结果-维普期刊中文期刊服务平台

基于情景记忆式强化学习的协作运输方法: 1; 作者周维庆张震 +2 位作者宋光乐刘明阳宋婷婷《控制工程》 CSCD 北大核心 2024年第7期1203-1210,共8页; 针对情景记忆算法中记忆池中的样本利用率低的问题,提出了一种基于情景记忆和值函数分解框架相结合的合作型多智能体强化学习算法,即情景记忆值分解(episodic memory value decomposition,EMVD)算法。EMVD算法在情景记忆部分以时间差分... 展开更多; 关键词强化学习多智能体强化学习情景记忆机器人协作运输时间差分误差; 在线阅读下载PDF 职称材料

增强型深度确定策略梯度算法被引量：9: 2; 作者陈建平何超 +3 位作者刘全吴宏杰胡伏原傅启明《通信学报》 EI CSCD 北大核心 2018年第11期106-115,共10页; 针对深度确定策略梯度算法收敛速率较慢的问题,提出了一种增强型深度确定策略梯度(E-DDPG)算法。该算法在深度确定策略梯度算法的基础上,重新构建两个新的样本池——多样性样本池和高误差样本池。在算法执行过程中,训练样本分别从多样... 展开更多; 关键词深度强化学习样本排序自模拟度量时间差分误差; 在线阅读下载PDF 职称材料

深度确定性策略梯度算法优化被引量：2: 3; 作者刘洋李建军《辽宁工程技术大学学报（自然科学版）》 CAS 北大核心 2020年第6期545-549,共5页; 针对深度确定性策略梯度算法存在的经验利用率不高和性能差的问题,提出一种基于深度确定性策略梯度算法的复合优先经验回放算法.利用样本的立即回报和基于样本时间差分误差分别构建优先级对样本排序,随后对经验进行复合平均排序并基于... 展开更多; 关键词强化学习深度确定性策略梯度复合优先经验回放立即回报时间差分误差; 在线阅读下载PDF 职称材料