期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于双重注意力机制的异步优势行动者评论家算法 被引量:4
1
作者 凌兴宏 李杰 +2 位作者 朱斐 刘全 伏玉琛 《计算机学报》 EI CSCD 北大核心 2020年第1期93-106,共14页
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 展开更多
关键词 注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习
在线阅读 下载PDF
连续空间中的一种动作加权行动者评论家算法 被引量:5
2
作者 刘全 章鹏 +2 位作者 钟珊 钱炜晟 翟建伟 《计算机学报》 EI CSCD 北大核心 2017年第6期1252-1264,共13页
经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出... 经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点. 展开更多
关键词 强化学习 连续空间 函数逼近 行动者评论家 梯度下降 人工智能
在线阅读 下载PDF
增量式双自然策略梯度的行动者评论家算法 被引量:2
3
作者 章鹏 刘全 +2 位作者 钟珊 翟建伟 钱炜晟 《通信学报》 EI CSCD 北大核心 2017年第4期166-177,共12页
针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通... 针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。 展开更多
关键词 强化学习 自然梯度 行动者评论家 连续空间
在线阅读 下载PDF
带最大熵修正的行动者评论家算法 被引量:6
4
作者 姜玉斌 刘全 胡智慧 《计算机学报》 EI CSCD 北大核心 2020年第10期1897-1908,共12页
在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大... 在行动者评论家算法中,策略梯度通常使用最大熵正则项来提高行动策略的随机性以保证探索.策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性.针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法.该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数.通过使用新的目标函数,MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定.为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验.实验结果表明,MEC在改进性能的同时提高了算法的稳定性. 展开更多
关键词 强化学习 深度学习 行动者评论家算法 最大熵 策略梯度
在线阅读 下载PDF
一种基于高斯过程的行动者评论家算法 被引量:1
5
作者 陈仕超 凌兴宏 +2 位作者 刘全 伏玉琛 陈桂兴 《计算机应用研究》 CSCD 北大核心 2016年第6期1670-1675,共6页
强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在criti... 强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。 展开更多
关键词 强化学习 行动者评论家 高斯过程 贝叶斯推理 连续空间
在线阅读 下载PDF
基于经验指导的深度确定性多行动者-评论家算法 被引量:6
6
作者 陈红名 刘全 +3 位作者 闫岩 何斌 姜玉斌 张琳琳 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1708-1720,共13页
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,... 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现. 展开更多
关键词 强化学习 深度强化学习 确定性行动者评论家 经验指导 专家指导 行动者
在线阅读 下载PDF
车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法 被引量:30
7
作者 许小龙 方子介 +3 位作者 齐连永 窦万春 何强 段玉聪 《计算机学报》 EI CAS CSCD 北大核心 2021年第12期2382-2405,共24页
边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户... 边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户的服务需求,因此,如何在边缘服务器资源限制的约束下,确定服务卸载地点,为用户提供低时延的服务,仍然是一个巨大的挑战.针对上述问题,本文提出了一种“端-边-云”协同的5G车联网边缘计算系统模型,并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D-SOAC.首先,通过深度时空残差网络,D-SOAC在中心云预测出潜在的用户服务需求量,协同各边缘服务器获取本地车联网边缘计算环境的系统状态,输入边缘服务器上的本地行动者网络,得到该状态下的服务卸载策略.然后,本地评论家网络基于时序差分误差评价该服务卸载策略的优劣,并指导本地行动者网络进行网络参数的优化.优化一定步数后,边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络,协同中心云进行网络参数的更新.最后,中心云将最新的参数推送回本地网络,从而不断对行动者评论家网络进行调优,获得服务卸载的最优解.基于来自现实世界的车载用户服务需求数据集的实验结果表明,在各种车联网边缘计算环境中,相比于四种现有的服务卸载算法,D-SOAC能够降低0.4%~20.4%的用户平均服务时延. 展开更多
关键词 边缘计算 车联网 服务卸载 深度时空残差网络 异步优势行动者评论家
在线阅读 下载PDF
一种基于增强学习神经网络的雷达故障诊断方法 被引量:9
8
作者 庄夏 《现代雷达》 CSCD 北大核心 2017年第12期15-19,共5页
为了提高现有雷达故障的诊断效率和诊断精度,提出了一种基于增强学习神经网络的雷达故障诊断模型。首先,对基于神经网络的故障诊断模进行了构建和分析;然后,给出了采用马拉特(Mallat)塔式小波变换算法对故障输入数据进行特征提取的方法... 为了提高现有雷达故障的诊断效率和诊断精度,提出了一种基于增强学习神经网络的雷达故障诊断模型。首先,对基于神经网络的故障诊断模进行了构建和分析;然后,给出了采用马拉特(Mallat)塔式小波变换算法对故障输入数据进行特征提取的方法,将神经网络故障诊断模型的所有参数作为马尔科夫决策模型(MDP)的状态空间,采用增强学习中的行动者评论家算法来寻求最优参数,即采用评论家对当前状态进行评价,并通过行动者对当前状态进行不断改变。在上述讨论基础上,采用反向传播算法再次训练模型。仿真结果表明:文中方法具有较高的故障诊断精确度,相比其他方法具有故障诊断效率高的优点。 展开更多
关键词 雷达 增强学习 故障诊断 神经网络 行动者评论家
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部