期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
1
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
在线阅读 下载PDF
基于双重注意力机制的异步优势行动者评论家算法 被引量:4
2
作者 凌兴宏 李杰 +2 位作者 朱斐 刘全 伏玉琛 《计算机学报》 EI CSCD 北大核心 2020年第1期93-106,共14页
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 展开更多
关键词 注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习
在线阅读 下载PDF
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
3
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
4
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
5
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
在线阅读 下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
6
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
在线阅读 下载PDF
基于A3C的认知物联网通信干扰消除算法 被引量:1
7
作者 刘新梦 谢健骊 +1 位作者 李翠然 王亦鸣 《计算机工程》 CAS CSCD 北大核心 2024年第10期281-290,共10页
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决... 针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。 展开更多
关键词 认知物联网 干扰消除 异步优势行动者-评论家算法 干扰程度 信号质量 吞吐量
在线阅读 下载PDF
改进的A2C算法在交通信号控制中的应用
8
作者 曹桐 黄德启 赵军 《计算机工程与设计》 北大核心 2024年第6期1713-1719,共7页
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptro... 针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。 展开更多
关键词 强化学习 图卷积神经网络 优势行动者-评论家 多层感知机 多头注意力机制 交通信号控制 多智能体
在线阅读 下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
9
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
10
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
一种针对坦克速度控制的深度强化学习算法 被引量:1
11
作者 崔新悦 阳周明 +2 位作者 赵彦东 杨霄 范玲瑜 《火力与指挥控制》 CSCD 北大核心 2022年第4期120-125,共6页
坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段... 坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft actor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度。在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性。构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能。 展开更多
关键词 深度强化学习 行动者 - 评论家算法 坦克速度控制 采样策略
在线阅读 下载PDF
车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法 被引量:33
12
作者 许小龙 方子介 +3 位作者 齐连永 窦万春 何强 段玉聪 《计算机学报》 EI CAS CSCD 北大核心 2021年第12期2382-2405,共24页
边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户... 边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户的服务需求,因此,如何在边缘服务器资源限制的约束下,确定服务卸载地点,为用户提供低时延的服务,仍然是一个巨大的挑战.针对上述问题,本文提出了一种“端-边-云”协同的5G车联网边缘计算系统模型,并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D-SOAC.首先,通过深度时空残差网络,D-SOAC在中心云预测出潜在的用户服务需求量,协同各边缘服务器获取本地车联网边缘计算环境的系统状态,输入边缘服务器上的本地行动者网络,得到该状态下的服务卸载策略.然后,本地评论家网络基于时序差分误差评价该服务卸载策略的优劣,并指导本地行动者网络进行网络参数的优化.优化一定步数后,边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络,协同中心云进行网络参数的更新.最后,中心云将最新的参数推送回本地网络,从而不断对行动者评论家网络进行调优,获得服务卸载的最优解.基于来自现实世界的车载用户服务需求数据集的实验结果表明,在各种车联网边缘计算环境中,相比于四种现有的服务卸载算法,D-SOAC能够降低0.4%~20.4%的用户平均服务时延. 展开更多
关键词 边缘计算 车联网 服务卸载 深度时空残差网络 异步优势行动者评论家
在线阅读 下载PDF
基于A3C的多功能雷达认知干扰决策方法 被引量:6
13
作者 邹玮琦 牛朝阳 +2 位作者 刘伟 高欧阳 张浩波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期86-92,共7页
在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(... 在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(目标方多功能雷达)以及交互机制的认知干扰决策整体框架,制定了干扰决策流程,干扰机模型利用异步多线程方式与环境模型进行交互训练。仿真实验表明,在扩充雷达任务转换关系表的基础上,所提方法与基于深度Q网络(deep Q network,DQN)的认知干扰决策系列方法相比,极大地提高了时间效率,平均决策时间降低70%以上,并且在决策准确度上有着明显优势,表明所提方法能够为多功能雷达对抗决策提供更有力的技术支撑。 展开更多
关键词 干扰决策 异步优势 行动者-评论家 时间效率 决策准确度
在线阅读 下载PDF
基于自适应多目标强化学习的服务集成方法 被引量:1
14
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
在线阅读 下载PDF
基于A3C的特征重构工艺路线规划方法 被引量:1
15
作者 陶鑫钰 王艳 纪志成 《现代制造工程》 CSCD 北大核心 2023年第10期15-26,共12页
针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下... 针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下,基于马尔可夫决策过程定义了状态、动作空间和奖励函数。针对A3C智能体在选取机床、刀具和进刀方向时可能会陷入局部最优,提出了随机贪婪策略,以扩大解的空间、提高解的质量,且为了避免A3C智能体在零件发生特征重构时陷入大量的试错中,提出了快失败策略,以加快智能体规避特征约束的能力,提高响应速度。仿真实验证明,所提方法能有效解决零件发生特征重构的工艺路线规划问题,且相比基于遗传、蚁群和模拟退火算法的工艺路线规划方法,所提方法在零件发生特征重构时响应速度更快,解的质量更高。 展开更多
关键词 异步优势演员-评论家 特征重构 工艺路线 深度强化学习 马尔可夫决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部