期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于双重注意力机制的异步优势行动者评论家算法 被引量:4
1
作者 凌兴宏 李杰 +2 位作者 朱斐 刘全 伏玉琛 《计算机学报》 EI CSCD 北大核心 2020年第1期93-106,共14页
深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和... 深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性. 展开更多
关键词 注意力机制 双重注意力机制 行动者评论家 异步优势行动者评论家 异步深度强化学习
在线阅读 下载PDF
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
2
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
在线阅读 下载PDF
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
3
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
在线阅读 下载PDF
基于A3C的认知物联网通信干扰消除算法 被引量:1
4
作者 刘新梦 谢健骊 +1 位作者 李翠然 王亦鸣 《计算机工程》 CAS CSCD 北大核心 2024年第10期281-290,共10页
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决... 针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。 展开更多
关键词 认知物联网 干扰消除 异步优势行动者-评论家算法 干扰程度 信号质量 吞吐量
在线阅读 下载PDF
改进的A2C算法在交通信号控制中的应用
5
作者 曹桐 黄德启 赵军 《计算机工程与设计》 北大核心 2024年第6期1713-1719,共7页
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptro... 针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。 展开更多
关键词 强化学习 图卷积神经网络 优势行动者-评论家 多层感知机 多头注意力机制 交通信号控制 多智能体
在线阅读 下载PDF
车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法 被引量:30
6
作者 许小龙 方子介 +3 位作者 齐连永 窦万春 何强 段玉聪 《计算机学报》 EI CAS CSCD 北大核心 2021年第12期2382-2405,共24页
边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户... 边缘计算将计算、存储和带宽等资源分布到了靠近用户的一侧.通过将边缘计算引入车联网,服务提供商能为车载用户提供低延时的服务,从而提高用户出行的服务体验.然而,由于边缘服务器所配备的资源一般是有限的,不能同时支持所有车联网用户的服务需求,因此,如何在边缘服务器资源限制的约束下,确定服务卸载地点,为用户提供低时延的服务,仍然是一个巨大的挑战.针对上述问题,本文提出了一种“端-边-云”协同的5G车联网边缘计算系统模型,并针对该系统模型设计了深度学习和深度强化学习协同的分布式服务卸载方法D-SOAC.首先,通过深度时空残差网络,D-SOAC在中心云预测出潜在的用户服务需求量,协同各边缘服务器获取本地车联网边缘计算环境的系统状态,输入边缘服务器上的本地行动者网络,得到该状态下的服务卸载策略.然后,本地评论家网络基于时序差分误差评价该服务卸载策略的优劣,并指导本地行动者网络进行网络参数的优化.优化一定步数后,边缘服务器将优化过的本地网络参数上传到位于中心云的全局网络,协同中心云进行网络参数的更新.最后,中心云将最新的参数推送回本地网络,从而不断对行动者评论家网络进行调优,获得服务卸载的最优解.基于来自现实世界的车载用户服务需求数据集的实验结果表明,在各种车联网边缘计算环境中,相比于四种现有的服务卸载算法,D-SOAC能够降低0.4%~20.4%的用户平均服务时延. 展开更多
关键词 边缘计算 车联网 服务卸载 深度时空残差网络 异步优势行动者评论家
在线阅读 下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
7
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
8
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
基于A3C的多功能雷达认知干扰决策方法 被引量:6
9
作者 邹玮琦 牛朝阳 +2 位作者 刘伟 高欧阳 张浩波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期86-92,共7页
在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(... 在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(目标方多功能雷达)以及交互机制的认知干扰决策整体框架,制定了干扰决策流程,干扰机模型利用异步多线程方式与环境模型进行交互训练。仿真实验表明,在扩充雷达任务转换关系表的基础上,所提方法与基于深度Q网络(deep Q network,DQN)的认知干扰决策系列方法相比,极大地提高了时间效率,平均决策时间降低70%以上,并且在决策准确度上有着明显优势,表明所提方法能够为多功能雷达对抗决策提供更有力的技术支撑。 展开更多
关键词 干扰决策 异步优势 行动者-评论家 时间效率 决策准确度
在线阅读 下载PDF
基于自适应多目标强化学习的服务集成方法
10
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
在线阅读 下载PDF
基于A3C的特征重构工艺路线规划方法 被引量:1
11
作者 陶鑫钰 王艳 纪志成 《现代制造工程》 CSCD 北大核心 2023年第10期15-26,共12页
针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下... 针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下,基于马尔可夫决策过程定义了状态、动作空间和奖励函数。针对A3C智能体在选取机床、刀具和进刀方向时可能会陷入局部最优,提出了随机贪婪策略,以扩大解的空间、提高解的质量,且为了避免A3C智能体在零件发生特征重构时陷入大量的试错中,提出了快失败策略,以加快智能体规避特征约束的能力,提高响应速度。仿真实验证明,所提方法能有效解决零件发生特征重构的工艺路线规划问题,且相比基于遗传、蚁群和模拟退火算法的工艺路线规划方法,所提方法在零件发生特征重构时响应速度更快,解的质量更高。 展开更多
关键词 异步优势演员-评论家 特征重构 工艺路线 深度强化学习 马尔可夫决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部