期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于异步优势演员-评论家学习的服务功能链资源分配算法 被引量:8
1
作者 唐伦 贺小雨 +3 位作者 王晓 谭颀 胡彦娟 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2021年第6期1733-1741,共9页
考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区... 考虑网络全局信息难以获悉的实际情况,针对接入网切片场景下用户终端(UE)的移动性和数据包到达的动态性导致的资源分配优化问题,该文提出了一种基于异步优势演员-评论家(A3C)学习的服务功能链(SFC)资源分配算法。首先,该算法建立基于区块链的资源管理机制,通过区块链技术实现可信地共享并更新网络全局信息,监督并记录SFC资源分配过程。然后,建立UE移动和数据包到达时变情况下的无线资源、计算资源和带宽资源联合分配的时延最小化模型,并进一步将其转化为马尔科夫决策过程(MDP)。最后,在所建立的MDP中采用A3C学习方法,实现资源分配策略的求解。仿真结果表明,该算法能够更加合理高效地利用资源,优化系统时延并保证UE需求。 展开更多
关键词 网络切片 服务功能链资源分配 马尔科夫决策过程 异步优势演员-评论家学习 区块链
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
2
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
3
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
在线阅读 下载PDF
基于融合状态预测的深度强化学习A2C的交通信号控制
4
作者 叶宝林 孙瑞涛 +1 位作者 李灵犀 吴维敏 《计算机工程》 北大核心 2025年第5期33-42,共10页
现有基于强化学习的交通信号控制方法主要使用历史交通状态和当前时间步的实时交通状态来确定下一个时间步的控制策略,造成控制策略始终滞后于交通状态一个时间步。为了解决该问题,提出一种基于融合交通状态预测的深度强化学习优势演员... 现有基于强化学习的交通信号控制方法主要使用历史交通状态和当前时间步的实时交通状态来确定下一个时间步的控制策略,造成控制策略始终滞后于交通状态一个时间步。为了解决该问题,提出一种基于融合交通状态预测的深度强化学习优势演员评论家(A2C)的交通信号控制方法。首先,为了获取未来时间步的交通状态,以确保制定的控制策略能够更精准地响应实时交通状态下的决策需求,设计一个长短时记忆(LSTM)网络预测路网未来时间步的交通状态。然后,为了提高输入深度强化学习模型中数据的准确性和鲁棒性,设计一个卡尔曼滤波器对采集的历史交通状态数据和LSTM网络预测的未来交通状态数据进行融合。其次,为了使深度强化学习模型能够更全面地理解交通流量中包含的时间依赖关系,并实现更高效和稳定的交通信号控制决策,提出一种融合双向LSTM网络的A2C算法。最后,基于微观交通仿真(SUMO)平台的仿真测试结果表明,与传统交通信号控制方法和基于深度强化学习A2C的交通信号控制方法相比,该方法在低峰、平峰和高峰两种不同交通流量状态下均能够取得更好的交通信号控制效益。 展开更多
关键词 交通信号控制 优势演员评论家 交通状态预测 双向长短时记忆网络
在线阅读 下载PDF
A3C深度强化学习模型压缩及知识抽取 被引量:2
5
作者 张晶 王子铭 任永功 《计算机研究与发展》 EI CSCD 北大核心 2023年第6期1373-1384,共12页
异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模... 异步优势演员评论家(asynchronous advantage actor-critic,A3C)构建一主多从异步并行深度强化学习框架,其在最优策略探索中存在求解高方差问题,使主智能体难以保证全局最优参数更新及最佳策略学习.同时,利用百万计算资源构建的大规模并行网络,难以部署低功耗近端平台.针对上述问题,提出紧凑异步优势演员评论家(Compact_A3C)模型,实现模型压缩及知识抽取.该模型冻结并评价A3C框架中所有子智能体学习效果,将评价结果转化为主智能体更新概率,保证全局最优策略获取,提升大规模网络资源利用率.进一步,模型将优化主智能体作为“教师网络”,监督小规模“学生网络”前期探索与策略引导,并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索,强化自主学习能力,实现大规模A3C模型知识抽取及网络压缩.建立不同压缩比“学生网络”,在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果.模型代码公布在https://github.com/meadewaking/Compact_A3C. 展开更多
关键词 强化学习 深度强化学习 演员评论家模型 异步优势演员评论家模型 模型压缩
在线阅读 下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
6
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
7
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
基于自适应多目标强化学习的服务集成方法
8
作者 郭潇 李春山 +1 位作者 张宇跃 初佃辉 《计算机应用》 CSCD 北大核心 2022年第11期3500-3505,共6页
当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性... 当前服务互联网(IoS)中的服务资源呈现精细化、专业化的趋势,功能单一的服务无法满足用户复杂多变的需求,服务集成调度方法已经成为服务计算领域的热点。现有的服务集成调度方法大都只考虑用户需求的满足,未考虑IoS生态系统的可持续性。针对上述问题,提出一种基于自适应多目标强化学习的服务集成方法,该方法在异步优势演员评论家(A3C)算法的框架下引入多目标优化策略,从而在满足用户需求的同时保证IoS生态系统的健康发展。所提方法可以根据遗憾值对多目标值集成权重进行动态调整,改善多目标强化学习中子目标值不平衡的现象。在真实大规模服务环境下进行了服务集成验证,实验结果表明所提方法相对于传统机器学习方法在大规模服务环境下求解速度更快;相较于权重固定的强化学习(RL),各目标的求解质量更均衡。 展开更多
关键词 服务集成 强化学习 异步优势演员评论家算法 多目标优化 自适应权重
在线阅读 下载PDF
基于A3C的特征重构工艺路线规划方法 被引量:1
9
作者 陶鑫钰 王艳 纪志成 《现代制造工程》 CSCD 北大核心 2023年第10期15-26,共12页
针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下... 针对柔性加工系统中零件发生特征重构的工艺路线规划问题,结合异步优势演员-评论家(A3C)算法的并行、异步、响应速度快以及决策经验可复用性、可扩展性的特点,提出了基于A3C算法的特征重构工艺路线规划方法。在零件发生特征重构的背景下,基于马尔可夫决策过程定义了状态、动作空间和奖励函数。针对A3C智能体在选取机床、刀具和进刀方向时可能会陷入局部最优,提出了随机贪婪策略,以扩大解的空间、提高解的质量,且为了避免A3C智能体在零件发生特征重构时陷入大量的试错中,提出了快失败策略,以加快智能体规避特征约束的能力,提高响应速度。仿真实验证明,所提方法能有效解决零件发生特征重构的工艺路线规划问题,且相比基于遗传、蚁群和模拟退火算法的工艺路线规划方法,所提方法在零件发生特征重构时响应速度更快,解的质量更高。 展开更多
关键词 异步优势演员-评论家 特征重构 工艺路线 深度强化学习 马尔可夫决策过程
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部