期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于策略蒸馏主仆框架的优势加权双行动者-评论家算法
1
作者 杨皓麟 刘全 《计算机科学》 CSCD 北大核心 2024年第11期81-94,共14页
离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据... 离线强化学习(Offline RL)定义了从固定批次的数据集中学习的任务,能够规避与环境交互的风险,提高学习的效率与稳定性。其中优势加权行动者-评论家算法提出了一种将样本高效动态规划与最大似然策略更新相结合的方法,在利用大量离线数据的同时,快速执行在线精细化策略的调整。但是该算法使用随机经验回放机制,同时行动者-评论家模型只采用一套行动者,数据采样与回放不平衡。针对以上问题,提出一种基于策略蒸馏并进行数据经验优选回放的优势加权双行动者-评论家算法(Advantage Weighted Double Actors-Critics Based on Policy Distillation with Data Experience Optimization and Replay,DOR-PDAWAC),该算法采用偏好新经验并重复回放新旧经验的机制,利用双行动者增加探索,并运用基于策略蒸馏的主从框架,将行动者分为主行为者和从行为者,提升协作效率。将所提算法应用到通用D4RL数据集中的MuJoCo任务上进行消融实验与对比实验,结果表明,其学习效率等均获得了更优的表现。 展开更多
关键词 离线强化学习 深度强化学习 策略蒸馏 行动者-评论家框架 经验回放机制
在线阅读 下载PDF
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
2
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
在线阅读 下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 被引量:9
3
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Cacla(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
在线阅读 下载PDF
基于数据驱动的时滞非线性电力系统负荷频率控制
4
作者 赵晶晶 王涵 +3 位作者 杨斐翔 盛杰 范宏 郭琦 《电力自动化设备》 北大核心 2025年第10期210-216,共7页
负荷频率控制系统的通信传输时滞和非线性特性限制了频率控制的性能。针对这一问题,提出一种基于数据驱动的负荷频率控制方法,该方法基于行动者-评论家框架,由参与预学习的动作网络和考虑通信传输时滞与系统非线性行为的评价网络构成,... 负荷频率控制系统的通信传输时滞和非线性特性限制了频率控制的性能。针对这一问题,提出一种基于数据驱动的负荷频率控制方法,该方法基于行动者-评论家框架,由参与预学习的动作网络和考虑通信传输时滞与系统非线性行为的评价网络构成,并采用在线学习和离线学习结合的方式训练网络。通过对动作网络的预学习,提高网络的收敛速度和策略的初始化质量;此外,通过多层感知机结合门循环单元拟合电力系统的非线性行为特征,并针对通信传输时滞设计动作价值函数,引导动作网络参数的更新。仿真结果表明,所提方法对时滞非线性电力系统的负荷频率控制具有较好的适应性和控制效果。 展开更多
关键词 负荷频率控制 数据驱动 行动者-评论家 通信传输时滞 非线性系统
在线阅读 下载PDF
基于A3C的认知物联网通信干扰消除算法 被引量:1
5
作者 刘新梦 谢健骊 +1 位作者 李翠然 王亦鸣 《计算机工程》 CAS CSCD 北大核心 2024年第10期281-290,共10页
针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决... 针对频谱资源干扰管理的智能化需求,提出一种基于异步优势行动者-评论家(A3C)的干扰消除算法,旨在应对认知物联网(CIoT)通信系统中由频谱资源共享引起的干扰问题。通过智能体的学习和优化,帮助次级用户(SU)在受到干扰影响时做出最优的决策,从而改善通信质量和系统性能。在该算法中,当SU遭受干扰影响通信质量时,智能体通过学习和优化,使SU能够根据当前的位置信息、发射功率、接收功率以及干扰程度选择最低干扰程度的行动,并执行该行动后获得的奖励。智能体通过尝试不同减少干扰的行动,并根据奖励的反馈调整策略,达到最大化定义干扰程度指标和信号质量指标的奖励函数的目的,从而最大程度地减少干扰对通信质量的影响。实验结果表明,与传统k-means算法以及深度递归Q网络(DRQN)和深度Q网络(DQN)优化算法相比,基于A3C的干扰消除算法具有更短的收敛时间、更高的执行效率以及更高的系统吞吐量,较3种基准方法在吞吐量性能上至少提高7%,能够有效地减少干扰对通信质量的不利影响。 展开更多
关键词 认知物联网 干扰消除 异步优势行动者-评论家算法 干扰程度 信号质量 吞吐量
在线阅读 下载PDF
改进的A2C算法在交通信号控制中的应用
6
作者 曹桐 黄德启 赵军 《计算机工程与设计》 北大核心 2024年第6期1713-1719,共7页
针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptro... 针对目前以数据为驱动的交通控制算法在处理交通数据时容易忽略道路本身的空间信息的问题,提出一种结合道路拓扑结构信息的A2C(advantage actor-critic,A2C)算法。以A2C算法为基础,提取路网中车流量的信息,经过MLP(multilayer perceptron,MLP)对路口观测到的交通状态特征进行编码;结合图卷积神经网络提取道路之间的空间信息,引入多头注意力机制关注智能体之间的影响,在SUMO仿真环境中进行仿真验证。实验结果表明,改进的A2C算法相较于基线算法在等待时间、平均行驶速度上性能分别提升9.84%、7.57%,可以更好提高车辆通行效率。 展开更多
关键词 强化学习 图卷积神经网络 优势行动者-评论家 多层感知机 多头注意力机制 交通信号控制 多智能体
在线阅读 下载PDF
一种解决连续空间问题的真实在线自然梯度AC算法 被引量:5
7
作者 朱斐 朱海军 +2 位作者 刘全 陈冬火 伏玉琛 《软件学报》 EI CSCD 北大核心 2018年第2期267-282,共16页
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架... 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性. 展开更多
关键词 策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法
在线阅读 下载PDF
基于A3C的多功能雷达认知干扰决策方法 被引量:6
8
作者 邹玮琦 牛朝阳 +2 位作者 刘伟 高欧阳 张浩波 《系统工程与电子技术》 EI CSCD 北大核心 2023年第1期86-92,共7页
在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(... 在多功能雷达对抗领域,目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此,将异步优势行动者-评论家(asynchronous advantage actor-critic,A3C)算法引入到认知干扰决策领域,设计了包括干扰机模型、环境模型(目标方多功能雷达)以及交互机制的认知干扰决策整体框架,制定了干扰决策流程,干扰机模型利用异步多线程方式与环境模型进行交互训练。仿真实验表明,在扩充雷达任务转换关系表的基础上,所提方法与基于深度Q网络(deep Q network,DQN)的认知干扰决策系列方法相比,极大地提高了时间效率,平均决策时间降低70%以上,并且在决策准确度上有着明显优势,表明所提方法能够为多功能雷达对抗决策提供更有力的技术支撑。 展开更多
关键词 干扰决策 异步优势 行动者-评论家 时间效率 决策准确度
在线阅读 下载PDF
基于动作约束深度强化学习的安全自动驾驶方法 被引量:16
9
作者 代珊珊 刘全 《计算机科学》 CSCD 北大核心 2021年第9期235-243,共9页
随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探... 随着人工智能的发展,自动驾驶领域的研究也日益壮大。深度强化学习(Deep Reinforcement Learning,DRL)方法是该领域的主要研究方法之一。其中,安全探索问题是该领域的一个研究热点。然而,大部分DRL算法为了提高样本的覆盖率并没有对探索方法进行安全限制,使无人车探索时会陷入某些危险状态,从而导致学习失败。针对该问题,提出了一种基于动作约束的软行动者-评论家算法(Constrained Soft Actor-critic,CSAC),该方法首先对环境奖赏进行了合理限制。无人车动作转角过大时会产生抖动,因此在奖赏函数中加入惩罚项,使无人车尽量避免陷入危险状态。另外,CSAC方法又对智能体的动作进行了约束。当目前状态选择动作后使无人车偏离轨道或者发生碰撞时,标记该动作为约束动作,在之后的训练中通过合理约束来更好地指导无人车选择新动作。为了体现CSAC方法的优势,将CSAC方法应用在自动驾驶车道保持任务中,并与SAC算法进行对比。结果表明,引入安全机制的CSAC方法可以有效避开不安全动作,提高自动驾驶过程中的稳定性,同时还加快了模型的训练速度。最后,将训练好的模型移植到带有树莓派的无人车上,进一步验证了模型的泛用性。 展开更多
关键词 安全自动驾驶 深度强化学习 行动者-评论家 车道保持 无人车
在线阅读 下载PDF
基于多估计器平均值的深度确定性策略梯度算法 被引量:2
10
作者 李琳 李玉泽 +1 位作者 张钰嘉 魏巍 《郑州大学学报(工学版)》 CAS 北大核心 2022年第2期15-21,共7页
为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDPG-MME)算法。基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算... 为了解决强化学习行动者-评论家框架下双延迟深度确定性策略梯度算法的低估计问题,提出了一种基于多估计器平均值的深度确定性策略梯度(DDPG-MME)算法。基于多估计器平均值的确定性策略梯度算法包含一个行动者和k(k>3)个评论家,该算法首先计算2个评论家输出值的最小值和剩余(k-2)个评论家输出值的平均值,再取两者的平均值作为最终值来计算TD误差,最后根据TD误差来更新评论家网络,行动者网络则根据第1个评论家输出的值进行更新。DDPG-MME算法的加权操作缓解了双延迟深度确定性策略梯度算法的低估计问题,并在一定程度上降低了估计方差,实现了更准确的Q值估计。在理论上对基于多估计器平均值的确定性策略梯度算法、深度确定性策略梯度算法和双延迟深度确定性策略梯度算法估值误差的期望和方差进行分析,证明了所提算法估值的准确性和稳定性。在Reacher-v2、HalfCheetah-v2、InvertedPendulum-v2和InvertedDoublePendulum-v24个MuJoCo连续控制环境下对算法的性能进行测试,结果表明:在与对比算法相同的超参数(网络结构、奖励函数、环境参数、批次大小、学习率、优化器和折扣系数)设置下,所提算法的最终性能和稳定性均显著优于对比算法。 展开更多
关键词 强化学习 行动者-评论家 低估计 多估计器 策略梯度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部