期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于柔性演员-评论家算法的决策规划协同研究 被引量:3
1
作者 唐斌 刘光耀 +3 位作者 江浩斌 田宁 米伟 王春宏 《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。 展开更多
关键词 智能交通 自动驾驶 柔性演员-评论家算法 决策规划协同 深度强化学习
在线阅读 下载PDF
基于优势演员-评论家算法的强化自动摘要模型 被引量:7
2
作者 杜嘻嘻 程华 房一泉 《计算机应用》 CSCD 北大核心 2021年第3期699-705,共7页
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)... 针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。 展开更多
关键词 自动摘要模型 抽取式摘要模型 生成式摘要模型 编码器-解码器 强化学习 优势演员-评论家算法
在线阅读 下载PDF
基于优势演员-评论家算法的危险货物集装箱堆场安全堆存空间分配
3
作者 沈阳 黄诚 宓为建 《上海海事大学学报》 北大核心 2022年第3期13-20,61,共9页
针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(adv... 针对危险货物集装箱(简称危货箱)堆场堆存空间分配的安全性问题,通过分析危货箱堆存的风险因素及安全堆存规范,提出一种以安全堆存空间利用率和安全指数最大为目标的危货箱堆场安全堆存空间分配多目标优化模型。设计优势演员-评论家(advantage actor-critic,A2C)算法对模型进行求解,并通过算例分析和对比验证方法的有效性及优越性。结果表明,该方法能够获得在降低作业风险和提高事故应急处置能力条件下的危货箱堆场最优堆存空间分配策略,从而提高危货箱堆存安全性和堆场利用率。 展开更多
关键词 危险货物集装箱 安全堆存空间分配 多目标优化 优势演员-评论家算法
在线阅读 下载PDF
考虑进站策略的网联电动公交车节能驾驶优化研究 被引量:1
4
作者 南斯睿 于谦 +2 位作者 李铁柱 尚赞娣 陈海波 《交通运输系统工程与信息》 北大核心 2025年第2期82-94,共13页
针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。 展开更多
关键词 智能交通 节能驾驶优化 深度强化学习 纯电动公交 柔性演员-评论家算法
在线阅读 下载PDF
基于多域联合的无人机集群认知抗干扰算法 被引量:11
5
作者 刘春玲 刘敏提 丁元明 《计算机工程》 CAS CSCD 北大核心 2020年第12期193-200,共8页
为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于St... 为解决无人机集群网络在复杂通信环境中对抗智能性干扰能力较弱的问题,基于智能决策理论,提出一种多域联合的认知抗干扰算法。该算法在优势演员-评论家算法的基础上,将无人机视作智能体,并由感知到的环境频谱状态决策出干扰信道。基于Stackelberg博弈理论,利用功率域压制中度干扰等级的信道干扰信号,减少切换信道的时间开销。通过引入簇头协助的方法,解决由于单个智能体局部频谱感知能力较弱而导致信道决策成功率较低的问题。仿真结果表明,相比QL-AJ算法与AC-AJ算法,该算法能够给出簇内最佳节点个数,提高接收信号信干噪比,且网络整体抗干扰性能较好。 展开更多
关键词 认知抗干扰算法 优势演员-评论家算法 STACKELBERG博弈 无人机集群 分布式网络
在线阅读 下载PDF
移动边缘计算辅助智能驾驶中基于高效联邦学习的碰撞预警算法 被引量:2
6
作者 唐伦 文明艳 +1 位作者 单贞贞 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2406-2414,共9页
智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参... 智能驾驶中的碰撞避免任务存在对时延要求极高和隐私保护等挑战。首先,该文提出一种基于自适应调整参数的半异步联邦学习(SFLAAP)的门控循环单元联合支持向量机(GRU_SVM)碰撞多级预警算法,SFLAAP可根据训练和资源情况动态调整两个训练参数:本地训练次数和参与聚合的局部模型数量。然后,为解决资源受限的移动边缘计算(MEC)下碰撞预警模型协作训练的效率问题,根据上述参数与SFLAAP训练时延的关系,建立训练总时延最小化模型,并将其转化为马尔可夫决策过程(MDP)。最后,在所建立的MDP中采用异步优势演员-评论家(A3C)学习求解,自适应地确定最优训练参数,从而减少碰撞预警模型的训练完成时间。仿真结果表明,所提算法有效地降低训练总时延并保证预测精度。 展开更多
关键词 碰撞预警 联邦学习 移动边缘计算 异步优势演员-评论家算法
在线阅读 下载PDF
融合强化学习的分阶段策略求解旅行背包问题 被引量:1
7
作者 章政 夏小云 +1 位作者 陈泽丰 向毅 《计算机工程与科学》 北大核心 2025年第1期140-149,共10页
旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。... 旅行背包问题TTP是传统的旅行商问题和背包问题的结合,属于NP难问题。相较于独立的旅行商问题和背包问题,旅行背包问题更加符合现实情况,具有更高的研究价值。先前的TTP求解算法主要为启发式算法,性能有限,其他类型的算法则研究较少。为了提高TTP的求解性能,提出了融合强化学习的算法,采用分阶段策略。第1阶段根据物品的属性生成物品选择计划,第2阶段利用强化学习演员-评论家(Actor-Critic)算法求解旅行路径,第3阶段引入邻域搜索策略优化所得解。实验结果表明,所提算法在大部分算例上都取得了较好的结果,并且在部分算例上,解的质量超越了其他对比算法,表明了所提算法具有较优的性能。 展开更多
关键词 强化学习 旅行背包问题 演员-评论家算法 组合优化
在线阅读 下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:3
8
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
在线阅读 下载PDF
基于优先经验回放的生成式SAC算法及其应用
9
作者 张伟 李玉俊 +2 位作者 谢雯雯 许耘嘉 孙庚 《吉林大学学报(理学版)》 2025年第6期1713-1722,共10页
针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性. 展开更多
关键词 深度强化学习 柔性演员-评论家算法 优先经验回放 Transformer架构 后勤管理
在线阅读 下载PDF
一种平衡探索和利用的优先经验回放方法 被引量:2
10
作者 张佳能 李辉 +1 位作者 吴昊霖 王壮 《计算机科学》 CSCD 北大核心 2022年第5期179-185,共7页
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采... 经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。 展开更多
关键词 强化学习 经验回放 优先采样 利用 探索 演员-评论家算法
在线阅读 下载PDF
基于动态任务图的机场停机位智能分配研究
11
作者 侯谨毅 李博昱 +2 位作者 李海丰 范龙飞 陈宇航 《重庆交通大学学报(自然科学版)》 2025年第11期68-75,共8页
航空运输中,机场航班和停机位经常会发生变化,需要对停机位进行高效的动态分配。提出一种基于动态任务图和优势演员-评论家算法(A2C)的机位智能分配方案,构建基于图结构方法的航班-机位动态任务图模型,提取图特征向量构成任务状态空间,... 航空运输中,机场航班和停机位经常会发生变化,需要对停机位进行高效的动态分配。提出一种基于动态任务图和优势演员-评论家算法(A2C)的机位智能分配方案,构建基于图结构方法的航班-机位动态任务图模型,提取图特征向量构成任务状态空间,构造机位分配智能体模型,设计基于优势演员-评论家算法的求解方法。利用北京大兴国际机场数据进行实验研究,结果表明:提出的机位分配方案使停机位预分配靠桥率提升5.6%,停机位动态分配靠桥率提升6.4%。该分配方案实现高效的机位动态智能分配,为繁忙机场停机位资源调度提供决策支持。 展开更多
关键词 交通运输工程 停机位分配 优势演员-评论家算法 图模型 多目标优化 深度强化学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部