检索结果-维普期刊中文期刊服务平台

基于柔性演员-评论家算法的决策规划协同研究被引量：3: 1; 作者唐斌刘光耀 +3 位作者江浩斌田宁米伟王春宏《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页; 为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与... 展开更多; 关键词智能交通自动驾驶柔性演员-评论家算法决策规划协同深度强化学习; 在线阅读下载PDF 职称材料

考虑进站策略的网联电动公交车节能驾驶优化研究被引量：1: 2; 作者南斯睿于谦 +2 位作者李铁柱尚赞娣陈海波《交通运输系统工程与信息》北大核心 2025年第2期82-94,共13页; 针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学... 展开更多; 关键词智能交通节能驾驶优化深度强化学习纯电动公交柔性演员-评论家算法; 在线阅读下载PDF 职称材料

基于最大熵深度强化学习的双足机器人步态控制方法被引量：3: 3; 作者李源潮陶重犇王琛《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页; 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 展开更多; 关键词双足机器人步态控制深度强化学习最大熵柔性演员-评论家算法; 在线阅读下载PDF 职称材料

基于改进强化学习的移动机器人动态避障方法被引量：11: 4; 作者徐建华邵康康 +1 位作者王佳惠刘学聪《中国惯性技术学报》 EI CSCD 北大核心 2023年第1期92-99,共8页; 针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯... 展开更多; 关键词移动机器人动态避障强化学习柔性演员评论家算法卷积神经网络; 在线阅读下载PDF 职称材料

基于优先经验回放的生成式SAC算法及其应用: 5; 作者张伟李玉俊 +2 位作者谢雯雯许耘嘉孙庚《吉林大学学报(理学版)》 2025年第6期1713-1722,共10页; 针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升... 展开更多; 关键词深度强化学习柔性演员-评论家算法优先经验回放 Transformer架构后勤管理; 在线阅读下载PDF 职称材料

题名基于柔性演员-评论家算法的决策规划协同研究被引量：3: 1; 作者唐斌刘光耀江浩斌田宁米伟王春宏; 机构江苏大学江苏罡阳转向系统有限公司; 出处《交通运输系统工程与信息》 EI CSCD 北大核心 2024年第2期105-113,187,共10页; 基金国家自然科学基金(52225212) 江苏省六大人才高峰项目(2019-GDZB-084) 泰州市科技支撑计划项目(TG202307)。; 文摘为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。; 关键词智能交通自动驾驶柔性演员-评论家算法决策规划协同深度强化学习; Keywords intelligent transportation autonomous driving soft actor-critic algorithm collaborative decision and planning deep reinforcement learning; 分类号 U491 [交通运输工程—交通运输规划与管理]; 在线阅读下载PDF 职称材料

题名考虑进站策略的网联电动公交车节能驾驶优化研究被引量：1: 2; 作者南斯睿于谦李铁柱尚赞娣陈海波; 机构西安建筑科技大学长安大学东南大学交通运输部科学研究院利兹大学; 出处《交通运输系统工程与信息》北大核心 2025年第2期82-94,共13页; 基金陕西省教育厅科学研究计划项目西安建筑科技大学新型城镇化专项研究基金项目综合交通运输大数据应用技术交通运输行业重点实验室开放课题。; 文摘针对公交车在进出站和信号交叉口高能耗的问题,本文提出一种考虑进站策略的节能驾驶优化方法。首先,基于利用城市交通能力仿真(Simulation of Urban Mobility, SUMO)平台搭建智能网联场景,构建能够反映能耗、行驶效率和安全性的强化学习复合奖励函数;其次,将进站策略和预设交通规则作为约束集成于柔性演员-评论家(Soft Actor-Critic, SAC)深度强化学习框架中,优化车辆进出站及接近信号交叉口的轨迹;最后,以实际行驶、基于深度Q网络(Deep Q-Network, DQN)算法常规、基于SAC算法、基于规则约束和DQN算法(DQN-ruled)的优化方法作为基准方案,与本文提出的基于规则约束和SAC算法(SAC-ruled)的优化方法进行对比。结果表明:通过SAC-ruled算法优化后的驾驶轨迹在多种场景下均优于基准方案。在跟驰运动中,与基准方案相比,所设计的节能驾驶优化方法较基准方案的车辆能耗最高减少35.97%,行驶时间提升21.67%;在换道运动中,车辆能耗最多可降低41.40%,行驶时间提升16.94%。此外,通过敏感性分析验证,本文提出的基于SAC-ruled算法的节能驾驶优化方法在应对车流量波动方面表现出更强的适应性。本文建立的节能驾驶优化模型可集成节能辅助驾驶系统,鼓励驾驶员主动节能。; 关键词智能交通节能驾驶优化深度强化学习纯电动公交柔性演员-评论家算法; Keywords intelligent transportation energy-saving driving optimization deep reinforcement learning electric bus soft actor-critic algorithm; 分类号 U495 [交通运输工程—交通运输规划与管理]; 在线阅读下载PDF 职称材料

题名基于最大熵深度强化学习的双足机器人步态控制方法被引量：3: 3; 作者李源潮陶重犇王琛; 机构苏州科技大学电子与信息工程学院清华大学苏州汽车研究院; 出处《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页; 基金国家自然科学基金资助项目(62201375) 中国博士后科学基金资助项目(2021M691848) +1 种基金苏州市科技项目(SS2019029)。; 文摘针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。; 关键词双足机器人步态控制深度强化学习最大熵柔性演员-评论家算法; Keywords biped robot gait control deep reinforcement learning maximum entropy Soft Actor-Critic(SAC)algorithm; 分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]; 在线阅读下载PDF 职称材料

题名基于改进强化学习的移动机器人动态避障方法被引量：11: 4; 作者徐建华邵康康王佳惠刘学聪; 机构北京理工大学自动化学院; 出处《中国惯性技术学报》 EI CSCD 北大核心 2023年第1期92-99,共8页; 基金装备重大基础研究项目(5140502A03)。; 文摘针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。; 关键词移动机器人动态避障强化学习柔性演员评论家算法卷积神经网络; Keywords mobile robot dynamic obstacle avoidance reinforcement learning soft actor-critic convolutional neural network; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于优先经验回放的生成式SAC算法及其应用: 5; 作者张伟李玉俊谢雯雯许耘嘉孙庚; 机构吉林大学后勤处; 出处《吉林大学学报(理学版)》 2025年第6期1713-1722,共10页; 基金国家自然科学基金面上项目(批准号:62272194) 吉林大学信息化专项研究项目.; 文摘针对传统柔性演员-评论家算法在探索能力和复杂环境中状态表征不足的问题,提出一种改进的柔性演员-评论家算法.首先,该算法通过引入优先经验回放机制,利用时序差分误差对经验样本进行动态优先级评估,从而提高关键经验的利用率,进而提升学习效率;其次,该算法将生成式Transformer架构集成到演员网络中以增强对状态特征的动态捕捉能力,从而显著提升其在复杂优化任务中的性能;最后,在高校后勤人员动态调度优化问题上进行应用实验.实验结果表明,与原始柔性演员-评论家算法及经典深度Q网络算法相比,改进的柔性演员-评论家算法在人力需求动态拟合方面误差更小,从而有效验证了其在实际应用中的优势和实用性.; 关键词深度强化学习柔性演员-评论家算法优先经验回放 Transformer架构后勤管理; Keywords deep reinforcement learning soft actor-critic algorithm prioritized experience replay Transformer architecture logistics management; 分类号 TP181 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于柔性演员-评论家算法的决策规划协同研究	唐斌刘光耀江浩斌田宁米伟王春宏	《交通运输系统工程与信息》 EI CSCD 北大核心	2024	3	在线阅读下载PDF 职称材料
2	考虑进站策略的网联电动公交车节能驾驶优化研究	南斯睿于谦李铁柱尚赞娣陈海波	《交通运输系统工程与信息》北大核心	2025	1	在线阅读下载PDF 职称材料
3	基于最大熵深度强化学习的双足机器人步态控制方法	李源潮陶重犇王琛	《计算机应用》 CSCD 北大核心	2024	3	在线阅读下载PDF 职称材料
4	基于改进强化学习的移动机器人动态避障方法	徐建华邵康康王佳惠刘学聪	《中国惯性技术学报》 EI CSCD 北大核心	2023	11	在线阅读下载PDF 职称材料
5	基于优先经验回放的生成式SAC算法及其应用	张伟李玉俊谢雯雯许耘嘉孙庚	《吉林大学学报(理学版)》	2025		在线阅读下载PDF 职称材料