期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
1
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 sac算法 路径规划 奖励函数
在线阅读 下载PDF
融合注意力机制与SAC算法的虚拟电厂多能流低碳调度 被引量:5
2
作者 俞晓荣 徐青山 +1 位作者 杜璞良 王冬 《电力工程技术》 北大核心 2024年第5期233-246,共14页
虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难... 虚拟电厂(virtual power plant,VPP)作为多能流互联的综合能源网络,已成为中国加速实现双碳目标的重要角色。但VPP内部资源协同低碳调度面临多能流的耦合程度紧密、传统碳交易模型参数主观性强、含高维动态参数的优化目标在线求解困难等问题。针对这些问题,文中提出一种融合注意力机制(attention mechanism,AM)与柔性动作评价(soft actor-critic,SAC)算法的VPP多能流低碳调度方法。首先,根据VPP的随机碳流特性,面向动态参数建立基于贝叶斯优化的改进阶梯型碳交易机制。接着,以经济效益和碳排放量为目标函数构建含氢VPP多能流解耦模型。然后,考虑到该模型具有高维非线性与权重参数实时更新的特征,利用融合AM的改进SAC深度强化学习算法在连续动作空间对模型进行求解。最后,对多能流调度结果进行仿真分析和对比实验,验证了文中方法的可行性及其相较于原SAC算法较高的决策准确性。 展开更多
关键词 虚拟电厂(VPP) 多能流 改进碳交易机制 深度强化学习 注意力机制(AM) 柔性动作评价(sac)算法
在线阅读 下载PDF
基于SAC模型的改进遗传算法求解TSP问题 被引量:16
3
作者 陈斌 刘卫国 《计算机科学与探索》 CSCD 北大核心 2021年第9期1680-1693,共14页
遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算... 遗传算法(GA)的全局搜索能力强,易于操作,但其收敛速度慢,易陷入局部最优值。针对以上问题,利用深度强化学习模型SAC对遗传算法进行改进,并将其应用至旅行商问题(TSP)的求解。改进算法将种群作为与智能体(agent)交互的环境,引入贪心算法对环境进行初始化,使用改进后的交叉与变异运算作为agent的动作空间,将种群的进化过程视为一个整体,以最大化种群进化过程的累计奖励为目标,结合当前种群个体适应度情况,采用基于SAC的策略梯度算法,生成控制种群进化的动作策略,合理运用遗传算法的全局和局部搜索能力,优化种群的进化过程,平衡种群收敛速度与遗传操作次数之间的关系。对TSPLIB实例的实验结果表明,改进的遗传算法可有效地避免陷入局部最优解,在提高种群收敛速度的同时,减少寻优过程的迭代次数。 展开更多
关键词 强化学习 遗传算法(GA) 旅行商问题(TSP) 深度策略梯度 soft actor-critic(sac)模型
在线阅读 下载PDF
LoRa网络中基于深度强化学习的信息年龄优化
4
作者 程克非 陈彩蝶 +1 位作者 罗佳 陈前斌 《电子与信息学报》 北大核心 2025年第2期541-550,共10页
信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指... 信息年龄(AoI)是信息新鲜度的衡量指标,针对时间敏感的物联网,最小化AoI显得尤为重要。该文基于LoRa网络的智能交通环境,分析Slot-Aloha协议下的AoI优化策略,建立了Slot-Aloha协议下数据包之间传输碰撞和等待时间的系统模型。通过分析指出,在LoRa上行传输过程中,随着数据包数量增多,AoI主要受到数据包碰撞影响。为克服优化问题中动作空间过大导致难以实现有效求解的问题,该文采用连续动作空间映射离散动作空间的方式,使用柔性动作-评价(SAC)算法对LoRa网络下的AoI进行优化。仿真结果显示,SAC算法优于传统算法与传统深度强化学习算法,可有效降低网络的平均AoI。 展开更多
关键词 信息年龄 LoRa 柔性动作-评价算法 深度强化学习 优化策略
在线阅读 下载PDF
基于SAC强化学习的车联网频谱资源动态分配 被引量:10
5
作者 黄煜梵 彭诺蘅 +3 位作者 林艳 范建存 张一晋 余妍秋 《计算机工程》 CAS CSCD 北大核心 2021年第9期34-43,共10页
针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多... 针对车联网频谱资源稀缺问题,提出一种基于柔性致动-评价(SAC)强化学习算法的多智能体频谱资源动态分配方案。以最大化信道总容量与载荷成功交付率为目标,建立车辆-车辆(V2V)链路频谱资源分配模型。将每条V2V链路作为单个智能体,构建多智能体马尔科夫决策过程模型。利用SAC强化学习算法设计神经网络,通过最大化熵与累计奖励和以训练智能体,使得V2V链路经过不断学习优化频谱资源分配。仿真结果表明,与基于深度Q网络和深度确定性策略梯度的频谱资源分配方案相比,该方案可以更高效地完成车联网链路之间的频谱共享任务,且信道传输速率和载荷成功交付率更高。 展开更多
关键词 车联网 资源分配 多智能体强化学习 柔性致动-评价算法 频谱分配
在线阅读 下载PDF
基于改进SAC算法的移动机器人路径规划 被引量:12
6
作者 李永迪 李彩虹 +1 位作者 张耀玉 张国胜 《计算机应用》 CSCD 北大核心 2023年第2期654-660,共7页
为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人... 为解决SAC算法在移动机器人局部路径规划中训练时间长、收敛速度慢等问题,通过引入优先级经验回放(PER)技术,提出了PER-SAC算法。首先从等概率从经验池中随机抽取样本变为按优先级抽取,使网络优先训练误差较大的样本,从而提高了机器人训练过程的收敛速度和稳定性;其次优化时序差分(TD)误差的计算,以降低训练偏差;然后利用迁移学习,使机器人从简单环境到复杂环境逐步训练,从而提高训练速度;另外,设计了改进的奖励函数,增加机器人的内在奖励,从而解决了环境奖励稀疏的问题;最后在ROS平台上进行仿真测试。仿真结果表明,在不同的障碍物环境中,PER-SAC算法均比原始算法收敛速度更快、规划的路径长度更短,并且PER-SAC算法能够减少训练时间,在路径规划性能上明显优于原始算法。 展开更多
关键词 移动机器人 局部路径规划 sac算法 优先级经验回放 ROS平台
在线阅读 下载PDF
基于最近双经验SAC算法的无人分队控制研究 被引量:1
7
作者 李海川 阳周明 +2 位作者 王洋 崔新悦 王娜 《火力与指挥控制》 CSCD 北大核心 2023年第6期70-75,83,共7页
针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明... 针对无人分队控制,如何进行行为决策以更好地完成任务,是当前无人驾驶的一个研究热点。基于SAC算法,提出最近双经验回放SAC算法模型。该模型主要从两方面入手:1)使用最近经验采样代替随机采样;2)使用双经验池代替单经验池。实验结果表明,改进后的SAC算法相比传统SAC算法,提升了学习效率与稳定性,降低了策略网络误差,使无人分队能有更高的任务成功率。 展开更多
关键词 深度强化学习 sac算法 最近双经验池回放 无人分队行为决策
在线阅读 下载PDF
基于SAC算法的移动机器人智能路径规划 被引量:6
8
作者 杨来义 毕敬 苑海涛 《系统仿真学报》 CAS CSCD 北大核心 2023年第8期1726-1736,共11页
为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速... 为解决传统的机器人路径规划算法维度高、收敛慢、建模难等问题,提出一种新的路径规划算法。基于深度强化学习SAC(soft actor-critic)算法,旨在解决机器人面对具有静态和动态障碍物的复杂环境时,路径规划表现差的问题。为使机器人快速躲避障碍物且到达目标,设计合理的奖励函数,使用动态的状态归一化和优先级经验技术。为评估该算法性能,构建基于Pygame的仿真环境。将所提算法与近端策略优化(proximal policy optimization,PPO)算法进行比较。实验结果表明:所提算法的累计奖励能够得到显著提高,并且具有更强的鲁棒性。 展开更多
关键词 深度强化学习 路径规划 sac(soft actor-critic)算法 连续奖励函数 移动机器人
在线阅读 下载PDF
基于最大熵深度强化学习的双足机器人步态控制方法 被引量:3
9
作者 李源潮 陶重犇 王琛 《计算机应用》 CSCD 北大核心 2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相... 针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。 展开更多
关键词 双足机器人 步态控制 深度强化学习 最大熵 柔性演员-评论家算法
在线阅读 下载PDF
基于计算重用的无人机辅助边缘计算系统能耗优化 被引量:2
10
作者 李斌 蔡海晨 +1 位作者 赵传信 王俊义 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第7期2740-2747,共8页
针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人... 针对复杂地形下时延敏感任务对终端用户的计算需求激增问题,该文提出一种无人机(UAV)辅助的移动边缘计算可重用任务的协同计算卸载方案。首先,通过联合优化用户卸载策略、用户传输功率、无人机上服务器分配、用户设备的计算频率和无人机服务器的计算频率以及无人机的飞行轨迹,构建满足时延约束下最小化系统平均总能耗的系统模型。其次,通过深度强化学习求解该优化问题,并提出了基于柔性动作-评价(SAC)的优化算法。该算法采用最大熵的策略来鼓励探索,以增强算法的探索能力并加快训练的收敛速度。仿真结果表明,基于SAC的算法能有效降低系统的平均总能耗,并具有较好的收敛性。 展开更多
关键词 无人机 移动边缘计算 计算重用 资源分配 柔性动作-评价算法
在线阅读 下载PDF
基于最大熵强化学习的电网自主拓扑切换控制技术 被引量:1
11
作者 马世乾 黄家凯 +3 位作者 崇志强 韩枭赟 徐娜 穆朝絮 《电力系统及其自动化学报》 CSCD 北大核心 2022年第12期51-60,共10页
随着新能源装机量逐年提高,电网结构日趋复杂,针对新能源并网后导致的运行安全问题,本文提出一种基于最大熵强化学习的电网自主拓扑切换控制算法,为变电站和输电线提供切换策略。首先设计了基于模仿学习的神经网络预训练方案,提出了模... 随着新能源装机量逐年提高,电网结构日趋复杂,针对新能源并网后导致的运行安全问题,本文提出一种基于最大熵强化学习的电网自主拓扑切换控制算法,为变电站和输电线提供切换策略。首先设计了基于模仿学习的神经网络预训练方案,提出了模仿学习-最大熵算法,解决了电网拓扑切换中面临的爆炸性动作组合空间问题和切换导致的脆弱性问题,智能体可在亚秒级内给出控制指令。基于IEEE 45节点算例对所提算法进行仿真验证,结果表明其具有较强的高效性与鲁棒性。 展开更多
关键词 最大熵强化学习算法 模仿学习-最大熵算法 拓扑鲁棒性 电网调控运行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部