期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于路径模仿和SAC强化学习的机械臂路径规划算法 被引量:1
1
作者 宋紫阳 李军怀 +2 位作者 王怀军 苏鑫 于蕾 《计算机应用》 CSCD 北大核心 2024年第2期439-444,共6页
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径... 在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。 展开更多
关键词 模仿学习 强化学习 SAC算法 路径规划 奖励函数
在线阅读 下载PDF
基于最大熵强化学习的电网自主拓扑切换控制技术 被引量:1
2
作者 马世乾 黄家凯 +3 位作者 崇志强 韩枭赟 徐娜 穆朝絮 《电力系统及其自动化学报》 CSCD 北大核心 2022年第12期51-60,共10页
随着新能源装机量逐年提高,电网结构日趋复杂,针对新能源并网后导致的运行安全问题,本文提出一种基于最大熵强化学习的电网自主拓扑切换控制算法,为变电站和输电线提供切换策略。首先设计了基于模仿学习的神经网络预训练方案,提出了模... 随着新能源装机量逐年提高,电网结构日趋复杂,针对新能源并网后导致的运行安全问题,本文提出一种基于最大熵强化学习的电网自主拓扑切换控制算法,为变电站和输电线提供切换策略。首先设计了基于模仿学习的神经网络预训练方案,提出了模仿学习-最大熵算法,解决了电网拓扑切换中面临的爆炸性动作组合空间问题和切换导致的脆弱性问题,智能体可在亚秒级内给出控制指令。基于IEEE 45节点算例对所提算法进行仿真验证,结果表明其具有较强的高效性与鲁棒性。 展开更多
关键词 最大熵强化学习算法 模仿学习-最大熵算法 拓扑鲁棒性 电网调控运行
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部