-
题名基于路径模仿和SAC强化学习的机械臂路径规划算法
被引量:1
- 1
-
-
作者
宋紫阳
李军怀
王怀军
苏鑫
于蕾
-
机构
西安理工大学计算机科学与工程学院
陕西省网络计算与安全技术重点实验室
-
出处
《计算机应用》
CSCD
北大核心
2024年第2期439-444,共6页
-
基金
国家重点研发计划项目(2018YFB1703003)
陕西省重点研发计划项目(2022SF⁃353)
西安市科技计划项目(2022JH⁃RYFW⁃0072)。
-
文摘
在机械臂路径规划算法的训练过程中,由于动作空间和状态空间巨大导致奖励稀疏,机械臂路径规划训练效率低,面对海量的状态数和动作数较难评估状态价值和动作价值。针对上述问题,提出一种基于SAC(Soft Actor-Critic)强化学习的机械臂路径规划算法。通过将示教路径融入奖励函数使机械臂在强化学习过程中对示教路径进行模仿以提高学习效率,并采用SAC算法使机械臂路径规划算法的训练更快、稳定性更好。基于所提算法和深度确定性策略梯度(DDPG)算法分别规划10条路径,所提算法和DDPG算法规划的路径与参考路径的平均距离分别是0.8 cm和1.9 cm。实验结果表明,路径模仿机制能提高训练效率,所提算法比DDPG算法能更好地探索环境,使得规划路径更加合理。
-
关键词
模仿学习
强化学习
SAC算法
路径规划
奖励函数
-
Keywords
imitative learning
Reinforcement learning(RL)
soft actor-critic(SAC)algorithm
path planning
reward function
-
分类号
TP241.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于最大熵强化学习的电网自主拓扑切换控制技术
被引量:1
- 2
-
-
作者
马世乾
黄家凯
崇志强
韩枭赟
徐娜
穆朝絮
-
机构
国网天津市电力公司电力科学研究院
天津大学电气自动化与信息工程学院
-
出处
《电力系统及其自动化学报》
CSCD
北大核心
2022年第12期51-60,共10页
-
基金
国网天津市电力公司科技项目(KJ21-2-01)。
-
文摘
随着新能源装机量逐年提高,电网结构日趋复杂,针对新能源并网后导致的运行安全问题,本文提出一种基于最大熵强化学习的电网自主拓扑切换控制算法,为变电站和输电线提供切换策略。首先设计了基于模仿学习的神经网络预训练方案,提出了模仿学习-最大熵算法,解决了电网拓扑切换中面临的爆炸性动作组合空间问题和切换导致的脆弱性问题,智能体可在亚秒级内给出控制指令。基于IEEE 45节点算例对所提算法进行仿真验证,结果表明其具有较强的高效性与鲁棒性。
-
关键词
最大熵强化学习算法
模仿学习-最大熵算法
拓扑鲁棒性
电网调控运行
-
Keywords
soft actor-critic(SAC)algorithm
imitation learning soft actor-critic(il-sac)algorithm
topological robustness
regulation and operation of power grid
-
分类号
TM73
[电气工程—电力系统及自动化]
-