-
题名基于SAC的桥式起重机智能防摇控制
- 1
-
-
作者
唐伟强
王伟
马瑞
许天鹏
-
机构
兰州理工大学电气工程与信息工程学院
-
出处
《中国工程机械学报》
北大核心
2025年第3期438-443,共6页
-
基金
国家自然科学基金资助项目(62463017,62063018)
甘肃省科技计划资助项目(24CXGA039,23CXGA0002)。
-
文摘
针对桥式起重机载荷摆角抑制问题,提出了一种基于软演员评论家算法的智能防摇控制方法。以减小载荷摆角和尽快到达小车期望位置为目标设计奖励函数,采用1个动作网络,以起重机的小车位移、小车速度、负载角度和负载角速度作为动作网络输入,驱动力作为动作网络的输出。为了提高训练过程中的稳定性,采用4个价值网络,并在价值网络中引入熵正则项和熵加权系数,用于平衡训练过程中探索和利用之间的关系。价值网络通过软更新的方式得到目标网络,从而减少了训练过程中局部最优和发散的情况。最后通过模型训练,得到用于控制的动作网络。结果表明:所提出的智能防摇控制系统对载荷摆角具有很好的抑制作用,而且对载荷质量变化、绳长参数摄动以及外部干扰具有很好的鲁棒性。与基于末端执行器广义运动方法相比,所提出的方法在起重机系统动态性能和抗干扰方面展现出一定的优势。
-
关键词
桥式起重机
摆角控制
软演员评论家算法
强化学习
-
Keywords
overhead cranes
swing angle control
soft actor-critic algorithm
reinforcement learning
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名一种平衡探索和利用的优先经验回放方法
被引量:2
- 2
-
-
作者
张佳能
李辉
吴昊霖
王壮
-
机构
四川大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2022年第5期179-185,共7页
-
基金
全军装备预研项目(31505550302)。
-
文摘
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。针对上述问题,提出了一种平衡探索和利用的优先经验回放方法(Exploration and Exploitation Balanced Experience Replay,E3R)。该方法可以综合考虑样本的探索效用和利用效用,根据当前状态和过去状态的相似性程度以及同一状态下行为策略和目标策略采取动作的相似性程度来对样本进行采样。此外,将E3R分别与策略梯度类算法软演员-评论家算法、值函数类算法深度Q网络算法相结合,并在相应的OpenAI gym环境下进行实验。实验结果表明,相比传统随机采样和时序差分优先采样,E3R可以获得更快的收敛速度和更高的累计回报。
-
关键词
强化学习
经验回放
优先采样
利用
探索
软演员-评论家算法
-
Keywords
Reinforcement learning
Experience replay
Priority sampling
Exploitation
Exploration
Soft actor-critic algorithm
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-