为解决基于深度强化学习的AUV跟踪控制器在面临新任务时需从零开始训练、训练速度慢、稳定性差等问题,设计一种基于元强化学习的AUV多任务快速自适应控制算法——R-SAC(Reptile-Soft Actor Critic)算法。R-SAC算法将元学习与强化学习相...为解决基于深度强化学习的AUV跟踪控制器在面临新任务时需从零开始训练、训练速度慢、稳定性差等问题,设计一种基于元强化学习的AUV多任务快速自适应控制算法——R-SAC(Reptile-Soft Actor Critic)算法。R-SAC算法将元学习与强化学习相结合,结合水下机器人运动学及动力学方程对跟踪任务进行建模,利用RSAC算法在训练阶段为AUV跟踪控制器获得一组最优初始值模型参数,使模型在面临不同的任务时,基于该组参数进行训练时能够快速收敛,实现快速自适应不同任务。仿真结果表明,所提出的方法与随机初始化强化学习控制器相比,收敛速度最低提高了1.6倍,跟踪误差保持在2.8%以内。展开更多
面对深渊等极端海洋环境下的科考需求,自主遥控水下机器人(autonomous and remotely-operated vehicle,简称ARV)凭借其探测范围大和能局部采样作业的综合能力和特点,在深海领域发挥着越来越重要的作用。文章以中国首台具备探测与作业能...面对深渊等极端海洋环境下的科考需求,自主遥控水下机器人(autonomous and remotely-operated vehicle,简称ARV)凭借其探测范围大和能局部采样作业的综合能力和特点,在深海领域发挥着越来越重要的作用。文章以中国首台具备探测与作业能力的全海深自主遥控水下机器人——“海斗一号”为研究对象。“海斗一号”在探测作业时,通过光纤微缆与母船保持实时通信,其特有的光纤压坠器装置对光纤链路的稳定性起到至关重要的作用。基于此,设计了一套“海斗一号”专用的布放回收装置,并探索形成了一套有效的布放回收方法,实现了“海斗一号”与光纤压坠器的安全布放与回收;针对布放回收过程中“海斗一号”的起吊架需应对不同起吊工况的需求,基于“海斗一号”轻量化的设计要求,提出采用多工况拓扑优化设计方法开展起吊架构型设计,对最终设计构型在2种工况下分别进行了有限元数值仿真,进一步完成了压载试验和海试应用验证。结果表明,文中所述“海斗一号”收放装置设计及优化方法切实有效,满足“海斗一号”开展深渊科考时的需求,为ARV布放回收及其装置优化设计提供了工程经验和理论指导。展开更多
文摘为解决基于深度强化学习的AUV跟踪控制器在面临新任务时需从零开始训练、训练速度慢、稳定性差等问题,设计一种基于元强化学习的AUV多任务快速自适应控制算法——R-SAC(Reptile-Soft Actor Critic)算法。R-SAC算法将元学习与强化学习相结合,结合水下机器人运动学及动力学方程对跟踪任务进行建模,利用RSAC算法在训练阶段为AUV跟踪控制器获得一组最优初始值模型参数,使模型在面临不同的任务时,基于该组参数进行训练时能够快速收敛,实现快速自适应不同任务。仿真结果表明,所提出的方法与随机初始化强化学习控制器相比,收敛速度最低提高了1.6倍,跟踪误差保持在2.8%以内。
文摘面对深渊等极端海洋环境下的科考需求,自主遥控水下机器人(autonomous and remotely-operated vehicle,简称ARV)凭借其探测范围大和能局部采样作业的综合能力和特点,在深海领域发挥着越来越重要的作用。文章以中国首台具备探测与作业能力的全海深自主遥控水下机器人——“海斗一号”为研究对象。“海斗一号”在探测作业时,通过光纤微缆与母船保持实时通信,其特有的光纤压坠器装置对光纤链路的稳定性起到至关重要的作用。基于此,设计了一套“海斗一号”专用的布放回收装置,并探索形成了一套有效的布放回收方法,实现了“海斗一号”与光纤压坠器的安全布放与回收;针对布放回收过程中“海斗一号”的起吊架需应对不同起吊工况的需求,基于“海斗一号”轻量化的设计要求,提出采用多工况拓扑优化设计方法开展起吊架构型设计,对最终设计构型在2种工况下分别进行了有限元数值仿真,进一步完成了压载试验和海试应用验证。结果表明,文中所述“海斗一号”收放装置设计及优化方法切实有效,满足“海斗一号”开展深渊科考时的需求,为ARV布放回收及其装置优化设计提供了工程经验和理论指导。