堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo...堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。展开更多
针对部分未知环境下单个自主水下航行器(autonomous underwater vehicle,AUV)的DQN动态路径规划算法存在随机性大及收敛慢的问题,提出一种融合行为克隆、A*算法与DQN的路径规划方法(behavior cloning with A*algorithm and DQN,BA_DQN)...针对部分未知环境下单个自主水下航行器(autonomous underwater vehicle,AUV)的DQN动态路径规划算法存在随机性大及收敛慢的问题,提出一种融合行为克隆、A*算法与DQN的路径规划方法(behavior cloning with A*algorithm and DQN,BA_DQN)。基于已知的环境信息,提出一种结合海洋洋流阻力的改进A*算法来引导DQN,从而减小DQN算法的随机性;考虑到海洋环境复杂,在扩张积极经验池之后再次改进采样概率来提高训练成功率;针对DQN收敛慢的问题,提出一种先强化学习后行为克隆的改进算法。使用BA_DQN算法来控制AUV寻路,并在不同任务场景下开展仿真实验。仿真结果表明:BA_DQN算法比DQN算法的训练时间更短,比A*算法的决策更快,航行用时更短。展开更多
文摘堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。
文摘针对部分未知环境下单个自主水下航行器(autonomous underwater vehicle,AUV)的DQN动态路径规划算法存在随机性大及收敛慢的问题,提出一种融合行为克隆、A*算法与DQN的路径规划方法(behavior cloning with A*algorithm and DQN,BA_DQN)。基于已知的环境信息,提出一种结合海洋洋流阻力的改进A*算法来引导DQN,从而减小DQN算法的随机性;考虑到海洋环境复杂,在扩张积极经验池之后再次改进采样概率来提高训练成功率;针对DQN收敛慢的问题,提出一种先强化学习后行为克隆的改进算法。使用BA_DQN算法来控制AUV寻路,并在不同任务场景下开展仿真实验。仿真结果表明:BA_DQN算法比DQN算法的训练时间更短,比A*算法的决策更快,航行用时更短。