堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo...堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。展开更多
针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑...针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑边缘内和边缘间干扰,提出一种车辆到基础设施(V2I)的传输模型,该模型通过引入非正交多址接入(NOMA)技术使边缘节点不仅无需依赖链路状态信息,还可以提升信道容量;其次,为了提高系统的性能和效率,设计一种多智能体双延迟深度确定性(MATD3)算法用于制定任务卸载策略,这些策略可通过与环境的交互学习进行动态调整;再次,联合考虑2种策略的协同作用,并制定将最大化任务服务比率作为目标的优化方案,从而满足不断提升的用户体验质量需求;最后,对真实车辆轨迹数据集进行仿真实验。结果表明,相较于当前具有代表性的3种方案(分别以随机卸载(RO)算法、D4PG(Distributed Distributional Deep Deterministic Policy Gradient)算法和MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法为任务卸载算法的方案)在3类场景下(普通场景、任务密集型场景和时延敏感型场景),所提方案的平均服务比率分别提高了20%、10%和29%以上,验证了该方案的优势和有效性。展开更多
文摘堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。
文摘针对车辆边缘计算(VEC)中存在的用户体验质量需求不断增加、高度移动车辆引起的链路状态获取困难和异构边缘节点为车辆提供资源的时变性等问题,制定一种联合任务卸载和资源优化(JTO-RO)的VEC方案。首先,在不失一般性的前提下,综合考虑边缘内和边缘间干扰,提出一种车辆到基础设施(V2I)的传输模型,该模型通过引入非正交多址接入(NOMA)技术使边缘节点不仅无需依赖链路状态信息,还可以提升信道容量;其次,为了提高系统的性能和效率,设计一种多智能体双延迟深度确定性(MATD3)算法用于制定任务卸载策略,这些策略可通过与环境的交互学习进行动态调整;再次,联合考虑2种策略的协同作用,并制定将最大化任务服务比率作为目标的优化方案,从而满足不断提升的用户体验质量需求;最后,对真实车辆轨迹数据集进行仿真实验。结果表明,相较于当前具有代表性的3种方案(分别以随机卸载(RO)算法、D4PG(Distributed Distributional Deep Deterministic Policy Gradient)算法和MADDPG(Multi-Agent Deep Deterministic Policy Gradient)算法为任务卸载算法的方案)在3类场景下(普通场景、任务密集型场景和时延敏感型场景),所提方案的平均服务比率分别提高了20%、10%和29%以上,验证了该方案的优势和有效性。