针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcemen...针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcement learning,MDRL)。设计多种优化算子作为强化学习的动作空间,训练策略网络以选择最佳优化算子来改进解决方案。针对多目标问题,设计基于优势差异的方法(MDRL-AD)和基于支配性评估的方法(MDRL-DE)。采用四种规模的测试算例及实际案例进行数值实验,将MDRL和改进的NSGA-Ⅱ、MOPSO、L2I算法进行比较,并利用Hypervolume指标、Spacing指标、Ω指标、IGD指标对算法性能进行评估。实验结果表明,MDRL-AD方法更适用于求解小规模算例,MDRL-DE方法则在求解大规模和超大规模算例时相比其他算法优势明显。MDRL在非劣解集的收敛性和均匀性方面明显优于其他对比算法,为消防设施布局规划提供了一种有竞争力的解决方案。展开更多
堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop fo...堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。展开更多
文摘针对消防设施选址问题,构建考虑时效性、市民等待救援的焦急心理和建设成本的三目标消防设施选址模型,以实现更科学的消防设施布局。鉴于该问题的NP难特性,提出基于算子学习的多目标深度强化学习模型(multi-objective deep reinforcement learning,MDRL)。设计多种优化算子作为强化学习的动作空间,训练策略网络以选择最佳优化算子来改进解决方案。针对多目标问题,设计基于优势差异的方法(MDRL-AD)和基于支配性评估的方法(MDRL-DE)。采用四种规模的测试算例及实际案例进行数值实验,将MDRL和改进的NSGA-Ⅱ、MOPSO、L2I算法进行比较,并利用Hypervolume指标、Spacing指标、Ω指标、IGD指标对算法性能进行评估。实验结果表明,MDRL-AD方法更适用于求解小规模算例,MDRL-DE方法则在求解大规模和超大规模算例时相比其他算法优势明显。MDRL在非劣解集的收敛性和均匀性方面明显优于其他对比算法,为消防设施布局规划提供了一种有竞争力的解决方案。
文摘堆叠覆盖环境下的机械臂避障抓取是一个重要且有挑战性的任务。针对机械臂在堆叠环境下的避障抓取任务,本文提出了一种基于图像编码器和深度强化学习(deep reinforcement learning,DRL)的机械臂避障抓取方法Ec-DSAC(encoder and crop for discrete SAC)。首先设计结合YOLO(you only look once)v5和对比学习网络编码的图像编码器,能够编码关键特征和全局特征,实现像素信息至向量信息的降维。其次结合图像编码器和离散软演员-评价家(soft actor-critic,SAC)算法,设计离散动作空间和密集奖励函数约束并引导策略输出的学习方向,同时使用随机图像裁剪增加强化学习的样本效率。最后,提出了一种应用于深度强化学习预训练的二次行为克隆方法,增强了强化学习网络的学习能力并提高了控制策略的成功率。仿真实验中Ec-DSAC的避障抓取成功率稳定高于80.0%,验证其具有比现有方法更好的避障抓取性能。现实实验中避障抓取成功率为73.3%,验证其在现实堆叠覆盖环境下避障抓取的有效性。