受限于模型方程决定的固定结构,传统四旋翼控制器设计难以有效应对模型参数和环境扰动变化带来的控制误差。提出了基于深度强化学习的四旋翼航迹跟踪控制方法,构建了对应的马尔可夫决策模型,并基于PPO框架提出了PPO-SAG(PPO with self a...受限于模型方程决定的固定结构,传统四旋翼控制器设计难以有效应对模型参数和环境扰动变化带来的控制误差。提出了基于深度强化学习的四旋翼航迹跟踪控制方法,构建了对应的马尔可夫决策模型,并基于PPO框架提出了PPO-SAG(PPO with self adaptive guide)算法。PPO-SAG在学习过程中加入自适应机制,利用PID专家知识进行引导和学习,提高了训练的收敛效果和稳定性。根据问题特点,设计了带有距离约束惩罚和熵策略的目标函数,提出扰动误差信息补充结构和航迹特征选择结构,补充控制误差信息、提取未来航迹关键要素,提高了收敛效果。并利用状态动态标准化、优势函数批标准化及奖励缩放策略,更合理地处理三维空间中的状态表征和奖励优势表达。单种航迹与混合航迹实验表明,所提出的PPO-SAG算法在收敛效果和稳定性上均取得了最好的效果,消融实验说明所提出的改进机制和结构均起到正向作用。所研究的未知扰动下基于深度强化学习的四旋翼航迹跟踪控制问题,为设计更加鲁棒高效的四旋翼控制器提供了解决方案。展开更多
鲁棒主成分分析(robust principal component analysis,RPCA)是视频显著性检测中的常用算法,但其参数需要手动调试且针对不同视频需重新选择,导致效率较低。为解决这一问题,提出一种可学习鲁棒主成分分析深度网络(LNRPCA)模型,以减少对...鲁棒主成分分析(robust principal component analysis,RPCA)是视频显著性检测中的常用算法,但其参数需要手动调试且针对不同视频需重新选择,导致效率较低。为解决这一问题,提出一种可学习鲁棒主成分分析深度网络(LNRPCA)模型,以减少对参数的依赖。通过设计参数化的阈值函数和展开主成分追踪算法构建深度网络框架,采用反向传播和损失函数最小化实现参数的端到端学习。在多个视频数据集上进行检测实验,结果表明:LNRPCA在视觉效果和F-measure值(平均为0.7895)方面均优于对比算法,相比TNN算法提高9.89%;在计算时间上表现出更高的效率和优越性。展开更多
文摘受限于模型方程决定的固定结构,传统四旋翼控制器设计难以有效应对模型参数和环境扰动变化带来的控制误差。提出了基于深度强化学习的四旋翼航迹跟踪控制方法,构建了对应的马尔可夫决策模型,并基于PPO框架提出了PPO-SAG(PPO with self adaptive guide)算法。PPO-SAG在学习过程中加入自适应机制,利用PID专家知识进行引导和学习,提高了训练的收敛效果和稳定性。根据问题特点,设计了带有距离约束惩罚和熵策略的目标函数,提出扰动误差信息补充结构和航迹特征选择结构,补充控制误差信息、提取未来航迹关键要素,提高了收敛效果。并利用状态动态标准化、优势函数批标准化及奖励缩放策略,更合理地处理三维空间中的状态表征和奖励优势表达。单种航迹与混合航迹实验表明,所提出的PPO-SAG算法在收敛效果和稳定性上均取得了最好的效果,消融实验说明所提出的改进机制和结构均起到正向作用。所研究的未知扰动下基于深度强化学习的四旋翼航迹跟踪控制问题,为设计更加鲁棒高效的四旋翼控制器提供了解决方案。
文摘鲁棒主成分分析(robust principal component analysis,RPCA)是视频显著性检测中的常用算法,但其参数需要手动调试且针对不同视频需重新选择,导致效率较低。为解决这一问题,提出一种可学习鲁棒主成分分析深度网络(LNRPCA)模型,以减少对参数的依赖。通过设计参数化的阈值函数和展开主成分追踪算法构建深度网络框架,采用反向传播和损失函数最小化实现参数的端到端学习。在多个视频数据集上进行检测实验,结果表明:LNRPCA在视觉效果和F-measure值(平均为0.7895)方面均优于对比算法,相比TNN算法提高9.89%;在计算时间上表现出更高的效率和优越性。