文摘针对水下自主航行器(autonomous underwater vehicle,AUV)在复杂三维洋流环境中目标跟踪的高维、动态干扰和稀疏回报挑战,提出了一种基于分布式强化学习的水下自主航行器水下三维洋流目标跟踪控制算法。首先,引入真实三维洋流数据,设计动态目标跟踪场景,以准确描述AUV的运动过程;其次,结合对抗深度强化学习网络(dueling deep Q-network,Dueling DQN)结构与分位数回归方法,针对三维洋流环境可能导致Q值过高估计的问题,构建分布强化学习框架,以量化Q值的不确定性,提升策略对动态干扰的适应能力;最后,引入优先经验回放机制,设计约束条件下的奖励函数,优化数据采样策略,加速模型收敛。实验结果表明,相较于深度Q网络(deep Q-network,DQN)、双深度Q网络(double deep Q-network,DDQN)和Dueling DQN,所提算法在复杂洋流环境中表现更优,在收敛速度、目标跟踪精度和鲁棒性方面均取得了显著的进展。