船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船...船舶在自动靠泊过程中会受到风、浪、流和岸壁效应等因素的影响,故需要精确的路径规划方法防止靠泊失败。针对全驱动船舶靠泊过程的基于双深度Q网络(double deep Q network,DDQN)算法,设计了一种船舶自动靠泊路径规划方法。首先建立船舶三自由度模型,然后通过将距离、航向、推力、时间和碰撞作为奖励或惩罚,改进奖励函数。随后引入DDQN来学习动作奖励模型,并使用学习结果来操纵船舶运动。通过追求更高的奖励值,船舶可以自行找到最优的靠泊路径。实验结果表明,在不同水流速度下,船舶都可以在完成靠泊的同时减小时间和推力,并且在相同水流速度下,DDQN算法与Q-learning、SARSA(state action reward state action)、深度Q网络(deep Q network,DQN)等算法相比,靠泊过程推力分别减小了241.940、234.614、80.202 N,且时间仅为252.485 s。展开更多
针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双...针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。展开更多
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为...针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。展开更多
文摘针对海上船舶自主避碰决策中深度Q网络(deep Q-network,DQN)算法的高估和收敛性差的问题,提出一种融合噪声网络的裁剪双DQN(double DQN,DDQN)算法,记为NoisyNet-CDDQN算法。该算法采用裁剪双Q值的方式减小DQN算法的高估问题,并通过引入噪声网络来增强算法的稳定性以解决DQN算法收敛性差的问题。充分考虑船舶运动数学模型和船舶领域模型,并在奖励函数设计中考虑到偏航、《国际海上避碰规则》(International Regulations for Preventing Collisions at Sea,COLREGs)等要素。多会遇场景仿真实验证明,本文所提出的NoisyNet-CDDQN算法相较于融合噪声网络的DQN算法在收敛速度上提升了27.27%,相较于DDQN算法提升了54.55%,相较于DQN算法提升了87.27%,并且船舶自主避碰决策行为符合COLREGs,可为船舶的自主避碰提供参考。
文摘针对无线和电力线通信混合组网的信道竞争接入问题,提出了一种基于深度强化学习的电力线与无线双模通信的MAC接入算法。双模节点根据网络广播信息和信道使用等数据自适应接入双媒质信道。首先建立了基于双模通信网络交互和统计信息的双模通信节点数据采集模型;接着定义了基于协作信息的深度强化学习(deep reinforcement learning,DRL)状态空间、动作空间和奖励,设计了联合α-公平效用函数和P坚持接入机制的节点决策流程,实现基于双深度Q网络(double deep Q-network,DDQN)的双模节点自适应接入算法;最后进行算法性能仿真和对比分析。仿真结果表明,提出的接入算法能够在保证双模网络和信道接入公平性的条件下,有效提高双模通信节点的接入性能。
文摘针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络-Network(double deep q-network,DDQN),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。