大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基...大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。展开更多
针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为...针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。展开更多
文摘大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。
文摘针对传统固定发射策略的主动声呐在水声信道中面临环境适配性不足,导致探测稳定性差的问题,本文提出一种基于多智能体强化学习的主动声呐发射波形与声源级的联合优化方法。采用多智能体协作学习方法,将发射波形优化与声源级优化解耦为多个智能体任务。引入奖励塑形方法,抑制多峰信道频谱引起的奖励信号噪声,提升智能体寻优能力,并避免子脉冲频点冲突。此外,使用双深度Q网络(double deep q-network),降低智能体Q值估计偏差并提升决策稳定性。在基于南海实测声速梯度重构的典型深海信道场景下进行了数值验证,结果表明:经所提算法优化后的信道适配度与回波信噪比调控准确性均优于对比算法,为构建具备环境自适应能力的智能主动声呐系统提供了一种可行的技术途径。