目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案...目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。展开更多
大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基...大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。展开更多
文摘目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。
文摘大容量电池储能电站功率分配的决策变量多,且策略需考虑多个优化目标及能自动适应场景的不确定性。为此,提出了一种基于多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的电池储能电站功率分配决策方法。首先,基于大容量电池储能电站结构及其功率分配特性构建基于MADRL的功率分配决策框架,每个储能单元设置一个功率分配智能体,多个智能体构成合作关系;然后,设计考虑储能电站有功功率损耗、荷电状态(state of charge,SOC)一致性和健康状态损失最小优化目标的功率分配智能体模型,采用深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法去中心化训练各智能体网络参数,算法收敛后得到储能子系统充放电功率值。最后,算例验证了所提方法的有效性,能在有效提高储能子系统SOC均衡性的同时降低有功功率损耗、健康状态损失和充放电切换次数。