目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案...目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。展开更多
随着大量分布式光伏接入配电网,配电网在应对网络重构和源荷储不确定性等方面面临较大挑战。因此提出一种主动配电网两阶段电压控制策略,第一阶段对主动配电网联络开关进行集中控制,以小时为调度周期并以网损最小为目标进行网络重构,建...随着大量分布式光伏接入配电网,配电网在应对网络重构和源荷储不确定性等方面面临较大挑战。因此提出一种主动配电网两阶段电压控制策略,第一阶段对主动配电网联络开关进行集中控制,以小时为调度周期并以网损最小为目标进行网络重构,建立混合整数二阶锥规划模型进行求解。第二阶段对光伏和储能系统进行实时电压控制,将实时电压控制问题转换为马尔科夫博弈过程(Markov game process,MGP)并实行多智能体建模,采用离线训练-在线运行的方法。相比于传统的两阶段均采用数学规划的方法,所提控制策略不依赖于精确的配网潮流模型,对通信要求低、求解速度更快。最后在改进的IEEE 33节点系统算例验证了所提控制策略的有效性。展开更多
文摘目前深度强化学习算法在不同应用领域中已经取得诸多成果,然而在多智能体任务领域中,往往面临大规模的具有稀疏奖励的非稳态环境,低探索效率问题仍是一大挑战。由于智能规划能够根据任务的初始状态和目标状态快速制定出决策方案,该方案能够作为各智能体的初始策略,并为其探索过程提供有效指导,因此尝试将智能规划与多智能体强化学习进行结合求解,并且提出统一模型UniMP(a Unified model for Multi-agent Reinforcement Learning and AI Planning)。在此基础上,设计并建立相应的问题求解机制。首先,将多智能体强化学习任务转化为智能决策任务;其次,对其执行启发式搜索,以得到一组宏观目标,进而指导强化学习的训练,使得各智能体能够进行更加高效的探索。在多智能体即时战略对抗场景StarCraftⅡ的各地图以及RMAICS战车模拟对战环境下进行实验,结果表明累计奖励值和胜率均有显著提升,从而验证了统一模型的可行性、求解机制的有效性以及所提算法灵活应对强化学习环境突发情况的能力。
文摘随着大量分布式光伏接入配电网,配电网在应对网络重构和源荷储不确定性等方面面临较大挑战。因此提出一种主动配电网两阶段电压控制策略,第一阶段对主动配电网联络开关进行集中控制,以小时为调度周期并以网损最小为目标进行网络重构,建立混合整数二阶锥规划模型进行求解。第二阶段对光伏和储能系统进行实时电压控制,将实时电压控制问题转换为马尔科夫博弈过程(Markov game process,MGP)并实行多智能体建模,采用离线训练-在线运行的方法。相比于传统的两阶段均采用数学规划的方法,所提控制策略不依赖于精确的配网潮流模型,对通信要求低、求解速度更快。最后在改进的IEEE 33节点系统算例验证了所提控制策略的有效性。