针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差...针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。展开更多
现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协...现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协同进化的混合变量粒子群优化算法(competitive coevolution based PSO,CCPSO)。设计基于容忍度的搜索方向调整机制来判断粒子的进化状态,从而自适应地调整粒子的搜索方向,避免陷入局部最优,平衡了种群的收敛性和多样性;引入基于竞争式协同进化的学习对象生成机制,在检测到粒子进化停滞时为每个粒子生成新的学习对象,从而推动粒子的进一步搜索,提高了种群的多样性;采用基于竞争学习的预测策略为粒子选择合适的学习对象,充分利用了新旧学习对象的学习潜力,保证了算法的收敛速度。实验结果表明:相比其他主流的混合变量优化算法,CCPSO可以获得更优的结果。展开更多
阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优...阶梯式碳交易机制以及优化调度模型求解算法是进行园区综合能源系统(community integrated energy system,CIES)优化调度的重要因素,现有文献对这两个因素的考虑不够全面。为此,文中在考虑阶梯式碳交易机制的基础上,提出采用近端策略优化(proximal policy optimization,PPO)算法求解CIES低碳优化调度问题。该方法基于低碳优化调度模型搭建强化学习交互环境,利用设备状态参数及运行参数定义智能体的状态、动作空间及奖励函数,再通过离线训练获取可生成最优策略的智能体。算例分析结果表明,采用PPO算法得到的CIES低碳优化调度方法能够充分发挥阶梯式碳交易机制减少碳排放量和提高能源利用率方面的优势。展开更多
文摘针对近端策略优化(PPO)算法难以严格约束新旧策略的差异和探索与利用效率较低这2个问题,提出一种基于裁剪优化和策略指导的PPO(COAPG-PPO)算法。首先,通过分析PPO的裁剪机制,设计基于Wasserstein距离的信任域裁剪方案,加强对新旧策略差异的约束;其次,在策略更新过程中,融入模拟退火和贪心算法的思想,提升算法的探索效率和学习速度。为了验证所提算法的有效性,使用MuJoCo测试基准对COAPG-PPO与CO-PPO(PPO based on Clipping Optimization)、PPO-CMA(PPO with Covariance Matrix Adaptation)、TR-PPO-RB(Trust Region-based PPO with RollBack)和PPO算法进行对比实验。实验结果表明,COAPG-PPO算法在大多数环境中具有更严格的约束能力、更高的探索和利用效率,以及更高的奖励值。
文摘现实工业生产应用中存在大量的混合变量优化问题,这类问题的决策变量既包含连续变量,又包含离散变量。由于决策变量为混合类型,导致问题的决策空间变得不规则,采用已有的方法很难进行有效求解。引入协同进化策略,提出一种基于竞争式协同进化的混合变量粒子群优化算法(competitive coevolution based PSO,CCPSO)。设计基于容忍度的搜索方向调整机制来判断粒子的进化状态,从而自适应地调整粒子的搜索方向,避免陷入局部最优,平衡了种群的收敛性和多样性;引入基于竞争式协同进化的学习对象生成机制,在检测到粒子进化停滞时为每个粒子生成新的学习对象,从而推动粒子的进一步搜索,提高了种群的多样性;采用基于竞争学习的预测策略为粒子选择合适的学习对象,充分利用了新旧学习对象的学习潜力,保证了算法的收敛速度。实验结果表明:相比其他主流的混合变量优化算法,CCPSO可以获得更优的结果。