针对电极箔化成车间节能调度问题,研究提出了一种基于深度强化学习的方法进行求解。首先,将调度问题抽象为马尔可夫决策过程;其次,构建了3个静态矩阵和4个动态矩阵,用以描绘车间的环境状态,并根据电极箔车间实际生产情况,设计了由节能...针对电极箔化成车间节能调度问题,研究提出了一种基于深度强化学习的方法进行求解。首先,将调度问题抽象为马尔可夫决策过程;其次,构建了3个静态矩阵和4个动态矩阵,用以描绘车间的环境状态,并根据电极箔车间实际生产情况,设计了由节能策略的组合调度规则作为动作空间;同时,设计了用于描述最大完工时间和能耗的奖励函数。最终,利用Dueling Deep Q-Network算法进行模型训练,并与传统调度规则进行对比实验,结果表明所提方法能够有效缩短完工时间和降低化成车间总能耗。为了满足电极箔化成车间生产环境对系统的使用需求,开发电极箔化成车间调度系统进行应用。展开更多
文摘针对电极箔化成车间节能调度问题,研究提出了一种基于深度强化学习的方法进行求解。首先,将调度问题抽象为马尔可夫决策过程;其次,构建了3个静态矩阵和4个动态矩阵,用以描绘车间的环境状态,并根据电极箔车间实际生产情况,设计了由节能策略的组合调度规则作为动作空间;同时,设计了用于描述最大完工时间和能耗的奖励函数。最终,利用Dueling Deep Q-Network算法进行模型训练,并与传统调度规则进行对比实验,结果表明所提方法能够有效缩短完工时间和降低化成车间总能耗。为了满足电极箔化成车间生产环境对系统的使用需求,开发电极箔化成车间调度系统进行应用。