LION(evoLedv sIng mOmeNumt)是Google公司通过启发式程序搜索的方式发现的优化器,是一种独特的基于学习的优化算法。LION算法通过在上步动量和本步梯度之间维持两个不同的插值,并有效结合了解耦的权重衰减技术,实现了超越传统符号梯度...LION(evoLedv sIng mOmeNumt)是Google公司通过启发式程序搜索的方式发现的优化器,是一种独特的基于学习的优化算法。LION算法通过在上步动量和本步梯度之间维持两个不同的插值,并有效结合了解耦的权重衰减技术,实现了超越传统符号梯度下降类算法的性能。LION算法在许多大规模深度学习问题中展现了较强的优势,得到了广泛的应用。然而,尽管已有工作已经证明了LION的收敛性,但尚未有研究给出一个全面的收敛速度分析。已有研究证明,LION能够解决一类特定的盒约束优化问题,本文着重证明了,在?1范数度量下,LION收敛到这类问题的Karush-Kuhn-Tucker(KKT)点的速度为(Q√dK^(-1/4)),其中d为问题维度,K为算法的迭代步数。更进一步,我们移除了约束条件,证明LION在一般无约束问题上以相同的速度收敛至目标函数的驻点。与已有研究工作相比,本文证明的收敛速度达到了关于问题维度d的最优依赖关系;关于迭代步数K,这一速度还达到了非凸优化问题中随机梯度类算法能实现的最优理论下界。此外,这一理论下界以梯度的?2范数度量,而LION所属的符号梯度下降类算法通常度量的是更大的?1范数。由于在不同的梯度范数度量下关于问题维度d得到的收敛速度结果会有所差异,为了验证本文证明的收敛速度关于维度d同样是最优的,我们在多种深度学习任务上设计了全面的实验,不仅证明了LION与同样匹配理论下界的随机梯度下降法相比具有更低的训练损失和更强的性能,而且还验证了LION算法在迭代过程中梯度的ℓ_(1)/ℓ_(2)范数比始终处于Q(√d)的量级,从而在经验上说明了本文证明的收敛速度同样匹配关于d的最优下界。展开更多
文摘LION(evoLedv sIng mOmeNumt)是Google公司通过启发式程序搜索的方式发现的优化器,是一种独特的基于学习的优化算法。LION算法通过在上步动量和本步梯度之间维持两个不同的插值,并有效结合了解耦的权重衰减技术,实现了超越传统符号梯度下降类算法的性能。LION算法在许多大规模深度学习问题中展现了较强的优势,得到了广泛的应用。然而,尽管已有工作已经证明了LION的收敛性,但尚未有研究给出一个全面的收敛速度分析。已有研究证明,LION能够解决一类特定的盒约束优化问题,本文着重证明了,在?1范数度量下,LION收敛到这类问题的Karush-Kuhn-Tucker(KKT)点的速度为(Q√dK^(-1/4)),其中d为问题维度,K为算法的迭代步数。更进一步,我们移除了约束条件,证明LION在一般无约束问题上以相同的速度收敛至目标函数的驻点。与已有研究工作相比,本文证明的收敛速度达到了关于问题维度d的最优依赖关系;关于迭代步数K,这一速度还达到了非凸优化问题中随机梯度类算法能实现的最优理论下界。此外,这一理论下界以梯度的?2范数度量,而LION所属的符号梯度下降类算法通常度量的是更大的?1范数。由于在不同的梯度范数度量下关于问题维度d得到的收敛速度结果会有所差异,为了验证本文证明的收敛速度关于维度d同样是最优的,我们在多种深度学习任务上设计了全面的实验,不仅证明了LION与同样匹配理论下界的随机梯度下降法相比具有更低的训练损失和更强的性能,而且还验证了LION算法在迭代过程中梯度的ℓ_(1)/ℓ_(2)范数比始终处于Q(√d)的量级,从而在经验上说明了本文证明的收敛速度同样匹配关于d的最优下界。