-
题名基于动量的非凸随机梯度下降的高概率界限
- 1
-
-
作者
李少杰
刘勇
-
机构
中国人民大学高瓴人工智能学院
北京市大数据管理与分析方法重点实验室
-
出处
《计算机学报》
北大核心
2025年第4期763-778,共16页
-
基金
国家自然科学基金面上项目(62476277)
国家重点研发计划(2024YFE0203200)
CCF-阿里妈妈科技袋基金(CCF-ALIMAMA OF 2024008)资助。
-
文摘
基于动量的随机梯度下降(Stochastic Gradient Descent with Momentum, SGDM)在机器学习中得到了广泛应用,但其理论性质尚缺乏深入理解。在非凸领域,现有文献对SGDM的分析主要集中在期望意义上,而高概率的分析相对较少。高概率结果的重要性在于它适用于样本空间中的最坏情况。针对这一问题,本文为SGDM提供了高概率的收敛界限和泛化界限,推导出的收敛界限与现有的期望结果相匹配,并且据我们所知,推导出的泛化界限是SGDM的首次提出。此外,同时考虑收敛和泛化有助于理解SGDM在实际应用中的优良性能,本文的理论结果解释了两个新近提出的SGDM算法的优越性。最后,本文通过数值实验验证了理论分析所用假设的合理性,并且验证了所用假设如何影响泛化界限的变化速率。
-
关键词
随机梯度下降
优化界限
泛化界限
非凸优化
-
Keywords
stochastic gradient descent
optimization bound
generalization bound
non-convex optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-