-
题名面向异构分布式机器学习的动态自适应并行加速方法
被引量:3
- 1
-
-
作者
马翔
申国伟
郭春
崔允贺
陈意
-
机构
贵州大学计算机科学与技术学院
-
出处
《智能系统学报》
CSCD
北大核心
2023年第5期1099-1107,共9页
-
基金
国家自然科学基金项目(62062022)。
-
文摘
分布式机器学习因其优越的并行能力成为人工智能领域复杂模型训练的常用技术。然而,GPU升级换代非常快,异构集群环境下的分布式机器学习成为数据中心、研究机构面临的新常态。异构节点之间训练速度的差异使得现有并行方法难以平衡同步等待和陈旧梯度的影响,从而显著降低模型整体训练效率。针对该问题,提出了一种基于节点状态的动态自适应并行方法(dynamic adaptive synchronous parallel,DASP),利用参数服务器动态管理节点训练时的状态信息并对节点的并行状态进行划分,通过节点状态信息自适应调整每个节点的并行状态,以减少快速节点对全局模型参数的同步等待时间与陈旧梯度的产生,从而加快收敛效率。在公开数据集上的实验结果表明,DASP比主流方法收敛时间减少了16.9%~82.1%,并且训练过程更加稳定。
-
关键词
异构集群
机器学习
数据并行
分布式训练
参数服务器
落后者
陈旧梯度
大规模深度学习
-
Keywords
heterogeneous clusters
machine learning
data parallel
distributed training
parameter servers
stragglers
stale gradient
large-scale deep learning©《智能系统学报》编辑部版权所有
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-