-
题名基于Flink的分布式在线集成学习框架研究
被引量:3
- 1
-
-
作者
曹张宇
钟原
周静
-
机构
西南石油大学计算机科学学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第6期1784-1788,共5页
-
基金
国家自然基金资助项目(61873218)
西南石油大学创新基地资助项目(642)。
-
文摘
在大数据环境背景下,传统机器学习算法多采用单机离线训练的方式,显然已经无法适应持续增长的大规模流式数据的变化。针对该问题,提出一种基于Flink平台的分布式在线集成学习算法。该方法基于Flink分布式计算框架,首先通过数据并行的方式对在线学习算法进行分布式在线训练;然后将训练出的多个子模型通过随机梯度下降算法进行模型的动态权重分配,实现对多个子模型的结果聚合;与此同时,对于训练效果不好的模型利用其样本进行在线更新;最后通过单机与集群环境在不同数据集上做实验对比分析。实验结果表明,在线学习算法结合Flink框架的分布式集成训练,能达到集中训练方式下的性能,同时大大提高了训练的时间效率。
-
关键词
分布式流计算
在线学习
集成学习
Flink
-
Keywords
distributed stream computing
online learning
ensemble learning
Flink
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-