-
题名Spark环境下基于子图的异步迭代更新方法
被引量:1
- 1
-
-
作者
李超
董新华
陈建峡
-
机构
湖北工业大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第7期67-73,共7页
-
基金
国家自然科学基金(No.61502155)
湖北省科技厅自然科学基金(No.2017CFB326)。
-
文摘
全局同步计算模型简单易用,但是路障同步导致收敛速度变慢。以顶点为中心的异步迭代虽然提高了收敛速度,但在计算节点之间需要频繁发送信息。在Spark环境下提出一种基于子图的异步迭代更新方法。在子图之间建立异步消息通信连接后,子图能以异步方式发送数据块;通过多线程同步避免数据读写冲突,保证异步更新时顶点状态的一致性。在大规模样本数据集上分别从收敛结果、收敛速度和通信代价验证方法有效性。实验结果表明,与全局同步迭代相比,该方法有效提高了计算收敛速度。与顶点为中心的异步更新方式相比,该方法在收敛时间上略有增长,但是显著降低了通信开销。
-
关键词
子图
异步更新
spark环境
图数据
图切分
-
Keywords
subgraph
asynchronous update
spark
graph data
graph partition
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Spark的快速短文本数据流分类方法
被引量:1
- 2
-
-
作者
胡阳
胡学钢
李培培
-
机构
合肥工业大学计算机与信息学院
工业安全与应急技术安徽省重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2020年第14期138-147,共10页
-
基金
国家自然科学基金(No.61673152)
安徽省自然科学基金(No.1708085QF142)。
-
文摘
微博、脸书等社交网络平台涌现的短文本数据流具有海量、高维稀疏、快速可变等特性,使得短文本数据流分类面临着巨大挑战。已有的短文本数据流分类方法难以有效地解决特征高维稀疏问题,并且在处理海量数据流时时间代价较高。基于此,提出一种基于Spark的分布式快速短文本数据流分类方法。一方面,利用外部语料库构建Word2vec词向量模型解决了短文本的高维稀疏问题,并构建扩展词向量库以适应文本的快速可变性,提出一种LR分类器集成模型用于短文本数据流分类,该分类器使用一种FTRL方法实现模型参数的在线更新,并引入时间因子加权机制以适应概念漂移环境;另一方面,所提方法的使用分布式处理提高了海量短文本数据流的处理效率。在3个真实短文本数据流上的实验表明:所提方法在提高分类精度的同时,降低了时间消耗。
-
关键词
短文本数据流分类
分布式处理
spark环境
概念漂移
-
Keywords
short text data stream classification
distributed processing
spark
concept drift
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-