-
题名基于EMD距离的数据流分布式相似性连接技术
被引量:4
- 1
-
-
作者
许嘉
宋超
吕品
李陶深
-
机构
广西大学计算机与电子信息学院
广西高校并行分布计算技术重点实验室
广西多媒体通信与网络技术重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第8期1779-1796,共18页
-
基金
国家自然科学基金(61402494)
广西自然科学基金青年基金(2015GXNSFBA139243)
+2 种基金
“广西八桂学者”专项经费
广西大学科研基金资助项目(XGZ141182,XGZ150322)
广西高等教育本科教学改革工程项目重点项目(2017JGZ103)资助~~
-
文摘
随着数据获取设备的不断进步和数据获取技术的快速发展,如何分析和挖掘应用中快速产生的数据流成为亟待解决的问题.数据流的相似性连接返回两个数据流上相似的数据对,是分析和挖掘数据流的重要操作.相比于Lp范式距离,例如曼哈顿距离和欧氏距离,EMD距离(Earth Mover’s Distance)因其可以更准确地量化直方图元组之间的相似性而受到广泛关注,被广泛应用于解决基于内容的图像检索、冗余图像识别以及视频对象跟踪等重要应用问题.然而EMD距离的计算复杂度却高达三次方,阻碍了EMD距离在数据流相似性连接问题中的应用.该文基于开源的Apache Storm数据流分布式并行处理框架,设计并实现了基于EMD距离的数据流分布式相似性连接技术,命名为EMD-DDSJ技术.该技术在数据分发时维护了连接计算节点上的数据局部性,并基于该数据局部性增强了连接算法对不相似直方图元组对间EMD计算的过滤性能,提高了各个连接计算节点的执行效率.同时基于连接计算节点的代价模型,提出了基于反馈的负载均衡策略,有效提升EMD-DDSJ技术的整体执行性能.在真实数据集上的实验结果展示了该文提出的EMD-DDSJ技术的高效性和可扩展性,比相关最好的技术在处理吞吐率上最高提升了1.4倍,在元组平均处理延迟上最多降低了44%,并且随着相似性阈值或滑动窗口大小的增大该提升比率还会进一步增大.
-
关键词
EMD距离
相似性连接
数据流
APACHE
Storm框架
数据局部性
-
Keywords
earth mover’s distance
similarity join
data stream
Apache Storm framework
data locality
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于结构分解的动态图增量匹配算法
被引量:3
- 2
-
-
作者
许嘉
张千桢
赵翔
吕品
李陶深
-
机构
广西大学计算机与电子信息学院
广西高校并行分布计算技术重点实验室
广西多媒体通信与网络技术重点实验室
国防科技大学信息系统与管理学院
-
出处
《计算机科学与探索》
CSCD
北大核心
2018年第8期1214-1224,共11页
-
基金
国家自然科学基金Nos.61402494
61402498
+5 种基金
61402513
广西自然科学基金青年基金Nos.2015GXNSFBA139243
2016GXNSFBA380182
广西大学科研基金Nos.XGZ141182
XGZ150322
广西高等教育本科教学改革工程项目重点项目No.2017JGZ103~~
-
文摘
在大数据时代,图数据的规模急剧增长,增量图模式匹配技术能够在数据图发生变化时避免重新对整个数据图进行匹配,进而减少匹配时间,提高整体执行效率,因此成为研究热点。然而,现有的增量匹配算法处理规模较大的模式图时效率会降低。针对该问题,提出了一种基于结构分解的增量图模式匹配算法Inc_CFLS。在匹配过程中,为中间匹配结果构建高效索引,用于后续的模式匹配计算。基于构建的索引信息对数据图增加边事件进行分类,进而为每类增加边事件设计查询剪枝优化策略,从而有效提高匹配效率。在真实数据集上进行实验,结果表明Inc_CFLS算法比目前最好的增量匹配算法在执行效率上平均提升了1~2倍,能更有效支持大规模动态图上的模式匹配。
-
关键词
动态图
图模式匹配
增量算法
结构分解
大图数据
-
Keywords
dynamic graphs
graph pattern matching
incremental algorithm
structure decomposition
big graph data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-