-
题名双向过滤的字符串相似连接验证方法
被引量:2
- 1
-
-
作者
黄樱
宋春花
牛保宁
-
机构
太原理工大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第9期72-79,共8页
-
基金
国家科技支撑项目课题(No.2012BAH04F02)
人社部留学人员科技活动项目(No.2011-508)
-
文摘
字符串相似连接是指在字符串集合中找出相似的字符串对,是许多应用的关键操作,寻找高效的字符串相似连接算法已成为研究热点。基于划分的过滤-验证方法(Pass-Join)与其他方法相比具有较高的效率。它按照字符串长度递增的顺序访问字符串集合,通过查找一个字符串的划分块是否存在于另一个字符串中,快速筛选出可能相似的字符串对(候选集),然后利用编辑距离进行相似性验证。研究发现,按照字符串长度递减的顺序进行过滤(长度递减过滤)的效果优于按照长度递增的顺序过滤(长度递增过滤)的效果,基于此,提出双向过滤-验证机制:在过滤阶段对长度递减过滤的结果再进行一次长度递增过滤,进一步减小候选集大小;在验证阶段利用双向过滤产生的两对划分块和其匹配子串分隔字符串对,从而减小需要验证的字符串的长度,加速验证过程。实验证明,双向过滤-验证算法在真实数据集上优于原算法。
-
关键词
字符串相似连接
双向过滤-验证机制
过滤-验证框架
-
Keywords
string similarity joins
bi-directional filtering-verification mechanism
filter-verification framework
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于过滤的并行字符串相似性连接方法
被引量:1
- 2
-
-
作者
杜明
夏龙雷
朱斌
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2017年第2期389-394,共6页
-
文摘
对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并行地对每个记录候选集进行验证。实验结果表明,在双核处理器环境下,相似连接方法节省时间在20%~25%,相似连接时间随着阈值减小和数据量增大急剧降低。对PP-Join处理方式进行优化,减少对相同字符串的重复处理,使其并行效果更优,进一步降低字符串相似连接时间。
-
关键词
字符串相似连接
候选集
反向索引表
过滤
并行
-
Keywords
string similarity join
candidate set
inverted index list
filter
parallel
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于划分的增量式字符串相似性连接方法
- 3
-
-
作者
燕彩蓉
朱斌
王健
黄永锋
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第1期27-32,共6页
-
基金
国家自然科学基金资助项目(61402100)
中央高校基本科研业务费专项(2232013D3-15)~~
-
文摘
字符串相似性连接是数据质量管理的基本操作,也是数据价值发现的关键步骤。针对目前已有的方法不能满足面向大数据的增量式处理需求的问题,提出一种面向流式数据的增量式字符串相似性连接方法——IncJoin,并对方法的索引技术进行了优化。该方法以Pass-Join字符串连接算法为基础,首先,采用字符串划分技术将字符串划分成多个互不相交的子串;然后,建立字符串的反向索引列表并将其作为状态;最后,新增数据只需根据状态进行相似性计算,每次连接操作结束后都对状态进行更新。实验结果表明,Inc-Join方法在不影响连接准确率的同时,有效将长、短字符串重复匹配次数减少为n^(1/2)(n是批处理方式的匹配次数)。实验对3种数据集进行处理,发现使用批处理方式进行相似性连接的响应时间是Inc-Join的1至4.7倍,并呈现急剧递增的趋势;而且优化后Inc-Join方法的响应时间最小只占优化前的3/4,并随处理数据的增多所占比例越来越小。同时优化后的Inc-Join不需要保存状态,再一次减小了算法执行的时间和空间开销。
-
关键词
字符串相似性连接
增量处理
划分
字符串匹配
反向索引
-
Keywords
string similarity join
incremental processing
partition
string matching
inverted index
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-