期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于动态双重前缀的模糊相似性连接算法
1
作者 于长永 王雯函 +1 位作者 温秀静 赵宇海 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第3期321-327,共7页
针对相似性连接问题,提出了动态双重前缀的模糊相似性连接算法.与之前的算法不同的是,本文采用双重前缀,即在查找候选以及构建索引时使用不同的前缀来提高过滤效率,并在此基础上进行了优化.首先通过取各个前缀生成的候选集合的交集来缩... 针对相似性连接问题,提出了动态双重前缀的模糊相似性连接算法.与之前的算法不同的是,本文采用双重前缀,即在查找候选以及构建索引时使用不同的前缀来提高过滤效率,并在此基础上进行了优化.首先通过取各个前缀生成的候选集合的交集来缩小候选集合;其次提出最大区分任选前缀,利用此前缀进行预验证来减少最终进入到验证过程的候选对,以此来减少连接时间.并且在三个真实数据集上进行实验,将本文算法与Silkmoth算法以及MF-Join算法进行比较,结果表明所提算法可以生成更小的候选集集合并且需要更少的连接时间. 展开更多
关键词 相似性连接 任选前缀 候选 前缀过滤 验证过程
在线阅读 下载PDF
集合和字符串的相似度查询 被引量:35
2
作者 林学民 王炜 《计算机学报》 EI CSCD 北大核心 2011年第10期1853-1862,共10页
相似度查询是计算机学科中一个重要的问题,它的应用遍及多个领域,例如数据库、数据集成、互联网、数据挖掘以及生物信息学等.该文主要讨论在集合和字符串上的相似度查询.学术界从2000年来在这个领域内取得了大量的进展.作者总结了主要工... 相似度查询是计算机学科中一个重要的问题,它的应用遍及多个领域,例如数据库、数据集成、互联网、数据挖掘以及生物信息学等.该文主要讨论在集合和字符串上的相似度查询.学术界从2000年来在这个领域内取得了大量的进展.作者总结了主要工作,并给出了作者的分析和归类.最后,该文提出了一些未来工作的方向. 展开更多
关键词 相似度查询 相似度连接 前缀过滤 jaccard 编辑距离
在线阅读 下载PDF
基于划分的集合相似连接 被引量:7
3
作者 荣垂田 徐天任 杜小勇 《计算机研究与发展》 EI CSCD 北大核心 2012年第10期2066-2076,共11页
集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作.集合相似连接作为一种新的基本操作在很多领域中有重要应用.... 集合相似连接(set similarity join)是指在给定的数据集中,按照基于集合间覆盖关系的相似度计算方法来衡量数据之间的相似度、并找出所有相似度不小于给定阈值的数据对的操作.集合相似连接作为一种新的基本操作在很多领域中有重要应用.随着社会网络、移动应用以及在线服务的发展,使得数据收集的效率和规模得到了很大的提高,同时给相似连接操作带来新的挑战.根据集合相似的必要条件,提出了相似集合之间的差异度.利用差异度和鸽巢原理,提出了一种新颖的基于数据划分的集合相似连接计算方法,该方法对集合进行自适应的均衡划分,并利用基于划分块的过滤方法来提高过滤的效率.为了进一步提高过滤的效果和相似连接的效率,利用划分块的位置信息提出了增强的过滤方法.针对提出的方法,在不同的环境下进行了实验,实验结果表明,该方法与已有的方法相比可以有效地提高相似连接的效率. 展开更多
关键词 相似连接 集合相似连接 集合划分 前缀过滤 划分块过滤
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部