期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
改进的SNM中文语义重复记录检测算法 被引量:5
1
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 snm算法 中文分词
在线阅读 下载PDF
基于R-树索引的高维相似重复记录检测改进算法 被引量:3
2
作者 宋国兴 周喜 +1 位作者 马博 赵凡 《微电子学与计算机》 CSCD 北大核心 2017年第9期97-102,共6页
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效... 经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性. 展开更多
关键词 snm算法 R-树索引 高维空间特性 改进距离算法 数据稀疏性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部