-
题名改进的SNM中文语义重复记录检测算法
被引量:5
- 1
-
-
作者
袁满
穆永豪
王贵友
于再富
-
机构
东北石油大学计算机与信息技术学院
黑龙江省大庆市第十采油厂肇东分公司信息中心
-
出处
《吉林大学学报(信息科学版)》
CAS
2021年第3期348-356,共9页
-
基金
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)。
-
文摘
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。
-
关键词
相似重复记录
snm算法
中文分词
-
Keywords
similar duplicate records
sorted-neighborhood method(snm)algorithm
chinese word segmentation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于R-树索引的高维相似重复记录检测改进算法
被引量:3
- 2
-
-
作者
宋国兴
周喜
马博
赵凡
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室
-
出处
《微电子学与计算机》
CSCD
北大核心
2017年第9期97-102,共6页
-
基金
新疆维吾尔自治区重点实验室项目(2016D03019)
新疆维吾尔自治区高技术计划项目(201512103)
中国科学院科技服务网络计划(STS计划)项目(KFJ-EW-STS-129)
-
文摘
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性.
-
关键词
snm算法
R-树索引
高维空间特性
改进距离算法
数据稀疏性
-
Keywords
key words: snm algorithm
R- tree index
high dimensional space characteristics
improved distance algorithm
data scarcity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-