期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种检测汉语相似重复记录的有效方法 被引量:8
1
作者 程国达 苏杭丽 《计算机应用》 CSCD 北大核心 2005年第6期1362-1365,共4页
消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为... 消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。 展开更多
关键词 汉语相似重复记录 排序字段 二维链表
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部