期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
关系数据库中近似重复记录的识别 被引量:7
1
作者 佘春红 许向阳 《计算机应用研究》 CSCD 北大核心 2003年第9期36-39,共4页
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。
关键词 数据清理 重复记录识别 字符串匹配 数据仓库
在线阅读 下载PDF
基于优先队列的增量式重复记录识别 被引量:7
2
作者 佘春红 《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词 数据清理 近似重复记录 增量式识别 特征记录
在线阅读 下载PDF
数据清理方法 被引量:4
3
作者 佘春红 《计算机应用》 CSCD 北大核心 2002年第12期128-130,共3页
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记... 数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。 展开更多
关键词 数据清理方法 预处理 数据仓库 数据库
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部