-
题名关系数据库中近似重复记录的识别
被引量:7
- 1
-
-
作者
佘春红
许向阳
-
机构
荆州师范学院信息科学学院
华中科技大学计算机学院数据库与多媒体技术研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2003年第9期36-39,共4页
-
基金
国家科技攻关计划项目"科技部科技电子政务系统关键技术及应用系统的研究"(2001BA110B01)
-
文摘
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。
-
关键词
数据清理
重复记录识别
字符串匹配
数据仓库
-
Keywords
Data Cleaning
Duplicate Records Detection
String Matching
Data Warehouse
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于优先队列的增量式重复记录识别
被引量:7
- 2
-
-
作者
佘春红
-
机构
荆州师范学院信息科学学院
-
出处
《计算机应用》
CSCD
北大核心
2003年第9期61-63,共3页
-
文摘
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
-
关键词
数据清理
近似重复记录
增量式识别
特征记录
-
Keywords
data cleaning
approximately duplicate record
incremental detection
representative record
-
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据清理方法
被引量:4
- 3
-
-
作者
佘春红
-
机构
荆州师范学院信息科学学院
-
出处
《计算机应用》
CSCD
北大核心
2002年第12期128-130,共3页
-
文摘
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。
-
关键词
数据清理方法
预处理
数据仓库
数据库
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-