检索结果-维普期刊中文期刊服务平台

一种基于条件概率分布的近似重复记录检测方法被引量：3: 1; 作者缪嘉嘉吴刚 +2 位作者毛捍东杨强邓苏《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页; 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 展开更多; 关键词信息集成近似重复记录动态聚类概率后缀树; 在线阅读下载PDF 职称材料

近似重复记录的增量式识别算法被引量：4: 2; 作者许向阳佘春红《计算机工程与应用》 CSCD 北大核心 2003年第12期191-193,220,共4页; 摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IM... 展开更多; 关键词数据清理近似重复记录增量式识别特征记录; 在线阅读下载PDF 职称材料

近似重复记录的自适应距离度量检测被引量：2: 3; 作者黄健斌姬红兵孙鹤立《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页; 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 展开更多; 关键词近似重复记录检测记录链接实体匹配数据集成; 在线阅读下载PDF 职称材料

基于优先队列的增量式重复记录识别被引量：7: 4; 作者佘春红《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页; 介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。; 关键词数据清理近似重复记录增量式识别特征记录; 在线阅读下载PDF 职称材料

基于聚类分析技术的数据清洗研究被引量：11: 5; 作者刘芳何飞《计算机工程与科学》 CSCD 2005年第6期70-71,77,共3页; 数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据... 展开更多; 关键词数据清洗近似重复记录聚类 ICAD; 在线阅读下载PDF 职称材料

题名一种基于条件概率分布的近似重复记录检测方法被引量：3: 1; 作者缪嘉嘉吴刚毛捍东杨强邓苏; 机构国防科学技术大学计算机学院国防科学技术大学人文管理学院; 出处《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页; 基金国家自然科学基金 ( 60 10 3 0 0 9)资助; 文摘数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验。; 关键词信息集成近似重复记录动态聚类概率后缀树; Keywords information integration approximately duplicated records dynamic clustering probabilistic suffix tree; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名近似重复记录的增量式识别算法被引量：4: 2; 作者许向阳佘春红; 机构华中科技大学计算机学院数据库与多媒体技术研究所; 出处《计算机工程与应用》 CSCD 北大核心 2003年第12期191-193,220,共4页; 基金国家科技攻关计划项目"科技部科技电子政务系统关键技术及应用系统的研究"(编号:2001BA110B01); 文摘摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。; 关键词数据清理近似重复记录增量式识别特征记录; Keywords Data cleaning,Approximately duplicate records,Incremental detection,Representative record; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名近似重复记录的自适应距离度量检测被引量：2: 3; 作者黄健斌姬红兵孙鹤立; 机构西安电子科技大学电子工程学院西安交通大学计算机科学与技术系; 出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页; 基金 "十五"国家部委预研项目(41101050108) 西安电子科技大学博士生创新基金项目(05013); 文摘提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.; 关键词近似重复记录检测记录链接实体匹配数据集成; Keywords approximately duplicate records detection record linkage entity matching data integration; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于优先队列的增量式重复记录识别被引量：7: 4; 作者佘春红; 机构荆州师范学院信息科学学院; 出处《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页; 文摘介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。; 关键词数据清理近似重复记录增量式识别特征记录; Keywords data cleaning approximately duplicate record incremental detection representative record; 分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于聚类分析技术的数据清洗研究被引量：11: 5; 作者刘芳何飞; 机构华中科技大学计算机科学与技术学院; 出处《计算机工程与科学》 CSCD 2005年第6期70-71,77,共3页; 基金国家"十五"重大科技专项课题(2001BA102A06 11); 文摘数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。; 关键词数据清洗近似重复记录聚类 ICAD; Keywords data cleansing approximately duplicate record clustering ICAD; 分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种基于条件概率分布的近似重复记录检测方法	缪嘉嘉吴刚毛捍东杨强邓苏	《小型微型计算机系统》 CSCD 北大核心	2004	3	在线阅读下载PDF 职称材料
2	近似重复记录的增量式识别算法	许向阳佘春红	《计算机工程与应用》 CSCD 北大核心	2003	4	在线阅读下载PDF 职称材料
3	近似重复记录的自适应距离度量检测	黄健斌姬红兵孙鹤立	《西安电子科技大学学报》 EI CAS CSCD 北大核心	2007	2	在线阅读下载PDF 职称材料
4	基于优先队列的增量式重复记录识别	佘春红	《计算机应用》 CSCD 北大核心	2003	7	在线阅读下载PDF 职称材料
5	基于聚类分析技术的数据清洗研究	刘芳何飞	《计算机工程与科学》 CSCD	2005	11	在线阅读下载PDF 职称材料