期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于条件概率分布的近似重复记录检测方法
被引量:
3
1
作者
缪嘉嘉
吴刚
+2 位作者
毛捍东
杨强
邓苏
《小型微型计算机系统》
CSCD
北大核心
2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的...
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。
展开更多
关键词
信息集成
近似重复记录
动态聚类
概率后缀树
在线阅读
下载PDF
职称材料
近似重复记录的增量式识别算法
被引量:
4
2
作者
许向阳
佘春红
《计算机工程与应用》
CSCD
北大核心
2003年第12期191-193,220,共4页
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IM...
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。
展开更多
关键词
数据清理
近似重复记录
增量式识别
特征
记录
在线阅读
下载PDF
职称材料
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机...
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
展开更多
关键词
近似重复记录
检测
记录
链接
实体匹配
数据集成
在线阅读
下载PDF
职称材料
基于优先队列的增量式重复记录识别
被引量:
7
4
作者
佘春红
《计算机应用》
CSCD
北大核心
2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
在线阅读
下载PDF
职称材料
基于聚类分析技术的数据清洗研究
被引量:
11
5
作者
刘芳
何飞
《计算机工程与科学》
CSCD
2005年第6期70-71,77,共3页
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据...
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
展开更多
关键词
数据清洗
近似重复记录
聚类
ICAD
在线阅读
下载PDF
职称材料
题名
一种基于条件概率分布的近似重复记录检测方法
被引量:
3
1
作者
缪嘉嘉
吴刚
毛捍东
杨强
邓苏
机构
国防科学技术大学计算机学院
国防科学技术大学人文管理学院
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第12期2164-2168,共5页
基金
国家自然科学基金 ( 60 10 3 0 0 9)资助
文摘
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。
关键词
信息集成
近似重复记录
动态聚类
概率后缀树
Keywords
information integration
approximately duplicated records
dynamic clustering
probabilistic suffix tree
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
近似重复记录的增量式识别算法
被引量:
4
2
作者
许向阳
佘春红
机构
华中科技大学计算机学院数据库与多媒体技术研究所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第12期191-193,220,共4页
基金
国家科技攻关计划项目"科技部科技电子政务系统关键技术及应用系统的研究"(编号:2001BA110B01)
文摘
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
Keywords
Data cleaning,Approximately duplicate records,Incremental detection,Representative record
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
机构
西安电子科技大学电子工程学院
西安交通大学计算机科学与技术系
出处
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
基金
"十五"国家部委预研项目(41101050108)
西安电子科技大学博士生创新基金项目(05013)
文摘
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
关键词
近似重复记录
检测
记录
链接
实体匹配
数据集成
Keywords
approximately duplicate records detection
record linkage
entity matching
data integration
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于优先队列的增量式重复记录识别
被引量:
7
4
作者
佘春红
机构
荆州师范学院信息科学学院
出处
《计算机应用》
CSCD
北大核心
2003年第9期61-63,共3页
文摘
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
Keywords
data cleaning
approximately duplicate record
incremental detection
representative record
分类号
TP311.131 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于聚类分析技术的数据清洗研究
被引量:
11
5
作者
刘芳
何飞
机构
华中科技大学计算机科学与技术学院
出处
《计算机工程与科学》
CSCD
2005年第6期70-71,77,共3页
基金
国家"十五"重大科技专项课题(2001BA102A06 11)
文摘
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
关键词
数据清洗
近似重复记录
聚类
ICAD
Keywords
data cleansing
approximately duplicate record
clustering
ICAD
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种基于条件概率分布的近似重复记录检测方法
缪嘉嘉
吴刚
毛捍东
杨强
邓苏
《小型微型计算机系统》
CSCD
北大核心
2004
3
在线阅读
下载PDF
职称材料
2
近似重复记录的增量式识别算法
许向阳
佘春红
《计算机工程与应用》
CSCD
北大核心
2003
4
在线阅读
下载PDF
职称材料
3
近似重复记录的自适应距离度量检测
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007
2
在线阅读
下载PDF
职称材料
4
基于优先队列的增量式重复记录识别
佘春红
《计算机应用》
CSCD
北大核心
2003
7
在线阅读
下载PDF
职称材料
5
基于聚类分析技术的数据清洗研究
刘芳
何飞
《计算机工程与科学》
CSCD
2005
11
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部