期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
一种高效的检测相似重复记录的方法 被引量:73
1
作者 邱越峰 田增平 +1 位作者 季文贇 周傲英 《计算机学报》 EI CSCD 北大核心 2001年第1期69-77,共9页
如何消除数据库中的重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于 N- Gram的检测相似重复记录的方法 ,主要工作有 :(1)提出了一种高效的基于 N - Gram的聚类算法 ,该算法能适应常见的拼写错误从而较好地聚类相似... 如何消除数据库中的重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于 N- Gram的检测相似重复记录的方法 ,主要工作有 :(1)提出了一种高效的基于 N - Gram的聚类算法 ,该算法能适应常见的拼写错误从而较好地聚类相似重复记录 ,复杂度仅为 O(N) ;同时提出了该算法的改进形式 ,使其在检测的同时能自动校正单词的插入、删除错误 ,提高检测精度 .(2 )采用了一种高效的应用无关的 Pair- wise比较算法 ,该算法以单词间的编辑距离为基础 ,通过计算两记录中单词间的编辑距离来判断记录的相似与否 .(3)给出了一种改进的优先队列算法来准确地聚类相似重复记录 ,该算法使用固定大小的优先队列顺序扫描已排序的记录 ,通过比较当前记录和队列中记录的距离来聚类相似重复记录 .此外 ,该文构造了合适的实验环境并作了大量的算法实验 .在此基础上 ,文中分析了大量、翔实的实验结果从而验证了算法的科学性 . 展开更多
关键词 信息集成 相似重复记录 聚类 数据质量 数据库
在线阅读 下载PDF
数据仓库中的相似重复记录检测方法 被引量:25
2
作者 李星毅 包从剑 施化吉 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第6期1273-1277,共5页
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据... 针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。 展开更多
关键词 相似重复记录 数据仓库 分组 等级法 数据加权
在线阅读 下载PDF
一种检测多语言文本相似重复记录的综合方法 被引量:26
3
作者 俞荣华 田增平 周傲英 《计算机科学》 CSCD 北大核心 2002年第1期118-121,共4页
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输... 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性. 展开更多
关键词 数据仓库 数据挖掘 数据库 信息重复 多语言文本相似重复记录方法 检测
在线阅读 下载PDF
基于蚁群特征选择的相似重复记录分类检测 被引量:8
4
作者 曹建军 刁兴春 +2 位作者 杜鹢 王芳潇 张潇毅 《兵工学报》 EI CAS CSCD 北大核心 2010年第9期1222-1227,共6页
为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法。将相似重复记录检测看成二分类问题,定义了字符串型、枚举型和日期型3种典型属性类型的相似特征和归一化算法,以两记录的相似特征向量作为分类器的输入进行检测... 为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法。将相似重复记录检测看成二分类问题,定义了字符串型、枚举型和日期型3种典型属性类型的相似特征和归一化算法,以两记录的相似特征向量作为分类器的输入进行检测;建立了以召回率、准确率和特征规模综合最优的特征选择多目标优化模型,并根据问题特点将多目标模型转化为单目标模型,应用蚁群算法设计了模型求解算法。最后,用欧氏距离分类法和支持向量机2种分类器验证了该方法的有效性。 展开更多
关键词 信息处理技术 数据清洗 相似重复记录 蚁群算法 特征选择 支持向量机
在线阅读 下载PDF
数据仓库ETL中相似重复记录的检测方法及应用 被引量:15
5
作者 张永 迟忠先 闫德勤 《计算机应用》 CSCD 北大核心 2006年第4期880-882,共3页
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到... 检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到了中文字符集中,实例表明该算法具有很好的效果。 展开更多
关键词 位置编码 数据仓库 ETL 相似重复记录
在线阅读 下载PDF
基于模糊综合评判的相似重复记录识别方法 被引量:14
6
作者 肖满生 周浩慧 王宏 《计算机工程》 CAS CSCD 北大核心 2010年第13期51-53,共3页
针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价,通过模糊映射获得反映属性重要性的权值,并以此为基础进行相似重... 针对在基于字符串匹配的相似重复记录识别中,属性权值确定主观性太强的问题,提出一种模糊综合评判获取属性权值的方法。采用多用户对各属性的重要性组成因素进行等级评价,通过模糊映射获得反映属性重要性的权值,并以此为基础进行相似重复记录识别。理论分析和实验表明,该方法能客观地获取各属性权值,因而在相似重复记录识别中有较高的识别精度。 展开更多
关键词 模糊综合评判 相似重复记录 属性权值 相似
在线阅读 下载PDF
基于遗传神经网络的相似重复记录检测方法 被引量:13
7
作者 孟祥逢 鲁汉榕 郭玲 《计算机工程与设计》 CSCD 北大核心 2010年第7期1550-1553,共4页
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络... 为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。 展开更多
关键词 相似重复记录检测 神经网络 遗传算法 数据清洗 数据集成
在线阅读 下载PDF
基于CURE算法的相似重复记录检测 被引量:11
8
作者 时念云 张金明 褚希 《计算机工程》 CAS CSCD 北大核心 2009年第5期56-58,共3页
对CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性。改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行... 对CURE算法进行改进,将其应用到相似重复记录的检测。提出预抽样的概念,可以有效地确定记录集中相似重复记录的分布情况,提高随机抽样的准确性。改进代表点选择方法,提出基于距离影响因子的代表点选取策略,既可以根据数据集的密度进行代表点的选取,又能适当选取有一定意义的边缘点作为代表点,提高代表点选取的合理性。理论分析和实验表明,该方法在保证执行效率的情况下有很高的准确性。 展开更多
关键词 相似重复记录 抽样算法 代表点
在线阅读 下载PDF
一种提高相似重复记录检测精度的方法 被引量:8
9
作者 陈伟 王昊 朱文明 《计算机应用与软件》 CSCD 北大核心 2006年第10期29-30,42,共3页
如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了... 如何消除数据源中的相似重复记录是数据清理研究中的一个重要问题。为了提高相似重复记录的检测精度,在相似重复记录检测算法的基础上,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度。最后,以一个实例验证了该方法的效果。 展开更多
关键词 数据挖掘 数据清理 相似重复记录 等级法
在线阅读 下载PDF
基于QPSO-LSSVM的数据库相似重复记录检测算法 被引量:6
10
作者 梁雪 任剑锋 景丽 《计算机科学》 CSCD 北大核心 2012年第11期157-159,190,共4页
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录... 针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSO-LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。 展开更多
关键词 量子粒子群优化算法 最小二乘支持向量机 相似重复记录 检测
在线阅读 下载PDF
海量数据的相似重复记录检测算法 被引量:11
11
作者 周典瑞 周莲英 《计算机应用》 CSCD 北大核心 2013年第8期2208-2211,共4页
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用... 针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。 展开更多
关键词 海量数据 相似重复记录 综合加权法 编辑距离
在线阅读 下载PDF
基于数据分组匹配的相似重复记录检测 被引量:6
12
作者 周丽娟 肖满生 《计算机工程》 CAS CSCD 北大核心 2010年第12期104-106,共3页
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相... 针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。 展开更多
关键词 多源数据集 属性优选 数据分组匹配 相似重复记录
在线阅读 下载PDF
基于分块和滑窗技术的相似重复记录检测算法研究 被引量:8
13
作者 陈亮 杜璐 胡康 《计算机应用与软件》 北大核心 2019年第4期262-267,共6页
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计... 相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。 展开更多
关键词 数据质量 相似重复记录检测 窗口技术 分块技术
在线阅读 下载PDF
一种检测汉语相似重复记录的有效方法 被引量:8
14
作者 程国达 苏杭丽 《计算机应用》 CSCD 北大核心 2005年第6期1362-1365,共4页
消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为... 消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。 展开更多
关键词 汉语相似重复记录 排序字段 二维链表
在线阅读 下载PDF
基于Apriori算法的车辆检测相似重复记录消除方法 被引量:3
15
作者 安相璧 杜艾永 李树珉 《天津大学学报》 EI CAS CSCD 北大核心 2010年第7期606-610,共5页
为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似... 为消除在数据库中存在的中文相似重复记录,提出一种改进的Apriori算法,利用该算法获得数据库记录的频繁项集.基于频繁项集,消除进行比较记录的共有项,有效提高相异字符的计算权重.然后利用FRMA算法计算记录间的相似度,最终消除中文相似记录.在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值. 展开更多
关键词 相似重复记录 APRIORI算法 FRMA算法
在线阅读 下载PDF
基于MapReduce模型的大数据相似重复记录检测算法 被引量:41
16
作者 宋人杰 余通 +2 位作者 陈宇红 陈宇阳 夏滨 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权... 针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 展开更多
关键词 云环境 大数据 相似重复记录 并行检测 冗余识别
在线阅读 下载PDF
基于SNM改进算法的相似重复记录消除 被引量:9
17
作者 余肖生 胡孙枝 《重庆理工大学学报(自然科学)》 CAS 2016年第4期91-96,共6页
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质... 高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。 展开更多
关键词 SNM算法 SNM改进算法 相似重复记录消除
在线阅读 下载PDF
基于相似重复记录检测的特征优选方法研究 被引量:3
18
作者 曹小峰 《计算机工程与设计》 CSCD 北大核心 2009年第23期5492-5495,共4页
目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大。针对这些问题,提出了一种分组模糊聚类的特征优选方法。该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并... 目前已有的重复记录检测方法大多数基于"排序&合并"的思想,其检测精度不高、执行检测的代价过大。针对这些问题,提出了一种分组模糊聚类的特征优选方法。该方法首先进行分组记录的属性处理,以有效降低记录属性的维数,并获得分组中的代表性记录,然后采用一种相似度比较计算方法进行组内相似重复记录的检测。理论分析和实验结果表明,该方法有较高的识别精度和检测效率,能较好地解决大数据集中相似重复记录的识别问题。 展开更多
关键词 特征优选 相似重复记录 模糊聚类 相似 维度
在线阅读 下载PDF
一种改进的相似重复记录检测算法 被引量:7
19
作者 郭文龙 《计算机应用与软件》 CSCD 北大核心 2014年第1期293-295,共3页
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原... 数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。 展开更多
关键词 相似重复记录属性检测 MPN算法
在线阅读 下载PDF
基于CNN的安防数据相似重复记录检测模型 被引量:1
20
作者 王巍 刘阳 +1 位作者 洪惠君 梁雅静 《计算机应用与软件》 北大核心 2023年第2期17-25,共9页
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种... 安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。 展开更多
关键词 安防行业 数据清洗 相似重复记录检测 CNN LeNet-5
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部