期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
数据仓库中的相似重复记录检测方法 被引量:25
1
作者 李星毅 包从剑 施化吉 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第6期1273-1277,共5页
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据... 针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。 展开更多
关键词 相似重复记录 数据仓库 分组 等级法 数据加权
在线阅读 下载PDF
基于蚁群特征选择的相似重复记录分类检测 被引量:8
2
作者 曹建军 刁兴春 +2 位作者 杜鹢 王芳潇 张潇毅 《兵工学报》 EI CAS CSCD 北大核心 2010年第9期1222-1227,共6页
为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法。将相似重复记录检测看成二分类问题,定义了字符串型、枚举型和日期型3种典型属性类型的相似特征和归一化算法,以两记录的相似特征向量作为分类器的输入进行检测... 为实现相似重复记录的检测,提出一种基于蚁群算法特征选择的分类检测方法。将相似重复记录检测看成二分类问题,定义了字符串型、枚举型和日期型3种典型属性类型的相似特征和归一化算法,以两记录的相似特征向量作为分类器的输入进行检测;建立了以召回率、准确率和特征规模综合最优的特征选择多目标优化模型,并根据问题特点将多目标模型转化为单目标模型,应用蚁群算法设计了模型求解算法。最后,用欧氏距离分类法和支持向量机2种分类器验证了该方法的有效性。 展开更多
关键词 信息处理技术 数据清洗 相似重复记录 蚁群算法 特征选择 支持向量机
在线阅读 下载PDF
基于MapReduce模型的大数据相似重复记录检测算法 被引量:41
3
作者 宋人杰 余通 +2 位作者 陈宇红 陈宇阳 夏滨 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权... 针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 展开更多
关键词 云环境 大数据 相似重复记录 并行检测 冗余识别
在线阅读 下载PDF
一种基于VSM的检测相似重复记录的方法 被引量:10
4
作者 张昌年 《微电子学与计算机》 CSCD 北大核心 2008年第8期184-187,共4页
相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记... 相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的. 展开更多
关键词 空间向量模型 聚类 相似重复记录 权重 优先队列
在线阅读 下载PDF
基于模糊综合评判的相似重复记录清洗方法 被引量:3
5
作者 郭文龙 董建怀 《北京信息科技大学学报(自然科学版)》 2017年第4期59-63,共5页
相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评判确定属性等级并根据用户评价结果计算属性权值的方法。在此... 相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评判确定属性等级并根据用户评价结果计算属性权值的方法。在此基础上,进一步将属性切分为原子,通过计算原子相似度进而计算属性相似度,最后进行记录判重。实验结果表明该方法能较客观地反映属性的重要程度,通过切分属性为原子并判重也进一步提高了检测的精度。 展开更多
关键词 相似重复记录 属性 模糊综合评判 算法
在线阅读 下载PDF
大数据环境下的相似重复记录检测方法 被引量:6
6
作者 殷秀叶 《武汉工程大学学报》 CAS 2014年第9期66-69,共4页
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段... 大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率. 展开更多
关键词 相似重复记录 大数据 同义属性
在线阅读 下载PDF
基于Hadoop的大规模电网数据相似重复记录并行检测策略 被引量:2
7
作者 宋人杰 余通 《科技通报》 2018年第7期138-144,共7页
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基... 针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。 展开更多
关键词 电网数据 相似重复记录 HADOOP 并行检测
在线阅读 下载PDF
异构数据库集成中相似重复记录清洗方法 被引量:2
8
作者 郭文龙 《宜春学院学报》 2014年第3期37-39,共3页
异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在... 异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在数据仓库中进行二次清洗。该清洗方案既可以提高源数据库数据质量,还可以减少数据仓库中的相似重复记录数量并提高二次清洗的效率。 展开更多
关键词 异构数据库 数据集成 数据仓库 相似重复记录 清洗
在线阅读 下载PDF
一种中文相似重复记录的检测方法
9
作者 王志军 乐嘉锦 《东华大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第2期37-40,共4页
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性。这里提出一种通用的关键字选取方法,然后... 要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性。这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。 展开更多
关键词 相似重复记录 向量空间 特征向量 欧氏距离
在线阅读 下载PDF
相似重复记录检测的特征优选策略探究
10
作者 杨家娥 《无线互联科技》 2014年第5期172-172,共1页
信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测... 信息时代的来临,对大数据的检测和识别提出更高的要求,如检测精度更高和检测代价低廉。而传统的重复记录检测方法其特征属性繁多,数据源组成更为繁琐,导致检测精度不足和检测代价高昂问题的出现。为此,本文探索分析了相似重复记录检测的特征优选方案,从分组模糊聚类的原理出发,对相似重复几率的组内计算方法进行剖析,探究其在大数据集中检测精度和识别认识方面的优势。 展开更多
关键词 特征优选 相似重复记录 模糊聚类 相似 策略
在线阅读 下载PDF
基于遗传神经网络的相似重复记录检测方法研究 被引量:1
11
作者 肖蕾 郭乐江 +1 位作者 胡亚慧 程敏 《舰船电子工程》 2011年第2期168-170,176,共4页
设计实现了一个相似重复记录检测系统,该系统包括预处理模块、聚类模块、字段匹配模块和记录匹配模块,支持聚类算法和字段匹配算法的定制扩充。并通过实验对比了几种著名的算法,实验结果表明该系统提高了相似重复记录检测的精确度。
关键词 遗传神经网络 相似重复记录检测系统 聚类算法 字段匹配算法
在线阅读 下载PDF
基于多目标蚁群优化的单类支持向量机相似重复记录检测 被引量:12
12
作者 吕国俊 曹建军 +3 位作者 郑奇斌 常宸 翁年凤 彭琮 《兵工学报》 EI CAS CSCD 北大核心 2020年第2期324-331,共8页
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记... 为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。 展开更多
关键词 数据清洗 相似重复记录检测 多目标蚁群算法 特征选择 单类支持向量机 支持向量域描述
在线阅读 下载PDF
基于K-means的大数据相似重复记录检测
13
作者 张平 程新莲 《现代信息科技》 2022年第8期89-91,共3页
目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提... 目前大型企业存储了大量的数据,但是数据质量令人担忧,集中表现在相似重复冗余的数据特别多,以及多个数据源的合并加重数据的冗余。大数据相似记录检测环节是数据清洗研究的重要方向。针对大数据中存在的相似重复数据的检测问题,文章提出了一种基于k-means分组聚类的检测算法,实验分析表明,该方法在确保精度不变的情况下提高了检测效率。 展开更多
关键词 相似重复记录 K-MEANS SNM
在线阅读 下载PDF
改进的SNM中文语义重复记录检测算法 被引量:5
14
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 SNM算法 中文分词
在线阅读 下载PDF
基于数据仓库的电网全业务系统审计数据分析系统设计
15
作者 郭云鹏 吴娟 +1 位作者 陆映梅 自路学 《数字技术与应用》 2024年第6期60-62,共3页
传统的财政预算执行审计是指对政府部门或企事业单位在预算执行过程中的财务收支情况进行审计,以确定其是否按照预算计划进行支出,并对其存在的问题提出建议和改进措施,但其难以消除相似重复记录的数据,从而导致最终的数据集成效果不佳... 传统的财政预算执行审计是指对政府部门或企事业单位在预算执行过程中的财务收支情况进行审计,以确定其是否按照预算计划进行支出,并对其存在的问题提出建议和改进措施,但其难以消除相似重复记录的数据,从而导致最终的数据集成效果不佳。因此,本文提出基于数据仓库的电网全业务系统审计数据分析系统设计,旨在生成财务数据集成本体,获取数据仓库的元数据信息,通过对数据仓库清洗电网全业务系统审计数据,消除在数据仓库中相似重复记录的数据。本系统构建电网全业务系统审计数据本体集成模型,匹配电网全业务系统审计数据集成属性,进而实现电网全业务系统高效集成。 展开更多
关键词 数据仓库 相似重复记录 数据集成 元数据信息 财务收支情况 预算执行过程 审计数据 集成模型
在线阅读 下载PDF
数据ETL过程中的实体识别方法 被引量:2
16
作者 彭银桥 甘元驹 +1 位作者 彭凌西 邓锐 《现代电子技术》 2005年第7期44-46,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最 具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现 语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%、 96.5%,能够满足工程应用的要求。 展开更多
关键词 数据ETL 相似重复记录 实体识别算法 实体识别过程框架
在线阅读 下载PDF
数据ETL过程中的实体识别方法 被引量:3
17
作者 彭银桥 甘元驹 +1 位作者 邓锐 彭凌西 《信息技术》 2005年第2期22-24,共3页
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通... 实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。 展开更多
关键词 数据ETL 相似重复记录 实体识别算法 实体识别过程框架
在线阅读 下载PDF
基于模糊综合评判和长度过滤的SNM改进算法 被引量:1
18
作者 郭文龙 董建怀 《武汉工程大学学报》 CAS 2017年第4期403-408,共6页
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在... 为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高. 展开更多
关键词 相似重复记录 模糊综合评判 属性 长度过滤 SNM 算法
在线阅读 下载PDF
基于中文地址类信息的分词处理 被引量:3
19
作者 刘哲 夏秀峰 周福才 《沈阳航空工业学院学报》 2008年第4期63-66,共4页
数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着... 数据仓库中脏数据处理的热点问题是识别与消除相似重复记录。针对中文地址类重复信息的处理,提出了一种基于特征字符的分词策略,在建立了包含分词规则的元数据库基础上,描述了基于特征字符的分词算法。实验结果表明分词所用的时间随着数据集的增长变化不大。因此,将分词方法应用于中文地址类重复记录的检测,也不会增加检测的时间。 展开更多
关键词 相似重复记录 中文地址 特征字符 分词
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部