期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于业务规则的错误数据清理方法 被引量:12
1
作者 陈伟 陈耿 +1 位作者 朱文明 王昊 《计算机工程与应用》 CSCD 北大核心 2005年第14期172-174,共3页
针对数据源中出现的错误数据,分析了业务规则在错误数据清理中的重要作用,提出了一种基于业务规则的错误数据检测方法,并研究了如何采用业务规则来检测这些错误数据。最后,以一个实例介绍了该方法的应用。
关键词 数据挖掘 数据清理 错误数据 业务规则
在线阅读 下载PDF
数据清理综述 被引量:29
2
作者 杨辅祥 刘云超 段智华 《计算机应用研究》 CSCD 北大核心 2002年第3期3-5,共3页
由于各种原因 ,数据中存在这样或那样的脏数据需要清理 (净化 )。特别是数据仓库、KDD及TDQM(综合数据质量管理 )中 ,必须对数据进行清理。介绍了数据清理的有关内容、技术与实现方案 ,着重介绍了目前的两个重点研究、应用内容
关键词 数据清理 数据质量 数据仓库 数据
在线阅读 下载PDF
数据清理中几种解决数据冲突的方法 被引量:8
3
作者 唐新余 陈海燕 +1 位作者 李晓 邹光兴 《计算机应用研究》 CSCD 北大核心 2004年第12期209-211,225,共4页
建立数据挖掘模型的基石是数据仓库,数据仓库的质量直接影响到数据挖掘模型的建立与执行效率,并有可能影响到数据挖掘模型的最终结果的准确度。数据清理就是发现数据中的错误和不一致并加以消除,以提高数据的质量,使得数据挖掘模型建立... 建立数据挖掘模型的基石是数据仓库,数据仓库的质量直接影响到数据挖掘模型的建立与执行效率,并有可能影响到数据挖掘模型的最终结果的准确度。数据清理就是发现数据中的错误和不一致并加以消除,以提高数据的质量,使得数据挖掘模型建立的过程更加快捷和简便,挖掘出来的模式和规则也就更加有效和适用。 展开更多
关键词 数据清理 数据挖掘 数据仓库 数据质量 数据 中突 极端数据
在线阅读 下载PDF
数据清理及其在数据仓库中的应用 被引量:17
4
作者 庄晓青 徐立臻 董逸生 《计算机应用研究》 CSCD 北大核心 2003年第6期147-149,共3页
数据仓库是为决策服务的,这里的数据是从各种异构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中... 数据仓库是为决策服务的,这里的数据是从各种异构的数据源中采集过来的。由于各个数据源中的数据可能存在错误以及种种不一致性,因而为了确保决策数据的质量必须要对各个数据源中抽取出来的数据进行清理转换。数据清理就是发现数据源中数据的错误并加以清除或修改,发现和纠正数据源之间数据的不一致性。分析了数据清理概念和方法以及在数据仓库中的应用。 展开更多
关键词 数据仓库 数据清理 模式冲突 ETL(Extraction Transformation Loading)
在线阅读 下载PDF
MySQL在健康相关数据清理中的应用 被引量:5
5
作者 宋杰 郝舒欣 +2 位作者 徐东群 陈凤格 刘悦 《中国卫生统计》 CSCD 北大核心 2017年第3期515-517,共3页
目的探讨MySQL技术在医院门诊、住院等医疗数据的快速清理和分类统计汇总中的应用。方法根据数据特征制定清理规则,通过MySQL软件实现医疗数据的清理(删重、合并、校正)并重新匹配ICD-10编码,最终汇总计算分病种日接诊量等统计信息。结... 目的探讨MySQL技术在医院门诊、住院等医疗数据的快速清理和分类统计汇总中的应用。方法根据数据特征制定清理规则,通过MySQL软件实现医疗数据的清理(删重、合并、校正)并重新匹配ICD-10编码,最终汇总计算分病种日接诊量等统计信息。结果 MySQL可以对医疗数据进行高效的数据清理,删除不符合要求的记录、校正错误信息及匹配正确ICD-10编码,自动生成统计报表。结论该方法可以高效快捷地处理健康数据,尤其是医院门诊、急救、死因等大数量级数据,生成准确统计报表,在环境与健康研究中具有极强科学意义和使用价值。 展开更多
关键词 MYSQL 健康数据 数据清理 统计汇总
在线阅读 下载PDF
RFID网络的数据清理技术 被引量:4
6
作者 薛小平 张思东 +1 位作者 王小平 曹晓宁 《计算机工程》 CAS CSCD 北大核心 2008年第7期92-94,97,共4页
结合RFID网络数据质量和可靠性研究的最新进展,分类和评述了现有的数据清理技术,分析了平滑和判决方法、流水线方法、基于统计的估计方法、完整性约束的方法等。研究表明,针对不同的应用要求,需要多种数据清理技术的组合才可确保RFID阅... 结合RFID网络数据质量和可靠性研究的最新进展,分类和评述了现有的数据清理技术,分析了平滑和判决方法、流水线方法、基于统计的估计方法、完整性约束的方法等。研究表明,针对不同的应用要求,需要多种数据清理技术的组合才可确保RFID阅读可靠性。 展开更多
关键词 阅读 数据清理 可靠性
在线阅读 下载PDF
可扩展数据清理软件平台的研究 被引量:10
7
作者 陈伟 丁秋林 《电子科技大学学报》 EI CAS CSCD 北大核心 2006年第1期100-103,共4页
提出一种可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,规则库用来存放清理规则,算法库用来存放清理算法,算法库中包含多种算法,并可对其扩展;通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软... 提出一种可扩展的数据清理软件平台,该软件平台具有开放的规则库和算法库,规则库用来存放清理规则,算法库用来存放清理算法,算法库中包含多种算法,并可对其扩展;通过在规则库中定义清理规则以及从算法库中选择合适的清理算法,可使该软件平台适用于不同的数据源,从而使其具有较强的通用性和适应性;通过多种算法的清理,提高了数据清理的综合效果。最后,通过实例验证了该平台的效果及可行性。 展开更多
关键词 数据清理 软件平台 规则库 算法库
在线阅读 下载PDF
数据清理中同体不同源数据的数化算法研究 被引量:5
8
作者 夏骄雄 徐俊 吴耿锋 《计算机工程》 CAS CSCD 北大核心 2007年第1期71-73,共3页
在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点。在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统... 在数据仓库构建的数据清理过程中,同体不同源数据的发现一直是清理过程的难点。在现实情况下,存在的单一实体在不同的数据源中以不同的方式进行存储或者表达的同体不同源数据,传统数据清理技术对其发现、修正需要花费大量的时间和系统资源进行比较,实际效果并不理想。该文提出一种新型的、利用数据数字化存储特点来查找同体不同源数据的算法,能够有效减少数据间的比较次数,并确保数据清理结果的质量。 展开更多
关键词 同体不同源数据 数化 数据清理
在线阅读 下载PDF
Web大数据环境下的相似重复数据清理 被引量:14
9
作者 王闪 谭良 《计算机工程与设计》 北大核心 2017年第3期646-651,共6页
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中... 为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。 展开更多
关键词 Web大数据 重复数据删除 数据清理 相似哈希 数据质量评估
在线阅读 下载PDF
一种开放式数据清理框架 被引量:3
10
作者 陆凤霞 王静秋 王宁生 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第4期459-463,共5页
从提高制造业信息化中数据质量的角度出发,分析了建立基于规则库和算法库的可扩展数据清理框架的必要性,设计了一种基于多种规则结合不同算法以流程方式完成清理任务的可重构的数据清理框架。在框架的设计中,以实例方式总结了数据质量... 从提高制造业信息化中数据质量的角度出发,分析了建立基于规则库和算法库的可扩展数据清理框架的必要性,设计了一种基于多种规则结合不同算法以流程方式完成清理任务的可重构的数据清理框架。在框架的设计中,以实例方式总结了数据质量问题的分类,详细阐述了该框架的结构、组成部分以及工作流程。最后,通过数据清理实例说明了该框架中流程的实现及其工作过程。本文提出的数据清理框架功能将随着不同领域清理任务的完成而不断完善。 展开更多
关键词 数据清理 规则库 算法库 框架 数据质量
在线阅读 下载PDF
书目数据清理与合并 被引量:12
11
作者 周明华 刘荣珍 《大学图书馆学报》 CSSCI 北大核心 2005年第6期51-56,共6页
书目数据清理与合并是图书馆自动化编目工作的组成部分,也是书目数据库建设必须面对的问题之一。该文在总结实践工作经验的基础上,梳理了书目数据清理与合并工作的脉络,提出了书目数据清理与合并的几种方式以及应注意的问题,以期让同行... 书目数据清理与合并是图书馆自动化编目工作的组成部分,也是书目数据库建设必须面对的问题之一。该文在总结实践工作经验的基础上,梳理了书目数据清理与合并工作的脉络,提出了书目数据清理与合并的几种方式以及应注意的问题,以期让同行们在从事同样工作时有所参考。 展开更多
关键词 书目数据清理 书目数据合并 书目数据库管理 质量控制
在线阅读 下载PDF
面向信息检索需要的网络数据清理研究 被引量:5
12
作者 刘奕群 张敏 马少平 《中文信息学报》 CSCD 北大核心 2006年第3期70-77,共8页
W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的... W eb数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 数据清理 机器学习
在线阅读 下载PDF
数据清理研究 被引量:2
13
作者 张志兵 李华旸 张勇 《计算机工程与应用》 CSCD 北大核心 2004年第28期164-166,共3页
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比... 异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。 展开更多
关键词 DMCleaner 数据集成 数据清理
在线阅读 下载PDF
基于孤立点检测的错误数据清理方法 被引量:1
14
作者 陈伟 王昊 朱文明 《计算机应用研究》 CSCD 北大核心 2005年第11期71-73,共3页
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以... 针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。 展开更多
关键词 数据挖掘 数据清理 错误数据 孤立点检测
在线阅读 下载PDF
城市化进程中的地籍数据清理与问题分析 被引量:1
15
作者 王毓乾 彭小伟 +1 位作者 谭永滨 李小龙 《遥感信息》 CSCD 北大核心 2018年第2期103-107,共5页
针对在快速城市化进程中,土地的利用类型和相应的地籍信息变更频繁,地籍数据常存在缺失、不全、错误、冗余等问题,以深圳市龙岗区大运新城为研究区,通过地籍数据清理分析城市化过程中地籍数据存在的主要问题,发现数据更新不及时是导致... 针对在快速城市化进程中,土地的利用类型和相应的地籍信息变更频繁,地籍数据常存在缺失、不全、错误、冗余等问题,以深圳市龙岗区大运新城为研究区,通过地籍数据清理分析城市化过程中地籍数据存在的主要问题,发现数据更新不及时是导致地籍数据问题的主要因素;此外,非农建设用地入市、不同系统数据的不一致性和人为错误也是导致地籍数据问题的重要因素。城市化进程中,为了避免出现大量的地籍数据问题,需要完善地籍数据的共享和动态更新机制,加强数据的质量控制。 展开更多
关键词 城市化 地籍 宗地 地籍数据管理 地籍数据问题 地籍数据清理
在线阅读 下载PDF
数据清理方法 被引量:4
16
作者 佘春红 《计算机应用》 CSCD 北大核心 2002年第12期128-130,共3页
数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记... 数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。 展开更多
关键词 数据清理方法 预处理 数据仓库 数据
在线阅读 下载PDF
临床研究数据清理经验和实例 被引量:2
17
作者 路甲鹏 《中国循环杂志》 CSCD 北大核心 2018年第8期810-811,共2页
前几期《临床研究系列讲座》文章针对研究设计、实施和质量控制进行了详细的阐述,对开展临床研究设计和实施具有重要指导作用。然而,"残酷"的现实告诉我们,再严谨的设计、再严格的研究管理和质量控制也无法避免"错误"数据的出现。所... 前几期《临床研究系列讲座》文章针对研究设计、实施和质量控制进行了详细的阐述,对开展临床研究设计和实施具有重要指导作用。然而,"残酷"的现实告诉我们,再严谨的设计、再严格的研究管理和质量控制也无法避免"错误"数据的出现。所以,数据清理是临床研究的必要过程,对提高数据分析效率和研究结果可靠性具有重要意义。但数据清理的局限性在于只能针对录入到数据库的数据进行清理,若临床研究中漏报不良事件,则无法通过数据清理发现。 展开更多
关键词 数据清理 数据 研究者 CRF 异常值 逻辑错误 临床研究
在线阅读 下载PDF
北京数字档案馆项目数据清理情况分析
18
作者 尹哲 《北京档案》 北大核心 2017年第3期5-6,共2页
目前由于数字档案馆的投入运行,各类档案数据的存储数量急速增加。与此同时,档案数据质量随着脏数据的出现受到很大影响,针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题,提出了数据... 目前由于数字档案馆的投入运行,各类档案数据的存储数量急速增加。与此同时,档案数据质量随着脏数据的出现受到很大影响,针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题,提出了数据清理的基本方法和步骤,为今后档案工作数据清理提供相关经验和建议。 展开更多
关键词 数字档案馆 数据质量 数据 数据清理
在线阅读 下载PDF
基于信息熵的不确定性数据清理方法 被引量:9
19
作者 覃远翔 段亮 岳昆 《计算机应用》 CSCD 北大核心 2013年第9期2490-2492,2504,共4页
针对不确定性数据中往往包含一些异常数据而导致相应的查询结果出现错误的问题,提出了一种基于信息熵的不确定性数据清理方法以减少异常数据并提高不确定性数据的质量。首先使用信息熵来度量数据的不确定度,然后结合统计学方法计算出不... 针对不确定性数据中往往包含一些异常数据而导致相应的查询结果出现错误的问题,提出了一种基于信息熵的不确定性数据清理方法以减少异常数据并提高不确定性数据的质量。首先使用信息熵来度量数据的不确定度,然后结合统计学方法计算出不确定性数据的可信区间,最后去除那些不在可信区间内的数据。实验结果验证了该方法的高效性和有效性。 展开更多
关键词 不确定性数据 数据清理 信息熵 不确定度 可信区间
在线阅读 下载PDF
输电线路电磁环境试验数据清理方法研究 被引量:5
20
作者 付殷 余占清 +3 位作者 曾嵘 刘磊 李敏 庄池杰 《高电压技术》 EI CAS CSCD 北大核心 2018年第1期289-295,共7页
在电磁环境试验过程中,由于周围环境会出现各种突发性干扰,因此试验数据中常常存在异常数据,需要恰当地处理方法清理异常数据。为此,针对电磁环境试验数据的自动清理方法开展研究,采用离群点空间距离实现异常值判别,根据电磁环境... 在电磁环境试验过程中,由于周围环境会出现各种突发性干扰,因此试验数据中常常存在异常数据,需要恰当地处理方法清理异常数据。为此,针对电磁环境试验数据的自动清理方法开展研究,采用离群点空间距离实现异常值判别,根据电磁环境数据特性,提出了适合于电磁环境数据的空间距离定义方法。提出了基于聚类的电磁环境试验数据清理方法,通过对空间离群点的检测完成对电磁环境试验数据的预处理过程。结果表明,得到的处理后数据中,异常数据均得到了清除,且未改变数据的统计特征值,其中异常数据主要表现为各个数据子类中的空间离群点;该算法可提高测量数据的可信度。 展开更多
关键词 电磁环境 试验线段 数据清理 聚类分析 离群点检测
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部