期刊文献+
共找到319篇文章
< 1 2 16 >
每页显示 20 50 100
基于自适应DBSCAN-LOF的污水处理过程数据清洗方法
1
作者 侯登云 南新元 李海龙 《东北师大学报(自然科学版)》 北大核心 2025年第3期47-55,共9页
针对污水处理过程数据质量差、存在缺失和异常值的问题,本文提出了一种基于自适应密度聚类和局部异常因子算法相结合的数据清洗方法.首先,基于自适应密度聚类(DBSCAN)确定数据的基本分布;其次,使用局部异常因子(LOF)算法剔除异常聚类和... 针对污水处理过程数据质量差、存在缺失和异常值的问题,本文提出了一种基于自适应密度聚类和局部异常因子算法相结合的数据清洗方法.首先,基于自适应密度聚类(DBSCAN)确定数据的基本分布;其次,使用局部异常因子(LOF)算法剔除异常聚类和噪点;最后,用随机森林算法填补空缺值保证数据的完整性.结果表明,自适应DBSCAN-LOF算法提高了污水数据的质量,实现了污水处理过程数据的清洗. 展开更多
关键词 污水处理 数据清洗 自适应DBSCAN-LOF 随机森林
在线阅读 下载PDF
基于Kafka的ATIS设备联网接口优化与数据清洗方法
2
作者 郭晓宇 祁苗苗 +2 位作者 杨凯 张淼 贾志凯 《中国铁路》 北大核心 2025年第5期87-95,共9页
铁路车号自动识别系统(ATIS)为铁路机辆、运输、货运等系统提供列车及机车车辆通过信息,是铁路信息化的重要组成部分。现有ATIS系统存在数据传输报文种类多而杂、数据传输异常时有发生、设备直接管理不便等问题,难以满足快速发展的各专... 铁路车号自动识别系统(ATIS)为铁路机辆、运输、货运等系统提供列车及机车车辆通过信息,是铁路信息化的重要组成部分。现有ATIS系统存在数据传输报文种类多而杂、数据传输异常时有发生、设备直接管理不便等问题,难以满足快速发展的各专业数据及应用需求。为解决上述问题,基于ATIS系统特点,研究新型ATIS系统设备联网接口技术,提出设备接入方法,优化数据传输技术,研究了基于Kafka自定义分区策略的一体化数据清洗方法。通过设计数据报文规范,为优化ATIS系统的数据接入提供技术条件。通过系统实践及铁路局集团公司试点验证表明,该方法能够有效加强车号识别设备管理能力,提高车号识别数据传输的稳定性及效率,为提高ATIS运用管理水平以及降低系统运维难度奠定技术基础。 展开更多
关键词 ATIS 数据接口 数据规范 数据传输优化 Kafka 数据清洗
在线阅读 下载PDF
分段相关数据清洗算法在盾构刀盘数据清洗中的应用
3
作者 刘永胜 杨光 +1 位作者 李伟森 宋宇博 《隧道建设(中英文)》 北大核心 2025年第10期1830-1842,共13页
盾构施工过程中,刀盘监测数据受多作业模式切换、复杂地质条件及多源传感器耦合干扰等因素影响,常包含大量异常值与噪声,严重影响刀盘状态评估与寿命预测的准确性。为提高刀盘监测数据质量,提出一种融合动态分段建模与多维关联分析的刀... 盾构施工过程中,刀盘监测数据受多作业模式切换、复杂地质条件及多源传感器耦合干扰等因素影响,常包含大量异常值与噪声,严重影响刀盘状态评估与寿命预测的准确性。为提高刀盘监测数据质量,提出一种融合动态分段建模与多维关联分析的刀盘监测数据清洗方法。首先,对监测数据进行初步分段,通过推进力与转矩条件的组合判别,将原始时序作业数据划分为停机、拼装和正常掘进3种不同作业模式,建立带标签的基础数据集;然后,在初步分段的基础上,以地质综合指标与掘进能量综合指标为分段依据,采用Fisher分割方法对监测数据开展多尺度自适应分段,提取关键特征并刻画不同工况下的时序变化特性,将分段结果和数据相关性信息存储在相关性立方体中;最后,基于分段结果和数据相关性信息开展异常值检测与修复,即通过建立线性回归模型和推导预测区间实现异常数据的精准识别,并将异常数据所在位置信息以索引形式存入相关性立方体中,再引入图论方法完成异常值的加权修正,保证修复结果在多维相关性和时序连续性上的一致性与合理性。不同数据规模、数据维度及异常值占比条件下的对比试验结果表明,该方法在精确率、召回率、均方根误差和决定系数等多维性能指标上均显著优于传统统计方法、聚类方法及典型插值策略,在复杂、高维、时变监测数据清洗中表现出更优异的异常检测准确性与数据修复的鲁棒性,验证了该数据清洗方法在复杂施工工况下的应用价值。 展开更多
关键词 盾构刀盘 数据清洗 数据分段 Fisher分割方法 最小二乘法 图论
在线阅读 下载PDF
人工智能医疗器械大数据清洗的法律规制路径
4
作者 陈翎翔 《东北大学学报(社会科学版)》 北大核心 2025年第5期117-125,共9页
数据是人工智能三要素之一,数据质量问题日益成为人工智能技术的研究热点。数据采集等环节的技术缺陷会导致数据集存有脏数据,有必要引入大数据清洗技术以降低人工智能算法偏差等风险。然而,不符合规范的大数据清洗可能会对数据质量产... 数据是人工智能三要素之一,数据质量问题日益成为人工智能技术的研究热点。数据采集等环节的技术缺陷会导致数据集存有脏数据,有必要引入大数据清洗技术以降低人工智能算法偏差等风险。然而,不符合规范的大数据清洗可能会对数据质量产生负面影响。选取人工智能医疗器械应用场景,在技术与法律双视角下审视大数据清洗的规范问题与实践困境。进而运用比较法方法,基于欧盟《医疗器械法规》《人工智能法》等法律实践和中国国情,提出促进数据集质量技术标准与法律规制的互动融合,以人工智能立法为契机,明确大数据清洗义务规范,产品责任制度的介入与改良等法律规制路径。 展开更多
关键词 人工智能 医疗器械 数据质量 数据清洗 法律规制
在线阅读 下载PDF
固定污染源数据清洗方法、治理体系及应用
5
作者 金鹏 张巍 《绿色科技》 2025年第12期165-169,203,共6页
针对固定污染源数据量大、来源复杂、质量不一等问题,本研究系统分析了固定污染源数据的多源异构性、异常复杂性等特征,揭示了数据缺失、异常、不一致、重复冗余等典型问题。在此基础上,构建了“采集—清洗—治理—应用”的全流程数据... 针对固定污染源数据量大、来源复杂、质量不一等问题,本研究系统分析了固定污染源数据的多源异构性、异常复杂性等特征,揭示了数据缺失、异常、不一致、重复冗余等典型问题。在此基础上,构建了“采集—清洗—治理—应用”的全流程数据治理体系,制定了数据异常判断规则,提出了业务逻辑、统计阈值、机器学习等数据清洗方法。实践应用表明:该体系可有效发现污染源数据问题,为污染源监管及非现场执法提供可靠支撑。 展开更多
关键词 固定污染源 数据清洗 数据治理
在线阅读 下载PDF
电力设备多参量监测数据清洗研究现状及展望 被引量:9
6
作者 顾菊平 赵佳皓 +3 位作者 张新松 程天宇 周伯俊 蒋凌 《高电压技术》 EI CAS CSCD 北大核心 2024年第8期3403-3420,共18页
基于电力设备多参量监测数据,开展电力设备态势感知工作是提高设备检修效率、消除故障隐患、保障电力系统安全稳定运行的重要途径之一。然而,数据采集、传输与存储过程中受到的各类干扰导致原始监测数据中存在大量的偏差与缺失,进而影... 基于电力设备多参量监测数据,开展电力设备态势感知工作是提高设备检修效率、消除故障隐患、保障电力系统安全稳定运行的重要途径之一。然而,数据采集、传输与存储过程中受到的各类干扰导致原始监测数据中存在大量的偏差与缺失,进而影响态势感知准确性,亟须通过数据清洗提升数据质量。在综合分析电力设备多参量监测数据清洗领域文献的基础上,概述了电力设备多参量监测数据质量影响因素。对电力设备多参量监测数据清洗的通用框架进行了总结,该框架包括多参量相关性分析、异常数据检测、异常数据分类和“脏”数据修复4个环节,对各环节的常用方法进行了对比分析,并介绍了特殊应用场景下的数据清洗方式。探讨了提升数据清洗效率的2种方式,分析了电力设备多参量监测数据清洗研究领域面临的主要挑战,对未来发展趋势进行了展望。 展开更多
关键词 电力设备 监测数据 数据清洗 平滑重构 数据清洗效率
在线阅读 下载PDF
自适应密度聚类组合数据清洗的LSTM风电功率预测 被引量:5
7
作者 潘鹏程 刘晖 王仁明 《电力系统及其自动化学报》 CSCD 北大核心 2024年第7期59-66,共8页
风电机运行产生的海量数据中包含大量不同运行情况下造成的异常值,这些数据会对风电功率预测等方面产生影响。为提高风电功率的预测精度,首先,通过建立自适应基于密度的聚类算法与K-均值聚类算法组合数据清洗算法删筛异常值;然后,建立... 风电机运行产生的海量数据中包含大量不同运行情况下造成的异常值,这些数据会对风电功率预测等方面产生影响。为提高风电功率的预测精度,首先,通过建立自适应基于密度的聚类算法与K-均值聚类算法组合数据清洗算法删筛异常值;然后,建立随机森林模型填补缺失值保证数据的完整性;最后,利用长短期记忆神经网络结合气象信息建立风电功率预测模型,并对某风电场实测数据进行风电功率短期预测。研究结果表明,所述方法清洗效率高,预测准确度均高于其他模型,具有良好的预测性能。 展开更多
关键词 组合数据清洗 风电功率预测 长短期记忆 短期预测
在线阅读 下载PDF
面向多样化数据清洗任务的证据集智能选择方法 被引量:2
8
作者 钱泽凯 丁小欧 +2 位作者 孙哲 王宏志 张岩 《计算机科学》 CSCD 北大核心 2024年第8期124-132,共9页
由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查... 由于针对单一特定数据质量问题而设计的数据清洗算法并不总能有效地适用于多种清洗需求共存的数据质量提升技术,因此可采用多种清洗方法互相配合的方式来解决各种数据清洗需求。将数据清洗问题转换为证据集的生成和选择问题,基于聚合查询的增量式质量评估方案和基于中间算子证据集的算子结果选择方案,在多种清洗任务下实现了多种清洗方法配合的高效数据清洗。在所提清洗模型中,算子库提供数据清洗结果并将其转换为中间算子;中游的采样器将中间算子集分流和剪枝,给搜索器提供优质的候选证据集;下游的搜索器在质量评估器的指导下进行证据集的选择,搜索完毕后向上游算子库更新数据和必要的参数,使算子库重新迭代生成中间算子。最后,基于3个不同规模的真实数据集进行了大量实验,通过不同数据清洗任务下的性能验证在任意种类的数据清洗需求下算子编排的可行性,并将所提方法和现有的智能数据清洗系统进行性能对比。结果表明,在多种清洗任务中,所提方法在多种数据质量约束、动态和大规模的数据清洗方面具有稳定的准确率和召回率,且同一清洗时间下异常值、规则违反和混合错误的清洗任务性能优于其他智能数据清洗系统15%以上。 展开更多
关键词 数据清洗 数据质量评估 流水线系统设计 算子选择 证据集
在线阅读 下载PDF
基于IKNN和LOF的变压器回复电压数据清洗方法研究 被引量:4
9
作者 陈啸轩 邹阳 +3 位作者 翁祖辰 林锦茄 林昕亮 张云霄 《电子测量与仪器学报》 CSCD 北大核心 2024年第2期92-100,共9页
基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近... 基于回复电压极化谱提取特征参量是目前广泛应用的变压器油纸绝缘状态评估方法,但极化谱易受工况干扰、人工失误等因素影响而出现特征数据异常的情况,严重降低评估准确性。针对上述问题,该文提出了一种基于局部离群因子(LOF)和改进K最近邻(IKNN)的回复电压数据清洗方法。首先,选取回复电压极化谱的回复电压极大值Urmax、初始斜率Sr与主时间常数tcdom作为老化特征参量,并基于LOF算法对非标准极化谱中的异常特征量数据进行识别与筛除。其次,利用模糊C均值(FCM)聚类算法减小噪声点对KNN算法的干扰,并通过加权欧氏距离标度突出各特征量间的关联性,进而构建出基于IKNN的数据填补模型架构以实现特征缺失数据的填补。最后,代入多组实测数据验证所提数据清洗方法的实效性。结果表明,数据清洗后的状态评估准确率相较于原有数据上升了50%左右,有效提高了变压器回复电压数据质量,为准确感知变压器运行状况奠定坚实的基础。 展开更多
关键词 油纸绝缘 特征数据清洗 局部离群因子算法 回复电压极化谱 改进K最近邻算法
在线阅读 下载PDF
基于规则库与PRRL模型的风电功率数据清洗方法 被引量:1
10
作者 杨海能 唐杰 +2 位作者 邵武 刘白杨 陈日恒 《太阳能学报》 CSCD 北大核心 2024年第12期416-425,共10页
为提升风电场原始数据中异常数据的识别精度,提出一种结合规则库与PRRL模型的风电场数据清洗方法。首先依据风电场装机容量等参数建立规则库,提高数据集中正常数据占比。其次,以RANSAC稳健回归算法为核心,线性回归模型为基础,将风速数... 为提升风电场原始数据中异常数据的识别精度,提出一种结合规则库与PRRL模型的风电场数据清洗方法。首先依据风电场装机容量等参数建立规则库,提高数据集中正常数据占比。其次,以RANSAC稳健回归算法为核心,线性回归模型为基础,将风速数据作为输出,同时扩展输入变量的多项式特征来捕捉风速与功率之间的非线性关系,构建PRRL稳健回归模型。该模型经过规则库处理后的数据训练,可有效识别原始数据中的异常数据。通过对湖南某风电场的实例数据进行应用测试,结果显示该方法在处理异常数据占比较高数据时,能有效识别其中的异常数据,并降低风电功率预测模型的预测误差。 展开更多
关键词 风电场 数据清洗 异常检测 规则库 回归分析 稳健回归分析
在线阅读 下载PDF
基于自编码的改进K-means光伏能源数据清洗方法 被引量:6
11
作者 彭勃 李耀东 龚贤夫 《计算机科学》 CSCD 北大核心 2024年第S01期713-717,共5页
智能电网的发展带来了海量能源数据,数据质量是开展数据价值挖掘等任务的基础。然而,多源海量光伏能源数据的采集与传输过程中不可避免地存在异常数据,因此需要进行数据清洗。目前,基于传统统计机器学习的数据清洗模型存在一定的局限性... 智能电网的发展带来了海量能源数据,数据质量是开展数据价值挖掘等任务的基础。然而,多源海量光伏能源数据的采集与传输过程中不可避免地存在异常数据,因此需要进行数据清洗。目前,基于传统统计机器学习的数据清洗模型存在一定的局限性。文中提出了一种基于Transformer自编码结构的改进型K-means聚类模型,用于能源大数据清洗。该模型通过肘部法则自适应地确定聚类簇数,并利用自编码网络对聚类内数据进行压缩和重构,从而实现异常数据的检测和恢复。同时,模型利用Transformer的多头注意力机制学习数据间的相关特征,提高了对异常数据的筛查能力。在光伏发电公开数据集上的实验证明,与其他方法相比,该模型具有更好的异常数据检测效果,筛查准确率可达96%以上。此外,所提模型能在一定程度上恢复异常数据,为能源大数据应用提供了有效的支持。 展开更多
关键词 自编码 数据清洗 异常检测 TRANSFORMER K-MEANS
在线阅读 下载PDF
基于机器学习的矿井通风数据清洗系统设计 被引量:3
12
作者 刘国榜 朱政 方挺 《金属矿山》 CAS 北大核心 2024年第9期190-197,共8页
针对矿山通风系统数据中普遍存在的噪声、异常值和冗余等问题,提出了一种基于机器学习的数据清洗方法,旨在为矿井智能风险预警、通风策略调整和环境管理等决策过程提供可靠数据。构建了一个包含环境监测参数、风机运行参数和安全运营参... 针对矿山通风系统数据中普遍存在的噪声、异常值和冗余等问题,提出了一种基于机器学习的数据清洗方法,旨在为矿井智能风险预警、通风策略调整和环境管理等决策过程提供可靠数据。构建了一个包含环境监测参数、风机运行参数和安全运营参数等关键参数的数据集,该数据集支持数据清洗算法开发,并且作为评估数据清洗方法的基准。基于构建的数据集,提出了一种综合性的机器学习驱动的数据清洗框架。首先,采用自回归模型对时间序列数据中的缺失值进行估计和填补,该模型能够有效利用数据的时间相关性,提高缺失数据处理的准确性。其次,引入孤立森林算法,通过构建多个随机树来孤立和识别数据点,该模型适合处理高维通风数据中的异常检测问题,能够有效提高异常值的识别率。最后,使用K-均值聚类算法,通过分析数据特征将相似数据点聚合,以减少重复或相似的数据记录。试验结果表明,提出的数据清洗方法有效提高了矿井通风数据质量,为矿井通风管理提供了高质量的数据支持,展现出良好的工程应用价值。 展开更多
关键词 矿井通风 智慧矿山 通风系统 机器学习 数据清洗
在线阅读 下载PDF
基于KD-Tree与DBSCAN的水电机组状态监测数据清洗方法 被引量:1
13
作者 谭志锋 姬联涛 +2 位作者 荆岫岩 王璞 田海平 《中国农村水利水电》 北大核心 2024年第3期250-254,共5页
针对水电机组状态监测数据量逐步增大,数据质量差的问题,提出了一种基于改进K维树(K-Dimensional Tree,KD-Tree)与基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)的水电机组状态监测数... 针对水电机组状态监测数据量逐步增大,数据质量差的问题,提出了一种基于改进K维树(K-Dimensional Tree,KD-Tree)与基于密度的空间聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)的水电机组状态监测数据清洗方法,首先对输入数据建立KD-Tree,再使用DBSCAN在最近邻样本上扫描完成聚类,聚类结束以后会分离出噪声点,将噪声点去除即可完成对水电机组状态监测数据清洗。选取某水电站状态监测系统上导摆度数据1 088条,再以相同时间间隔插入随机数据100条,通过算例与常规DBScan、K-means、OCSVM算法对比聚类性能与时间性能,所提出的方法识别正确率最高,为97.78%,消耗时间最少,为0.007 732 s,数据清洗效果最优,并可以大幅减少计算时间。 展开更多
关键词 KD-TREE DBSCAN 水电机组 状态监测 数据清洗
在线阅读 下载PDF
领域无关数据清洗研究综述 被引量:27
14
作者 曹建军 刁兴春 +1 位作者 汪挺 王芳潇 《计算机科学》 CSCD 北大核心 2010年第5期26-29,共4页
对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍... 对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍。最后对领域无关数据清洗的研究方向进行了展望。 展开更多
关键词 数据质量 数据清洗 数据集成 领域无关数据清洗
在线阅读 下载PDF
基于任务合并的并行大数据清洗过程优化 被引量:50
15
作者 杨东华 李宁宁 +2 位作者 王宏志 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2016年第1期97-108,共12页
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导... 数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率. 展开更多
关键词 数据 多任务优化 海量数据 数据清洗 HADOOP MAPREDUCE
在线阅读 下载PDF
基于时间序列分析的输变电设备状态大数据清洗方法 被引量:90
16
作者 严英杰 盛戈皞 +3 位作者 陈玉峰 江秀臣 郭志红 秦少鹏 《电力系统自动化》 EI CSCD 北大核心 2015年第7期138-144,共7页
数据清洗是输变电设备状态评估数据预处理的一个关键步骤,有助于提高数据质量和数据利用率。文中将设备状态信息等效成各状态量的时间序列,提出了一种基于时间序列分析的双循环迭代检验法。首先,将时间序列中的异常数据进行了分类,并将... 数据清洗是输变电设备状态评估数据预处理的一个关键步骤,有助于提高数据质量和数据利用率。文中将设备状态信息等效成各状态量的时间序列,提出了一种基于时间序列分析的双循环迭代检验法。首先,将时间序列中的异常数据进行了分类,并将缺失值归纳为其中一类异常值。然后,分析了不同类别异常值对时间序列模型的影响,并阐述了迭代检验法的实现步骤。最后,利用所述方法对南网某变压器和线路的监测数据进行了数据清洗,结果表明该方法能识别并修正数据中的噪声点,填补缺失值,满足数据清洗要求。 展开更多
关键词 数据 数据清洗 时间序列 电力设备状态数据
在线阅读 下载PDF
数据清洗及其一般性系统框架 被引量:32
17
作者 曹建军 刁兴春 +1 位作者 陈爽 邵衍振 《计算机科学》 CSCD 北大核心 2012年第S3期207-211,共5页
数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故... 数据清洗是提高数据质量的重要手段之一。从数据产品与传统的有形产品、软件产品相类比的视角,研究数据清洗及其系统框架。数据清洗是数据质量研究的起点,从数据质量发展的角度明确数据清洗的地位和作用,并将其类比为其他产品形式的故障诊断与维修。对数据清洗做了10点说明,进一步澄清了其基本内涵;将数据清洗与数据集成进行了比较分析,指出二者是同等的数据质量概念。提出了数据清洗的一般性系统框架,其由准备、检测、定位、修正、验证5部分组成,允许在多处停止以完成不同的数据清洗任务,是一个柔性的、可扩展的、交互性好的、松耦合的框架。 展开更多
关键词 数据质量 数据清洗 相似重复记录 不完整记录 框架
在线阅读 下载PDF
基于动态可配置规则的数据清洗方法 被引量:19
18
作者 朱会娟 蒋同海 +3 位作者 周喜 程力 赵凡 马博 《计算机应用》 CSCD 北大核心 2017年第4期1014-1020,共7页
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集... 针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。 展开更多
关键词 数据 数据质量 数据清洗 动态可配置规则 数据预处理
在线阅读 下载PDF
面向众包数据清洗的主动学习技术 被引量:19
19
作者 叶晨 王宏志 +1 位作者 高宏 李建中 《软件学报》 EI CSCD 北大核心 2020年第4期1162-1172,共11页
传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于... 传统方法多数采用机器学习算法对数据进行清洗.这些方法虽然能够解决部分问题,但存在计算难度大、缺乏充足的知识等局限性.近年来,随着众包平台的兴起,越来越多的研究将众包引入数据清洗过程,通过众包来提供机器学习所需要的知识.由于众包的有偿性,研究如何将机器学习算法与众包有效且低成本结合在一起是必要的.提出了两种支持基于众包的数据清洗的主动学习模型,通过主动学习技术来减少众包开销,实现了对给定的数据集基于真实众包平台的数据清洗,最大程度减少成本的同时提高了数据的质量.在真实数据集上的实验结果验证了所提模型的有效性. 展开更多
关键词 众包 数据清洗 主动学习 机器学习 领域专家
在线阅读 下载PDF
对基于SNM数据清洗算法的优化 被引量:18
20
作者 张建中 方正 +1 位作者 熊拥军 袁小一 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第6期2240-2245,共6页
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按... 对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。 展开更多
关键词 数据挖掘 数据清洗 重复记录 SNM算法
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部