期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
一种基于总线模型的数据清洗方法 被引量:2
1
作者 杨梦宁 赵鹏 +1 位作者 张小洪 李朋 《计算机科学》 CSCD 北大核心 2010年第4期224-226,共3页
数据清洗是保证数据质量的重要环节。已有的清洗方法往往过于依赖特定应用,不容易得到重用。从提高数据清洗方法的可重用性和可扩展性的角度出发,提出一种基于总线模型可复用的数据清洗框架。具有相对独立功能的清洗工具以组件的形式,... 数据清洗是保证数据质量的重要环节。已有的清洗方法往往过于依赖特定应用,不容易得到重用。从提高数据清洗方法的可重用性和可扩展性的角度出发,提出一种基于总线模型可复用的数据清洗框架。具有相对独立功能的清洗工具以组件的形式,通过适配器挂接到清洗总线上,通过总线控制对清洗组件实现清洗。最后用具体应用来描述基于总线模型的数据清洗方法的工作流程。实践结果证明该方法具有良好的性能和应用价值。 展开更多
关键词 数据清洗 总线模型 组件 可复用
在线阅读 下载PDF
南水北调中线总干渠水情数据智能清洗 被引量:3
2
作者 陈晓楠 顾起豪 +2 位作者 张召 靳燕国 顾沁扬 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第3期436-444,共9页
南水北调中线总干渠水位、流量等实时水情数据受外界扰动、测量系统误差等因素影响而产生的病态水情数据将造成调度模型计算失真,甚至导致计算失败。为此,针对上下游流量数据空间上的逻辑错误和水位数据时间序列的跳变,分别建立基于粒... 南水北调中线总干渠水位、流量等实时水情数据受外界扰动、测量系统误差等因素影响而产生的病态水情数据将造成调度模型计算失真,甚至导致计算失败。为此,针对上下游流量数据空间上的逻辑错误和水位数据时间序列的跳变,分别建立基于粒子群优化的水量平衡模型和指数加权滑动平均模型,对病态水情数据在空间、时间上实施横向、纵向清洗处理。以穿黄节制闸至漳河节制闸间的渠段为典型研究区间,利用模型自动识别流量倒挂点,并对该渠段涉及的12座节制闸、26处分水点的流量数据进行统一修正,实现了上下游逻辑上的合理性。同时,选取研究渠段内的闫河节制闸为代表,在48 h内运行基本稳定状态下,对每2 h的闸前水位数据序列进行分析,自动识别出跳变数据并进行合理修正。结果表明:建立的模型可自动识别病态水情数据并进行智能清洗,处理后的数据能够较好地满足输水调度分析决策的需要,因此该模型具有推广应用的价值。 展开更多
关键词 南水北调中线 数据清洗 输水调度 粒子群优化算法 指数加权滑动平均模型
在线阅读 下载PDF
南水北调中线工程流量监测站点倒挂数据清洗模型及应用 被引量:10
3
作者 位文涛 靳燕国 +3 位作者 张召 雷晓辉 薛萍 王艺霖 《南水北调与水利科技(中英文)》 CAS 北大核心 2022年第6期1158-1167,共10页
以南水北调中线工程为研究对象,针对调度运行中出现监测站点流量倒挂的数据异常现象,基于水量动态平衡原理及区间流量最长序列法,构建流量监测站点倒挂数据清洗模型。以中线工程白河至黄金河河段为例,基于模型清洗后的流量数据作为上边... 以南水北调中线工程为研究对象,针对调度运行中出现监测站点流量倒挂的数据异常现象,基于水量动态平衡原理及区间流量最长序列法,构建流量监测站点倒挂数据清洗模型。以中线工程白河至黄金河河段为例,基于模型清洗后的流量数据作为上边界条件,构建水动力模型进行验证。结果表明:清洗模型消除了流量监测数据中存在的倒挂现象,提高了流量监测数据的质量,并发现节制闸流量监测设备存在的监测数据偏差及闸门调控的干扰是造成该现象的主要原因;水动力数值模拟的闸前水位平均绝对误差减少0.075 7 m,均方根误差减小0.089 5m,清洗后的流量数据在数据空间的逻辑性、一致性等方面优于实测流量数据。 展开更多
关键词 南水北调中线工程 数据清洗 流量倒挂 水量平衡 输水损失 水动力模型
在线阅读 下载PDF
基于数据清洗和知识迁移的变压器故障诊断模型 被引量:17
4
作者 白浩 王昱力 《电工电能新技术》 CSCD 北大核心 2020年第1期28-35,共8页
变压器是保障电网安全运行的重要基础,本文建立了一种基于数据清洗和知识迁移的变压器故障诊断模型,用于解决变压器单体故障数据少、总体数据繁杂导致诊断器泛化能力低的问题。首先,采用Tanimoto系数计算待诊断变压器与其他变压器故障... 变压器是保障电网安全运行的重要基础,本文建立了一种基于数据清洗和知识迁移的变压器故障诊断模型,用于解决变压器单体故障数据少、总体数据繁杂导致诊断器泛化能力低的问题。首先,采用Tanimoto系数计算待诊断变压器与其他变压器故障的综合相似度,对辅助故障数据进行一次清洗;其次,通过剔除奇异边缘附近故障数据,对目标和辅助故障数据进行二次清洗;在两次数据清洗的基础上,以支持向量机作为迁移学习算法TrAdaBoost的基本分类算法,通过迭代不断调整目标故障数据和辅助故障数据的权重,将辅助故障数据中的有效知识迁移至故障诊断器,得到基于迁移学习的变压器故障诊断器模型。测试结果表明数据清洗和知识迁移能够有效提高诊断效率以及故障识别的准确性。 展开更多
关键词 变压器 故障诊断模型 知识迁移 数据清洗 TrAdaBoost算法
在线阅读 下载PDF
农业微气象观测数据清洗和质控技术研究 被引量:3
5
作者 周强 《湖北农业科学》 2020年第14期37-40,51,共5页
基于农田特有气象观测设备和环境属性,建立农业气象数据清洗标准和质控方法,以提升农业气象观测数据质量。针对数据属性异常和重复记录情形,选取Bohn数据清洗模型的空缺值清洗方法和噪声数据清洗方法。通过农业微气象观测站点空间内观... 基于农田特有气象观测设备和环境属性,建立农业气象数据清洗标准和质控方法,以提升农业气象观测数据质量。针对数据属性异常和重复记录情形,选取Bohn数据清洗模型的空缺值清洗方法和噪声数据清洗方法。通过农业微气象观测站点空间内观测要素历史数据统计,获取清洁数据指标,应用于数据质量动态阈值生成方法,建立农业微气象数据质量控制模型。清洗质控后的数据评估指标表明,经过数据清洗和质控模型后数据准确率和重复性均有明显改善。数据清洗质控方法有助于准确获取农业气象灾害监测信息,为农业的防灾减灾提供有效决策支撑。 展开更多
关键词 农业微气象 数据质控 bohn数据清洗模型
在线阅读 下载PDF
基于改进GMM算法的综合能源数据清洗研究 被引量:4
6
作者 杨柳林 胡贺骏 《电子测量技术》 北大核心 2023年第4期78-83,共6页
针对数据中台在采集数据过程中会产生异常值的问题,提出一种改进GMM算法的数据清洗方法。首先,将边缘计算引入来解决负载过大的问题;其次,为避免EM算法计算参数时陷入局部最优解,通过对GMM算法中的参数进行优化,改善了陷入局部最优解的... 针对数据中台在采集数据过程中会产生异常值的问题,提出一种改进GMM算法的数据清洗方法。首先,将边缘计算引入来解决负载过大的问题;其次,为避免EM算法计算参数时陷入局部最优解,通过对GMM算法中的参数进行优化,改善了陷入局部最优解的缺点。实验结果表明,一定的数据量下,改进的GMM算法在召回率、F值等指标上均优于GMM-EM算法。由此可知,改进算法在一定程度上提高了对异常数据的清洗效果,保证数据的可靠性。 展开更多
关键词 综合能源 数据中台 数据清洗 高斯混合模型 粒子群算法
在线阅读 下载PDF
融合粒子群算法改进XML数据智能清洗策略
7
作者 刘波 杨路明 邓云龙 《智能系统学报》 2008年第3期226-233,共8页
针对XML数据质量问题,以XML键为基础、借助多模板隐马尔可夫模型信息抽取策略与粒子群算法构建新的XML数据清洗方法;为了提高XML相似性数据并行检测效率,尝试利用波函数对粒子群算法进行相应优化.对比其他XML数据清洗算法,一系列仿真实... 针对XML数据质量问题,以XML键为基础、借助多模板隐马尔可夫模型信息抽取策略与粒子群算法构建新的XML数据清洗方法;为了提高XML相似性数据并行检测效率,尝试利用波函数对粒子群算法进行相应优化.对比其他XML数据清洗算法,一系列仿真实验表明改进的XML数据清洗方法不仅自适应学习功能强、人工参与程度低、计算量小,而且时间性能有94%左右提升. 展开更多
关键词 XML键 粒子群算法 数据清洗 隐马尔可夫模型
在线阅读 下载PDF
基于机器学习的配电网异常缺失数据动态清洗方法 被引量:17
8
作者 梅玉杰 李勇 +3 位作者 周王峰 郭钇秀 邓威 乔学博 《电力系统保护与控制》 EI CSCD 北大核心 2023年第7期158-169,共12页
针对传统配电网数据清洗过程中异常数据判断阈值需要人为设定、缺失数据填补效率不佳的局限性,提出基于机器学习的配电网异常缺失数据一体化动态清洗方法。首先,基于局部异常因子检测算法和高斯混合模型,提出一种异常数据动态检测改进算... 针对传统配电网数据清洗过程中异常数据判断阈值需要人为设定、缺失数据填补效率不佳的局限性,提出基于机器学习的配电网异常缺失数据一体化动态清洗方法。首先,基于局部异常因子检测算法和高斯混合模型,提出一种异常数据动态检测改进算法,实现配电网异常数据阈值的准确自动选择。其次,基于随机森林算法与最小二乘回归法,提出一种配电网缺失数据动态填补算法。根据缺失数据时间长度自适应优化填补算法,在保证数据填补精度的同时降低计算时间。在此基础上,通过异常数据检测和缺失数据填补共同构建一体化动态清洗架构。采用湖南某地区配电网数据进行实例验证,结果表明所提方法可实现异常辨识阈值准确自动选择,有效检测配电网异常数据,并且实现缺失数据填补精度与速度的平衡,具有较好的工程应用价值。 展开更多
关键词 配电网 数据清洗 异常数据辨识 缺失数据填补 高斯混合模型 随机森林
在线阅读 下载PDF
面向仓储的RFID数据清洗技术研究 被引量:2
9
作者 柴文超 汤洪涛 吴光华 《机电工程》 CAS 2017年第12期1474-1479,共6页
针对仓储中无线射频识别(RFID)原始数据的不可靠性问题,对仓储中RFID数据冗余和事件流乱序问题进行了研究,提出了一种面向仓储的RFID数据清洗模型。首先对仓储中RFID数据存在的问题进行了描述,建立了冗余数据和事件流乱序问题产生的抽... 针对仓储中无线射频识别(RFID)原始数据的不可靠性问题,对仓储中RFID数据冗余和事件流乱序问题进行了研究,提出了一种面向仓储的RFID数据清洗模型。首先对仓储中RFID数据存在的问题进行了描述,建立了冗余数据和事件流乱序问题产生的抽象场景;然后结合RFID仓储数据清洗模型提出了相应的冗余数据清洗和事件流乱序修正算法,并介绍了相应算法的改进之处及具体实现步骤;最后利用读写器检测模型构造了RFID原始数据流,通过不同实验参数对记录数量和正确率指标进行了实验测试。研究结果表明:提出的数据清洗方法可以有效去除冗余数据并提高RFID事件输出的正确率。 展开更多
关键词 无线射频识别 数据清洗模型 冗余数据清洗 乱序事件流修正
在线阅读 下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:16
10
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 Word2Vec 词向量模型 SCI地址字段
在线阅读 下载PDF
改进的XML智能数据清洗策略
11
作者 翟学敏 刘渊 +1 位作者 刘波 毕蓉蓉 《计算机工程》 CAS CSCD 北大核心 2009年第4期66-68,71,共4页
针对XML数据的质量问题,以XML键为基础,借助多模板隐马尔可夫模型信息抽取策略与粒子群优化算法构建新的XML数据清洗方法。为了提高XML相似性数据并行检测效率,利用波函数对粒子群优化算法进行优化。仿真实验表明,与其他XML数据清洗算... 针对XML数据的质量问题,以XML键为基础,借助多模板隐马尔可夫模型信息抽取策略与粒子群优化算法构建新的XML数据清洗方法。为了提高XML相似性数据并行检测效率,利用波函数对粒子群优化算法进行优化。仿真实验表明,与其他XML数据清洗算法相比,该方法的自适应学习能力强、人工参与程度低、计算量小,时间性能有94%左右的提升。 展开更多
关键词 XML文档集 XML键 粒子群优化算法 数据清洗 隐马尔可夫模型
在线阅读 下载PDF
数据库技术在机车清洗中的应用 被引量:2
12
作者 吴正国 《现代电子技术》 2011年第12期14-16,共3页
为了实现对机车清洗系统智能化检测与控制,对机车清洗系统数据库进行了需求分析并建立了其数据库系统E-R模型。利用Access数据库可移植性好的特点,结合VB 6.0来建立机车清洗机的数据库系统,使得数据库强大的存储能力和数据处理能力与VB... 为了实现对机车清洗系统智能化检测与控制,对机车清洗系统数据库进行了需求分析并建立了其数据库系统E-R模型。利用Access数据库可移植性好的特点,结合VB 6.0来建立机车清洗机的数据库系统,使得数据库强大的存储能力和数据处理能力与VB优秀的编程能力结合起来。对数据库的建立过程做了分析并给出了使用VB 6.0开发的应用程序连接和操作数据库的关键程序代码。该系统具有稳定可靠,界面友好,操作方便的特点,在实车上应用提高了机车清洗机的自动化应用水平。 展开更多
关键词 数据 机车清洗 MS ACCESS VB6.0 实体-联系模型
在线阅读 下载PDF
数据仓库中ETL技术的研究 被引量:120
13
作者 张宁 贾自艳 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第24期213-216,共4页
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL... 作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。 展开更多
关键词 数据仓库 ETL 数据 数据模型 数据抽取 数据转换 数据清洗 数据装载
在线阅读 下载PDF
基于数据仓库的企业管理决策支持系统 被引量:13
14
作者 张志军 夏传良 宋玲 《计算机应用与软件》 CSCD 北大核心 2005年第6期65-66,114,共3页
本文首先讨论基于数据仓库的决策支持系统的优越性,给出一种实现模型。并就建立数据仓库的关键技术进行讨论。提出一种新的实现数据清洗和过滤的方法,并且比较数据立方体的三种存储模型,最后给出量化结果。
关键词 管理决策支持系统 数据仓库 企业 数据立方体 实现模型 关键技术 数据清洗 存储模型
在线阅读 下载PDF
基于模型预测和溯因推理网络的电网故障诊断方法 被引量:4
15
作者 刘晓琴 王大志 +1 位作者 张翠玲 宁一 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第4期472-476,480,共6页
考虑电网出现故障时,仅依靠开关量状态信息进行诊断,诊断信息冗余度低,复杂故障情况下会影响诊断结果的准确性.引入电气量信息,提出了模型预测和数据清洗方法,建立电网故障诊断系统.利用模型预测得到准确的电气量信息,建立清洗规则和逻... 考虑电网出现故障时,仅依靠开关量状态信息进行诊断,诊断信息冗余度低,复杂故障情况下会影响诊断结果的准确性.引入电气量信息,提出了模型预测和数据清洗方法,建立电网故障诊断系统.利用模型预测得到准确的电气量信息,建立清洗规则和逻辑推理规则,分别对开关量进行数据清洗和验证故障信息.在此基础上,利用溯因推理网络(abductive reasoning network,ARN)对故障信息进行诊断,得出候选故障.仿真结果验证了该方法的有效性和准确性. 展开更多
关键词 故障 诊断 数据清洗 模型预测 溯因推理网络
在线阅读 下载PDF
面向知识服务的知识库逻辑结构模型 被引量:24
16
作者 蒋勋 徐绪堪 《图书与情报》 CSSCI 北大核心 2013年第6期23-31,共9页
由传统的文献信息服务,提升到用于解决实际问题的知识服务,必须以高效的知识获取作为支撑,有效地推动知识服务并拓宽其服务领域。文章从知识服务的角度架构知识库逻辑结构模型,分析知识库逻辑结构,并以知识获取为驱动来构建知识库逻辑... 由传统的文献信息服务,提升到用于解决实际问题的知识服务,必须以高效的知识获取作为支撑,有效地推动知识服务并拓宽其服务领域。文章从知识服务的角度架构知识库逻辑结构模型,分析知识库逻辑结构,并以知识获取为驱动来构建知识库逻辑结构的理论框架,探索结构一般规律,形成知识获取的新模式。根据推理范畴探究知识点之间存在的映射关系并提出知识的简约表示,解决了知识存储与知识推理两难问题;引入非数据的清洁度机制,保障了知识的简约表示的效用,使得能从知识库中获取满足清洁度的查询结果且适应不同知识服务的合理化需求,保障知识服务水平的提升。 展开更多
关键词 知识服务 知识组织 知识库 逻辑结构模型 知识表示 数据清洗
在线阅读 下载PDF
基于混合高斯模型与Copula函数结合的光伏电站功率相依结构建模 被引量:13
17
作者 朱晓荣 金绘民 王羽凝 《太阳能学报》 EI CAS CSCD 北大核心 2019年第7期1912-1919,共8页
考虑光伏电站输出功率概率分布特点以及光伏电站间输出功率的相关性,结合混合高斯模型(GMM)和混合Copula函数,提出一种光伏电站间输出功率相依结构模型。以青海2个光伏电站的实测数据为例进行分析,对原始数据进行清洗,基于此将提出的模... 考虑光伏电站输出功率概率分布特点以及光伏电站间输出功率的相关性,结合混合高斯模型(GMM)和混合Copula函数,提出一种光伏电站间输出功率相依结构模型。以青海2个光伏电站的实测数据为例进行分析,对原始数据进行清洗,基于此将提出的模型与常规基于核密度估计的Copula函数模型进行对比,验证所建模型的有效性。 展开更多
关键词 光伏发电系统 混合高斯模型 相关性理论 相依结构 数据清洗
在线阅读 下载PDF
基于内容相关的条件函数依赖的一致性清洗方法 被引量:1
18
作者 杜岳峰 申德荣 +1 位作者 张亮 于戈 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第12期1683-1687,共5页
基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条... 基于条件函数依赖提出了一种内容相关的条件函数依赖,并给出基于内容相关的条件函数依赖的一致性清洗方法.通过分析条件函数依赖之间的关系,将相关联的条件函数依赖合并组成内容相关的条件函数依赖.内容相关的条件函数依赖可以检测多条件值下的数据一致性问题并提供可用于一致性修复的参考值.同时,提出了一种一致性修复的代价模型.模型参考内容相关的条件函数依赖对应元组的实际情况进行修复,实现代价最优,同时保证数据一致性.通过在两组真实数据集上进行试验测试,证明提出的基于内容相关的条件函数依赖的一致性清洗方法能够准确地检测数据的一致性问题并加以修复. 展开更多
关键词 数据清洗 条件函数依赖 内容相关 数据一致性 修复代价模型
在线阅读 下载PDF
面向流程企业数据仓库的设计与应用 被引量:2
19
作者 闫伟 童祯恭 廖西亮 《计算机集成制造系统》 EI CSCD 北大核心 2006年第6期899-904,共6页
建立了应用于某流程企业的数据仓库。首先分析了数据的不同来源,设计了基于此数据源的数据清洗工具,提出数据清洗时遇到的技术问题和解决方案,并着重分析了罩盖技术检查重复数据的过程。采用数据仓库-实体联系概念模型设计了生产费用、... 建立了应用于某流程企业的数据仓库。首先分析了数据的不同来源,设计了基于此数据源的数据清洗工具,提出数据清洗时遇到的技术问题和解决方案,并着重分析了罩盖技术检查重复数据的过程。采用数据仓库-实体联系概念模型设计了生产费用、油气生产、干气和副产品库存为主题的数据仓库,并用商业智能插件实现了联机分析处理对数据仓库的查询。采用了基于主成分分析和拉格朗日公式的支持向量机方法建立了此公司各产品产量的分析预测模型,实现了用干气预测原料气和副产品的功能,获得了良好的经济效益。 展开更多
关键词 数据仓库 数据清洗工具 罩盖技术 数据仓库-实体联系概念模型 支持向量机方法
在线阅读 下载PDF
基于业务规则的数据处理技术 被引量:1
20
作者 余晓平 刘丽娅 肖婧 《石河子大学学报(自然科学版)》 CAS 2009年第1期130-132,共3页
以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数... 以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数据分别给出清洗的业务规则,使用SQL Server的DTS工具予以实现并上线使用。 展开更多
关键词 业务规则 概念模型 实例整合 数据抽取-清洗-转换
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部