-
题名面向数据质量的ETL过程建模与实现
被引量:23
- 1
-
-
作者
贾自艳
黄友平
罗平
李嘉佑
秦亮曦
史忠植
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
-
出处
《系统仿真学报》
CAS
CSCD
2004年第5期907-911,914,共6页
-
基金
国家自然科学基金(60173017
90104021)
北京自然科学基金(4011003)
-
文摘
为了给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-装载(Extraction-Transformation-loading,ETL)这一系列的预处理工作。复杂性和可用性是制约ETL系统的两大基本问题。为解决这些问题,给出了ETL过程统一的体系结构设计,包括ETL元数据对象建模、ETL转换函数设计、ETL任务建模以及ETL任务模型的描述语言(XTDL)。基于该体系结构和设计思想开发出一个ETL系统—MSETL,目的是为多策略数据挖掘平台(MSMiner)提供高质量的数据。它提供友好界面并对ETL过程进行统一的元数据管理,包括:ETL转换函数的注册和删除;任务模型的生成、执行和删除等功能。
-
关键词
数据仓库
数据质量
抽取-转换-装载(ETL)
数据挖掘
数据清洗
-
Keywords
data warehouse
data quality
extraction-transformation-loading (ETL)
data mining
data cleaning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名面向数据质量的ETL框架的设计与实现
被引量:20
- 2
-
-
作者
李庆阳
彭宏
-
机构
华南理工大学计算机科学与工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第9期2057-2060,共4页
-
基金
广东省自然科学基金项目(07006474)
广东省科技攻关基金项目(2007B010200044)
-
文摘
针对传统抽取-转换-装载(ETL)架构在数据质量控制方面的不足,提出一种面向数据质量管理的ETL架构。根据ETL过程的特点,设计多数据源接口模块、ETL元数据描述模块、ETL任务描述模块和数据质量控制模块等。该架构以数据质量为核心,通过建立数据分析模型,利用规则推导引擎对数据分析结果生成数据清洗方案,从而有效地对数据流进行质量评估和管理。基于该设计思想开发一个ETL工具-DQETL。DQETL采用统一建模语言进行设计,并提供友好界面对ETL过程进行集中管理。最后,结合实例阐述了在该框架下进行数据质量管理的一般步骤。
-
关键词
数据仓库
数据质量
抽取-转换-装载(ETL)
规则推导
数据清洗
-
Keywords
data warehouse
data quality
extract-transform-load (ETL)
rule deduction
data cleaning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于规则引擎的数据清洗
被引量:18
- 3
-
-
作者
叶舟
王东
-
机构
上海交通大学软件学院
-
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第23期52-54,共3页
-
文摘
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。
-
关键词
规则引擎
数据清洗
抽取-转换-装载
-
Keywords
Rules engine
Data cleansing
Extraction-transformation-loading(ETL)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于统一视图的数据仓库体系结构及其构建方法
被引量:1
- 4
-
-
作者
宋旭东
银晓明
宋亮
刘晓冰
-
机构
大连交通大学
大连理工大学
朝阳师范高等专科学校
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第4期1384-1385,1388,共3页
-
基金
国家自然科学基金资助项目(70572098)
-
文摘
为了构建支持企业决策分析的数据仓库,分析了传统数据仓库模型的局限性,提出了一个基于统一视图模型的数据仓库体系结构。该体系结构是在传统数据仓库模型的数据源和数据仓库之间增加一个统一标准层,并利用统一视图—资源数据和数据仓库—统一视图的两级映射,保证了数据的透明访问和模型本身良好的可用性,进而支持灵活的多数据仓库的构建。基于该体系结构,给出了统一视图模型的建立和数据仓库三层之间两级映射的方法,提出了一种新的基于统一视图模型的数据映射—抽取—装载数据仓库ETL建模过程,并开发了相应的数据仓库构建系统。应用表明,该体系结构是可行且有效的。
-
关键词
统一视图模型
数据仓库
映射-抽取-装载
抽取-转换-装载
-
Keywords
uniform view model
data warehouses
mapping-extraction-loading
ETL
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名电信企业通用数据服务平台的设计与实现
- 5
-
-
作者
潘俊
程建和
-
机构
温州大学信息安全研究所
中国电信股份有限公司温州分公司
-
出处
《电信科学》
北大核心
2013年第2期124-128,134,共6页
-
基金
浙江省科技计划基金资助项目(No.2012C33086)
浙江省自然科学基金资助项目(No.LQ12F02008)
温州市科技计划基金资助项目(No.G20100196)
-
文摘
基于.NET框架设计并实现了电信企业通用的数据服务平台,通过ETL过程对业务数据进行清洗和抽取,建立数据集市;采用SOA架构开发数据服务中间件,作为任务调度和数据集查询的代理;通过可快速配置的自定义智能查询方案,自动生成向导式的用户界面。该平台具有配置快速、安全稳定等特点,可同时为一线人员和经营决策人员提供支撑,已成功投入运行。
-
关键词
数据服务
抽取-转换-装载
数据集市
联机分析处理
-
Keywords
data service, ETL, data mart, OLAP
-
分类号
TN915.07
[电子电信—通信与信息系统]
-