题名 面向数据集成的ETL系统设计与实现
被引量:21
1
作者
钟华
冯文澜
谭红星
黄涛
机构
中国科学院软件研究所计算机科学重点实验室
中国科学院软件研究所软件工程技术中心
出处
《计算机科学》
CSCD
北大核心
2004年第9期87-89,F004,共4页
基金
国家863高科技发展计划项目(编号Z002AA113040)
国家重点基础研究发展规划973项目(编号2002CB312005)的资助
文摘
ETL是一类用于从一个或多个业务数据库中抽取数据,进行清理转换并加截到数据仓库中的工具。这个数据抽取、转换和加载的过程能够很好地应用于数据集成领域中,实现不同机构之间数据的交换与整合。通过分析数据集成的一些特点,我们提出了一个ETL过程模型,开发了一个面向数据集成的ETL系统DataIntegrator。本文对ETL过程模型、系统总体结构及若干关键技术进行论述。DataIntegrator已经应用于信息系统的建设中,为企业应用集成提供了很好的支持。
关键词
etl
数据集成
过程模型
数据抽取
企业应用集成
数据仓库
转换
系统总体结构
业务数据
信息系统
Keywords
data integration ,data warehouse,etl
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
F626
[经济管理—产业经济]
题名 数据ETL工具通用框架设计
被引量:27
2
作者
周宏广
周继承
彭银桥
龙思锐
机构
中南大学信息材料与计算科学研究所
出处
《计算机应用》
CSCD
北大核心
2003年第12期96-98,共3页
基金
国家自然科学基金项目 (6 9971 0 0 7
6 0 1 71 0 43 )
文摘
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。
关键词
数据etl
数据集成
数据清洗
Keywords
etl process
data integration
data cleaning
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 ETL综述
被引量:23
3
作者
缪嘉嘉
邓苏
刘青宝
机构
国防科学技术大学
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第3期4-5,21,共3页
文摘
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。
关键词
抽取转换和加载
数据仓库
数据集成
元数据
Keywords
etl
data warehouse
data integration
Metadata
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于ETL的数据集成优化研究与实现
被引量:10
4
作者
王世水
王元元
高应波
机构
贵州大学计算机科学与信息学院
出处
《天津工业大学学报》
CAS
北大核心
2013年第3期78-81,共4页
基金
贵州省科学技术基金项目(黔科合J字[2012]2136号)
文摘
通过分析数据源的数据量和异构数据库系统环境等情况,提出基于ETL技术的异构数据集成优化方案.对实验验证数据与现有集成方法进行对比和效能评估得出结果:该解决方案对异构数据源的集成效率较高,尤其是针对海量数据效果尤其明显.
关键词
异构数据
etl
数据集成
XML
Keywords
heterogeneous data
etl
data integration
xml
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于ETL的金融数据集成过程模型
被引量:5
5
作者
苌程
李善平
机构
浙江大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2010年第9期2070-2072,2104,共4页
文摘
为了将频繁产生的分布在世界各地的金融数据按需地高性能集成,提出了基于ETL(extract-transform-load)的金融数据集成过程模型。对规则引擎原理进行了研究,建立了基于业务转换规则的插件式扩展实现可复用可定制的业务转换过程。利用事件驱动的交互模型和元数据映射保证非结构化和半结构化数据之间无差异集成,采用增量式数据处理解决数据集成中棘手的性能问题。通过实践项目的验证,对比传统数据集成方法和该过程模型,验证了该过程模型的有效性。
关键词
数据抽取转换装载
数据集成
元数据映射
业务规则转换
按需交互
Keywords
etl
data integration
metadata mapping
business rule transform
on demand request
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于模型驱动的ETL模型映射方法
被引量:1
6
作者
姚全珠
白敏
黄蔚
机构
西安理工大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第19期91-93,96,共4页
文摘
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。
关键词
数据抽取-加载-转换技术
逻辑模型
概念模型
数据集成
Keywords
data Extract-Transformation-Load(etl ) technology
logical model
conceptual model
data integration
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
题名 基于ETL技术的电网运行全景建模
被引量:2
7
作者
梁寿愚
周华锋
李矛
机构
中国南方电网电力调度控制中心
出处
《南方电网技术》
2012年第4期53-56,共4页
基金
中国南方电网公司"智能电网"重大科技专项(K201029.1)~~
文摘
在南方电网开展的一体化电网运行智能系统研究和建设中,针对电力二次系统数据的多样性和孤立性现状,提出了利用ETL技术处理信息共享的方案。该方案将多系统模型数据抽取、转换并集成到统一的电网全景模型中为多系统所共用,其正确性和有效性在实践中得到了验证。
关键词
电网运行智能系统
数据集成
全景模型
etl 技术
Keywords
operation smart system of CSG
data integration
panoramic model
etl (extraction transformation loading) technology
分类号
TM732
[电气工程—电力系统及自动化]
题名 基于本体的ETL设计研究
被引量:5
8
作者
吴飞
邢桂芬
邢玉萍
机构
江苏大学计算机科学与通信工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第7期1517-1519,1571,共4页
基金
江苏大学基金项目(1283000122)。
文摘
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成。
关键词
本体
数据抽取
转换与加载
数据集成
数据仓库
元数据
Keywords
ontology
etl
data integration
data warehouse
metadata
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 国土资源数据整合方案设计及其实现研究
被引量:19
9
作者
唐健
沈陈华
周国峰
沈继成
机构
南京师范大学虚拟地理环境教育部重点实验室
南京大学地理与海洋科学学院
常州市国土资源信息中心
出处
《中国土地科学》
CSSCI
北大核心
2009年第9期72-78,共7页
基金
国家自然科学基金项目(40730527)
高校博士点基金项目(20060319004)
文摘
研究目的:基于国土资源数据现状,提出有效整合方案,为国土资源信息化建设提供借鉴。研究方法:以ETL技术框架为基础,结合数据挖掘技术和GIS技术,设计符合国土资源数据整合要求的解决方案,并以常州市为例进行实证研究。研究结果:数据整合方案有效快捷地解决了常州市国土资源数据整合。研究结论:方案智能化提高了数据整合过程的数据分析能力、处理能力和效率,有效地从国土资源数据本身解决了整合难题,对市县级国土资源数据整合有借鉴意义。
关键词
国土资源数据
数据整合
etl 技术
数据挖掘
地理信息系统
Keywords
land resources data
data integration
etl technique
data mining
geographical information system
分类号
P23
[天文地球—摄影测量与遥感]
题名 数字化车间多源异构质量数据集成方案研究
被引量:7
10
作者
张培
黄智源
陈琨
范营营
崔冰华
于艳鹏
机构
西安交通大学制造系统与质量工程研究所
出处
《现代制造工程》
CSCD
北大核心
2015年第1期59-65,共7页
基金
国家科技重大专项资助项目(2012ZX04010-071)
文摘
针对数字化制造中多源异构质量数据信息量大且缺乏统一、规范和标准化数据管理的问题,提出一种基于面向对象技术和基于映像的数据抽取、转换和加载(Extract-Transform-Load,ETL)技术的异构数据集成方案,该方案简单实用,具有很高的通用性,可提高异构数据的提取精度,有效地解决多源异构质量数据集成问题。
关键词
数字化制造
多源异构
面向对象技术
映像
数据抽取
转换和加载(etl )
数据集成
Keywords
digital manufacturing
multi-source heterogeneous
object-oriented technology
mappings
etl
data integration
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 多业务电信数据集成技术研究
被引量:2
11
作者
黄旗明
机构
北京邮电大学计算机学院程控交换技术与通信网国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2004年第2期74-76,共3页
文摘
客户资料集成是形成多电信业务综合营业与综合账务系统的基础,利用抽取清洁转换装载技术和客户信息冲突检测方法实现客户资料集成,通过批处理、时间戳技术提高集成效率。
关键词
数据集成
客户资料
信息模型
抽取转换装载
Keywords
data integration
Customer Information
Information Model
Extracting Transforming and Loading(etl )
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 面向城市基础设施智慧管养的大数据智能融合方法
被引量:7
12
作者
刘佳俊
喻钢
胡珉
机构
上海大学悉尼工商学院
上海大学-上海城建建筑产业化研究中心
出处
《计算机应用》
CSCD
北大核心
2017年第10期2983-2990,2998,共9页
基金
上海市城乡建设和交通委员会建管项目(2014-009-002)
上海市科委重点项目(13511504803)
上海市国资委重大科研项目(2014008)~~
文摘
针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,将数据仓库分为数据临时区、数据仓储区、数据分类区和数据分析区,并根据所分区域将完整的ETL过程划分为4个层次的ETL任务调度环节,同时设计了多频率ETL运行调度以及顺序和非顺序两种ETL工作模式;接着,基于MTS-ETL框架的非顺序工作模式进行数据融合的概念建模、逻辑建模和物理建模;最后,利用Pentaho Data Integration设计ETL转换模块和工作模块以实现数据融合方法。在交通流量数据融合实验中,该方法融合136 754条数据的时间仅为28.4 s;在千量级的数据融合实验中比传统ETL方法的总平均执行时间降低了6.51%;报表分析结果表明其在融合400万条数据时依然能保证ETL过程的可靠性。所提方法能够有效融合运维大数据,提高平台统计分析性能,并维持ETL执行时间开销在较低水平。
关键词
大数据
抽取-转换-加载
数据融合
数据仓库
城市基础设施管养
Keywords
big data
extract-transform-load (etl) , data integration
data warehouse
urban infrastructuremanagement and maintenance
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于逆向清理的实时异构数据整合模型研究
被引量:3
13
作者
唐钰
陈浩
叶柏龙
机构
湖南大学信息科学与工程学院
中南大学土木建筑学院
出处
《计算机工程》
CAS
CSCD
2012年第23期47-50,共4页
基金
国家自然科学基金资助项目(61070194)
国家创新基金资助项目(11C26214305383)
文摘
为解决异构数据整合过程中数据源本身的质量及目标数据的实时更新问题,在适配器、XML和逆向清理等技术的基础上,提出一种基于逆向清理的异构数据整合模型。从两方面对异构数据进行处理,一方面利用实时线程对新增或修改的原始数据进行抽取、清洗并保存,达到数据的实时更新,另一方面利用平台上或整合后的有效数据,采用逆向清理过程反向修复原始数据中的错误和缺失。实验结果证明,该模型能同时提高原始数据和目标数据的质量。
关键词
异构数据
数据整合
逆向清理
etl 过程
适配器
数据质量
Keywords
heterogonous data
data integration
reverse cleaning
Extract
Transform
Load(etl ) process
adapter
data quality
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 大数据环境下基于元模型控制的数据质量保障技术研究
被引量:10
14
作者
杨冬菊
徐晨阳
机构
大规模流数据集成与分析技术北京市重点实验室
北方工业大学云计算研究中心
出处
《计算机工程与科学》
CSCD
北大核心
2019年第2期197-206,共10页
基金
国家自然科学基金重点项目(61832004)
文摘
数据集成环节,越来越丰富的异构源数据给集成后数据质量的提升带来了新的挑战和困难。针对传统ETL模型在数据集成后出现的数据冗余、无效、重复、缺失、不一致、错误值及格式出错等数据质量问题,提出了基于元数据模型控制的ETL集成模型,并对数据集成过程中的各种映射规则进行了详细的定义,通过将抽取、转换、加载环节的元模型和映射机制相结合,能够有效地保证集成后数据的数据质量。提出的元模型已经应用到科技资源管理数据集成业务中。通过科技资源管理数据集成实例分析,验证了此数据集成方案能够有效地支撑大数据环境下数据仓库的构建和集成后数据质量的提升。
关键词
大数据
数据仓库
etl
元数据模型
映射
数据集成
Keywords
big data
data warehouse
etl
metadata model
mapping
data integration
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 面向钢铁行业的能源信息流综合集成框架
被引量:1
15
作者
张福生
柳先辉
丁毅
机构
同济大学电子与信息工程学院
安庆师范学院计算机科学与技术系
马鞍山钢铁股份有限公司
出处
《计算机应用》
CSCD
北大核心
2011年第A02期147-148,180,共3页
基金
安徽省钢铁产业技术创新规划研究项目(09020203014)
文摘
针对目前大型长流程钢铁企业,能源转化关系复杂、能源信息离散等问题,对钢铁生产工序的能源消耗转化和能源信息流动进行了分析研究,提出了一种能源信息流综合集成解决方案。该方案有效地解决企业能源信息孤岛问题。
关键词
数据抽取
转换
集成
XML
etl
BizTalk技术
Keywords
data extraction
transformation
integration
eXtensible Markup Language(XML)
Extraction Transformation and Loading(etl )
BizTalk technology
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]