期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
34
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
ETL中的数据增量抽取机制研究
被引量:
35
1
作者
戴浩
杨波
《计算机工程与设计》
CSCD
北大核心
2009年第23期5552-5555,共4页
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4...
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性。最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准。
展开更多
关键词
数据
抽取
转换
与
加
载
增量
抽取
数据仓库
商业智能
在线阅读
下载PDF
职称材料
一种标准的ETL的设计思想及其实现
被引量:
14
2
作者
程跟上
郑洪源
丁秋林
《计算机应用研究》
CSCD
北大核心
2005年第3期101-103,共3页
元数据在数据仓库系统中占据着十分重要的地位,其中存放着许多重要的信息,尤其是对于数据仓库的ETL过程,可以说是ETL的指挥中心。提出了以CWM元数据模型标准为基础来开发标准的ETL的设计思想,并描述了具体的开发步骤。
关键词
etl
CWM
抽取
元数据
转换
元数据
加
载
元数据
在线阅读
下载PDF
职称材料
ETL综述
被引量:
23
3
作者
缪嘉嘉
邓苏
刘青宝
《计算机工程》
CAS
CSCD
北大核心
2004年第3期4-5,21,共3页
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。
关键词
抽取
转换和
加
载
数据仓库
数据集成
元数据
在线阅读
下载PDF
职称材料
一种通用的多数据库间数据抽取方法及应用
被引量:
16
4
作者
刘如九
张振山
柴天佑
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2008年第4期14-18,共5页
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽...
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作.
展开更多
关键词
数据仓库
数据的
抽取
转换
加
载
数据迁移
关系型数据库
在线阅读
下载PDF
职称材料
基于关键属性比对的增量数据抽取方法
被引量:
4
5
作者
刘胜
杨岳湘
+1 位作者
邓劲生
李阳
《计算机工程与应用》
CSCD
2012年第4期115-117,共3页
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。
关键词
关键属性
增量数据
抽取
全表比对
提取
转换
加
载
(
etl
)
在线阅读
下载PDF
职称材料
通用ETL工具的研究与实现
被引量:
10
6
作者
孙安健
王星
闫晓瑜
《计算机应用与软件》
CSCD
北大核心
2012年第12期175-178,210,共5页
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出...
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。
展开更多
关键词
数据仓库
数据
抽取
数据
转换
数据
加
载
在线阅读
下载PDF
职称材料
基于语义树的非结构化年鉴Excel表格的ETL方法
被引量:
3
7
作者
赵乐
赵宏宇
+1 位作者
刘斌
陈彦如
《计算机应用》
CSCD
北大核心
2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义...
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。
展开更多
关键词
EXCEL表格
抽取
-
转换
-
加
载
语义树
正则表达式
数据仓库
在线阅读
下载PDF
职称材料
基于结构图的ETL过程建模方法
被引量:
5
8
作者
张忠平
赵瑞珍
《计算机应用研究》
CSCD
北大核心
2008年第11期3354-3356,共3页
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联...
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。
展开更多
关键词
数据仓库
抽取
转换
加
载
结构图
模型
在线阅读
下载PDF
职称材料
基于Spark的并行ETL
被引量:
7
9
作者
丁祥武
解书亮
李继云
《计算机工程与设计》
北大核心
2017年第9期2580-2585,共6页
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管...
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。
展开更多
关键词
大数据
数据仓库
抽取、
转换
、
加
载
转换
处理
分布式
火花大数据平台
在线阅读
下载PDF
职称材料
ETL过程的调度控制管理研究
被引量:
3
10
作者
雷培莉
孟丽
《计算机工程与设计》
CSCD
北大核心
2006年第21期4046-4048,共3页
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这...
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。
展开更多
关键词
元数据
抽取
转换
加
载
调度控制
数据仓库
过程
在线阅读
下载PDF
职称材料
结构图ETL概念模型的设计方法
被引量:
3
11
作者
张忠平
赵瑞珍
《计算机工程与应用》
CSCD
北大核心
2009年第6期161-164,共4页
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM...
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。
展开更多
关键词
数据仓库
数据
抽取
转换
加
载
结构图
概念模型
在线阅读
下载PDF
职称材料
基于模型驱动的ETL模型映射方法
被引量:
1
12
作者
姚全珠
白敏
黄蔚
《计算机工程》
CAS
CSCD
北大核心
2009年第19期91-93,96,共4页
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了...
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。
展开更多
关键词
数据
抽取
-
加
载
-
转换
技术
逻辑模型
概念模型
数据集成
在线阅读
下载PDF
职称材料
元数据驱动ETL的研究
被引量:
5
13
作者
宿芳
寿永熙
苏依拉
《计算机工程与应用》
CSCD
2012年第6期114-118,125,共6页
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系...
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。
展开更多
关键词
抽取、
转换和
加
载
(
etl
)
数据仓库
元数据
SQL引擎
包引擎
在线阅读
下载PDF
职称材料
基于商务智能的流程评估系统中ETL的研究
被引量:
8
14
作者
陈玉东
姚青
《计算机工程与设计》
CSCD
北大核心
2014年第8期2752-2756,共5页
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ET...
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ETL解决方案以及流程数据的特点,制定应用于业务流程数据的转换规则,确保流程日志中的数据能够快速准确地转换成评估系统需要的标准数据;设计流程数据转换算法。通过某保险公司的流程数据进行了仿真分析,分析结果表明了该模型的可行性和算法的有效性。
展开更多
关键词
商务智能
流程评估
抽取
转换
加
载
数据
转换
转换
规则
在线阅读
下载PDF
职称材料
基于本体的ETL设计研究
被引量:
5
15
作者
吴飞
邢桂芬
邢玉萍
《计算机工程与设计》
CSCD
北大核心
2007年第7期1517-1519,1571,共4页
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,...
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成。
展开更多
关键词
本体
数据
抽取
转换
与
加
载
数据集成
数据仓库
元数据
在线阅读
下载PDF
职称材料
基于MAS的分布式ETL模型
被引量:
6
16
作者
徐艳华
郭朝珍
《郑州大学学报(理学版)》
CAS
2007年第4期118-121,共4页
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分...
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分利用了企业系统中所有的服务器资源,从而降低了运行ETL服务器的硬件成本.
展开更多
关键词
数据仓库
数据
抽取
数据
转换
数据
加
载
etl
分布式计算
AGENT
MAS
在线阅读
下载PDF
职称材料
粒子群算法在分布式ETL任务调度中的应用
被引量:
3
17
作者
王春阳
赵书良
王长宾
《计算机工程与应用》
CSCD
2013年第9期150-155,共6页
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度...
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。
展开更多
关键词
分布式
抽取
-
转换
-
加
载
(
etl
)
任务调度
基于置换的离散型粒子群算法
在线阅读
下载PDF
职称材料
基于子模式的关系数据到图数据ETL方法研究
被引量:
4
18
作者
丁强龙
王津
张学杰
《计算机工程与应用》
CSCD
北大核心
2017年第12期76-84,共9页
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一...
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题。因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法。该方法将关系数据库模式拆分为若干个子模式,并行进行ETL。不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据。最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证。结果表明,改进后的ETL方法获得了较已有方法更好的转化性能。
展开更多
关键词
图数据库
分布式存储
etl
(数据提取
、转换
和加
载
)
子模式
在线阅读
下载PDF
职称材料
专用ETL模式设计与实现
被引量:
3
19
作者
谢婷婷
李伟华
《计算机工程与应用》
CSCD
北大核心
2010年第35期133-135,162,共4页
以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的"ETL+元知识库+交互式环境"的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转...
以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的"ETL+元知识库+交互式环境"的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转换及交互式可扩展环境具有提高数据清洗转换效率,实现复杂转换逻辑的优势,并为各个决策支持系统构建自己的专用ETL组件提供参考。
展开更多
关键词
指挥决策支持系统
抽取
转换
加
载
公共仓库元模型
元知识库
交互式
在线阅读
下载PDF
职称材料
基于多Agent与工作流的分布式ETL引擎的研究
被引量:
2
20
作者
丁进
郭朝珍
《计算机应用》
CSCD
北大核心
2009年第1期319-322,共4页
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术...
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。
展开更多
关键词
抽取
-
转换
-
加
载
多AGENT
工作流
分布式
协同
在线阅读
下载PDF
职称材料
题名
ETL中的数据增量抽取机制研究
被引量:
35
1
作者
戴浩
杨波
机构
广东邮电职业技术学院计算机系
广州粤信计算机科技有限公司
出处
《计算机工程与设计》
CSCD
北大核心
2009年第23期5552-5555,共4页
基金
国家科技型中小企业技术创新基金项目(08C26214401212)
文摘
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性。最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准。
关键词
数据
抽取
转换
与
加
载
增量
抽取
数据仓库
商业智能
Keywords
etl
incremental data extraction
data warehouse
business intelligence
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种标准的ETL的设计思想及其实现
被引量:
14
2
作者
程跟上
郑洪源
丁秋林
机构
南京航空航天大学信息科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2005年第3期101-103,共3页
文摘
元数据在数据仓库系统中占据着十分重要的地位,其中存放着许多重要的信息,尤其是对于数据仓库的ETL过程,可以说是ETL的指挥中心。提出了以CWM元数据模型标准为基础来开发标准的ETL的设计思想,并描述了具体的开发步骤。
关键词
etl
CWM
抽取
元数据
转换
元数据
加
载
元数据
Keywords
etl
(Etract-Transform-Load)
CWM(Common Warehouse Metamodel)
Metadata about Extract
Metadata about Transformation
Metadata about Load
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
ETL综述
被引量:
23
3
作者
缪嘉嘉
邓苏
刘青宝
机构
国防科学技术大学
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第3期4-5,21,共3页
文摘
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。
关键词
抽取
转换和
加
载
数据仓库
数据集成
元数据
Keywords
etl
Data warehouse
Data integration
Metadata
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
一种通用的多数据库间数据抽取方法及应用
被引量:
16
4
作者
刘如九
张振山
柴天佑
机构
东北大学流程工业综合自动化教育部重点实验室
出处
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2008年第4期14-18,共5页
基金
国家“863”高技术项目(2006AA04Z17)
国家自然科学基金资助项目(60534010)
文摘
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作.
关键词
数据仓库
数据的
抽取
转换
加
载
数据迁移
关系型数据库
Keywords
data warehouses
extraction-transformation-loading (
etl
)
data processing
relationaldatabase systems
分类号
TP274 [自动化与计算机技术—检测技术与自动化装置]
在线阅读
下载PDF
职称材料
题名
基于关键属性比对的增量数据抽取方法
被引量:
4
5
作者
刘胜
杨岳湘
邓劲生
李阳
机构
国防科技大学计算机学院
国防科技大学信息中心
出处
《计算机工程与应用》
CSCD
2012年第4期115-117,共3页
文摘
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。
关键词
关键属性
增量数据
抽取
全表比对
提取
转换
加
载
(
etl
)
Keywords
pivotal attributes
incremental data extraction
entire table contract
Extraction Transformation Loading(
etl
)
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
通用ETL工具的研究与实现
被引量:
10
6
作者
孙安健
王星
闫晓瑜
机构
复旦大学计算机科学技术学院
出处
《计算机应用与软件》
CSCD
北大核心
2012年第12期175-178,210,共5页
文摘
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。
关键词
数据仓库
数据
抽取
数据
转换
数据
加
载
Keywords
Data warehouse Data extraction Data transformation Data loading
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于语义树的非结构化年鉴Excel表格的ETL方法
被引量:
3
7
作者
赵乐
赵宏宇
刘斌
陈彦如
机构
西南交通大学计算机与人工智能学院
中铁第四勘察设计院集团有限公司
西南交通大学经济管理学院
出处
《计算机应用》
CSCD
北大核心
2021年第S02期131-135,共5页
基金
国家重点研发计划项目(2018YFB1601402)。
文摘
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。
关键词
EXCEL表格
抽取
-
转换
-
加
载
语义树
正则表达式
数据仓库
Keywords
Excel table
Extract-Transform-Load(
etl
)
semantic tree
regular expression
data warehousing
分类号
TP391.13 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于结构图的ETL过程建模方法
被引量:
5
8
作者
张忠平
赵瑞珍
机构
燕山大学信息科学与工程学院计算机应用技术系
出处
《计算机应用研究》
CSCD
北大核心
2008年第11期3354-3356,共3页
基金
国家自然科学基金资助项目(60773100)
国家教育部科学技术研究重点资助项目(205014)
河北省教育厅科研计划资助项目(2006143)
文摘
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。
关键词
数据仓库
抽取
转换
加
载
结构图
模型
Keywords
data warehouse
etl
architecture graph
model
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于Spark的并行ETL
被引量:
7
9
作者
丁祥武
解书亮
李继云
机构
东华大学计算机科学与技术学院
出处
《计算机工程与设计》
北大核心
2017年第9期2580-2585,共6页
基金
上海市信息化发展基金项目(XX-XXFZ-05-16-0139)
文摘
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。
关键词
大数据
数据仓库
抽取、
转换
、
加
载
转换
处理
分布式
火花大数据平台
Keywords
big data
data warehouse
etl
transformation processing
distributed
Spark
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
ETL过程的调度控制管理研究
被引量:
3
10
作者
雷培莉
孟丽
机构
北京化工大学经济管理学院
出处
《计算机工程与设计》
CSCD
北大核心
2006年第21期4046-4048,共3页
文摘
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。
关键词
元数据
抽取
转换
加
载
调度控制
数据仓库
过程
Keywords
metadata
etl
dispatch andcontrol
data warehouse
process
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
结构图ETL概念模型的设计方法
被引量:
3
11
作者
张忠平
赵瑞珍
机构
燕山大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2009年第6期161-164,共4页
基金
国家自然科学基金
教育部科学技术研究重点项目
河北省教育厅科研计划项目~~
文摘
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。
关键词
数据仓库
数据
抽取
转换
加
载
结构图
概念模型
Keywords
data warehouse
Extract-Transform-Load(
etl
)
architecture graph
conceptual model
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于模型驱动的ETL模型映射方法
被引量:
1
12
作者
姚全珠
白敏
黄蔚
机构
西安理工大学计算机科学与工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第19期91-93,96,共4页
文摘
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。
关键词
数据
抽取
-
加
载
-
转换
技术
逻辑模型
概念模型
数据集成
Keywords
data Extract-Transformation-Load(
etl
) technology
logical model
conceptual model
data integration
分类号
TP311.12 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
元数据驱动ETL的研究
被引量:
5
13
作者
宿芳
寿永熙
苏依拉
机构
内蒙古工业大学信息工程学院
出处
《计算机工程与应用》
CSCD
2012年第6期114-118,125,共6页
基金
内蒙古自然科学基金(No.20080404MS0904)
文摘
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。
关键词
抽取、
转换和
加
载
(
etl
)
数据仓库
元数据
SQL引擎
包引擎
Keywords
Extract, Transformation and Load(
etl
)
data warehouse
metadata
SQL engine
package engine
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于商务智能的流程评估系统中ETL的研究
被引量:
8
14
作者
陈玉东
姚青
机构
山东大学计算机科学与技术学院
出处
《计算机工程与设计》
CSCD
北大核心
2014年第8期2752-2756,共5页
基金
国家自然科学基金项目(61173140)
文摘
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ETL解决方案以及流程数据的特点,制定应用于业务流程数据的转换规则,确保流程日志中的数据能够快速准确地转换成评估系统需要的标准数据;设计流程数据转换算法。通过某保险公司的流程数据进行了仿真分析,分析结果表明了该模型的可行性和算法的有效性。
关键词
商务智能
流程评估
抽取
转换
加
载
数据
转换
转换
规则
Keywords
business intelligence (BI)
process access
etl
data transform
transform rules
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于本体的ETL设计研究
被引量:
5
15
作者
吴飞
邢桂芬
邢玉萍
机构
江苏大学计算机科学与通信工程学院
出处
《计算机工程与设计》
CSCD
北大核心
2007年第7期1517-1519,1571,共4页
基金
江苏大学基金项目(1283000122)。
文摘
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成。
关键词
本体
数据
抽取
转换
与
加
载
数据集成
数据仓库
元数据
Keywords
ontology
etl
data integration
data warehouse
metadata
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于MAS的分布式ETL模型
被引量:
6
16
作者
徐艳华
郭朝珍
机构
福州大学数学与计算机科学学院
出处
《郑州大学学报(理学版)》
CAS
2007年第4期118-121,共4页
文摘
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分利用了企业系统中所有的服务器资源,从而降低了运行ETL服务器的硬件成本.
关键词
数据仓库
数据
抽取
数据
转换
数据
加
载
etl
分布式计算
AGENT
MAS
Keywords
data warehouse
data extraction
data transformation
data loading
etl
distributed computing
Agent
MAS
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
粒子群算法在分布式ETL任务调度中的应用
被引量:
3
17
作者
王春阳
赵书良
王长宾
机构
河北师范大学数学与信息科学学院河北省计算数学与应用重点实验室
出处
《计算机工程与应用》
CSCD
2013年第9期150-155,共6页
基金
河北省科学技术研究与发展计划项目(No.072435158D
No.09213515D
+4 种基金
No.09213575D)
河北省教育厅科研计划项目(No.2008472)
河北师范大学博士基金项目(No.L2006B03)
河北师范大学重点科研基金项目(No.L2007Z01)
河北师范大学科技创新项目(No.CB2011331997)
文摘
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。
关键词
分布式
抽取
-
转换
-
加
载
(
etl
)
任务调度
基于置换的离散型粒子群算法
Keywords
distributed Extration-Transformation-Loading(
etl
)
task scheduling
discrete particle swarm optimization based onreplacement algorithm
分类号
TP311.133.1 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于子模式的关系数据到图数据ETL方法研究
被引量:
4
18
作者
丁强龙
王津
张学杰
机构
云南大学信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2017年第12期76-84,共9页
基金
国家自然科学基金(No.61170222)
文摘
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题。因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法。该方法将关系数据库模式拆分为若干个子模式,并行进行ETL。不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据。最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证。结果表明,改进后的ETL方法获得了较已有方法更好的转化性能。
关键词
图数据库
分布式存储
etl
(数据提取
、转换
和加
载
)
子模式
Keywords
graph database
distributed storage
extract-transform-load(
etl
)
sub-schema
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
专用ETL模式设计与实现
被引量:
3
19
作者
谢婷婷
李伟华
机构
西北工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第35期133-135,162,共4页
基金
国家"十一五"预研项目
国家部委专项基金~~
文摘
以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的"ETL+元知识库+交互式环境"的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转换及交互式可扩展环境具有提高数据清洗转换效率,实现复杂转换逻辑的优势,并为各个决策支持系统构建自己的专用ETL组件提供参考。
关键词
指挥决策支持系统
抽取
转换
加
载
公共仓库元模型
元知识库
交互式
Keywords
Weapon-Target Adapted Decision-making Support System(WTADSS)
Data Extraction
Transformation and Loading(
etl
)
Common Warehouse Metamodel(CWM)
meta-knowledge basei
nteractive environment
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于多Agent与工作流的分布式ETL引擎的研究
被引量:
2
20
作者
丁进
郭朝珍
机构
福州大学数学与计算机科学学院
出处
《计算机应用》
CSCD
北大核心
2009年第1期319-322,共4页
基金
福建省科技厅重点项目(2008H0025)
文摘
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。
关键词
抽取
-
转换
-
加
载
多AGENT
工作流
分布式
协同
Keywords
Extraction-Transformation-Loading (
etl
)
multi-agent
workflow
distributed
cooperative
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
ETL中的数据增量抽取机制研究
戴浩
杨波
《计算机工程与设计》
CSCD
北大核心
2009
35
在线阅读
下载PDF
职称材料
2
一种标准的ETL的设计思想及其实现
程跟上
郑洪源
丁秋林
《计算机应用研究》
CSCD
北大核心
2005
14
在线阅读
下载PDF
职称材料
3
ETL综述
缪嘉嘉
邓苏
刘青宝
《计算机工程》
CAS
CSCD
北大核心
2004
23
在线阅读
下载PDF
职称材料
4
一种通用的多数据库间数据抽取方法及应用
刘如九
张振山
柴天佑
《北京交通大学学报》
EI
CAS
CSCD
北大核心
2008
16
在线阅读
下载PDF
职称材料
5
基于关键属性比对的增量数据抽取方法
刘胜
杨岳湘
邓劲生
李阳
《计算机工程与应用》
CSCD
2012
4
在线阅读
下载PDF
职称材料
6
通用ETL工具的研究与实现
孙安健
王星
闫晓瑜
《计算机应用与软件》
CSCD
北大核心
2012
10
在线阅读
下载PDF
职称材料
7
基于语义树的非结构化年鉴Excel表格的ETL方法
赵乐
赵宏宇
刘斌
陈彦如
《计算机应用》
CSCD
北大核心
2021
3
在线阅读
下载PDF
职称材料
8
基于结构图的ETL过程建模方法
张忠平
赵瑞珍
《计算机应用研究》
CSCD
北大核心
2008
5
在线阅读
下载PDF
职称材料
9
基于Spark的并行ETL
丁祥武
解书亮
李继云
《计算机工程与设计》
北大核心
2017
7
在线阅读
下载PDF
职称材料
10
ETL过程的调度控制管理研究
雷培莉
孟丽
《计算机工程与设计》
CSCD
北大核心
2006
3
在线阅读
下载PDF
职称材料
11
结构图ETL概念模型的设计方法
张忠平
赵瑞珍
《计算机工程与应用》
CSCD
北大核心
2009
3
在线阅读
下载PDF
职称材料
12
基于模型驱动的ETL模型映射方法
姚全珠
白敏
黄蔚
《计算机工程》
CAS
CSCD
北大核心
2009
1
在线阅读
下载PDF
职称材料
13
元数据驱动ETL的研究
宿芳
寿永熙
苏依拉
《计算机工程与应用》
CSCD
2012
5
在线阅读
下载PDF
职称材料
14
基于商务智能的流程评估系统中ETL的研究
陈玉东
姚青
《计算机工程与设计》
CSCD
北大核心
2014
8
在线阅读
下载PDF
职称材料
15
基于本体的ETL设计研究
吴飞
邢桂芬
邢玉萍
《计算机工程与设计》
CSCD
北大核心
2007
5
在线阅读
下载PDF
职称材料
16
基于MAS的分布式ETL模型
徐艳华
郭朝珍
《郑州大学学报(理学版)》
CAS
2007
6
在线阅读
下载PDF
职称材料
17
粒子群算法在分布式ETL任务调度中的应用
王春阳
赵书良
王长宾
《计算机工程与应用》
CSCD
2013
3
在线阅读
下载PDF
职称材料
18
基于子模式的关系数据到图数据ETL方法研究
丁强龙
王津
张学杰
《计算机工程与应用》
CSCD
北大核心
2017
4
在线阅读
下载PDF
职称材料
19
专用ETL模式设计与实现
谢婷婷
李伟华
《计算机工程与应用》
CSCD
北大核心
2010
3
在线阅读
下载PDF
职称材料
20
基于多Agent与工作流的分布式ETL引擎的研究
丁进
郭朝珍
《计算机应用》
CSCD
北大核心
2009
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部