期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
ETL中的数据增量抽取机制研究 被引量:35
1
作者 戴浩 杨波 《计算机工程与设计》 CSCD 北大核心 2009年第23期5552-5555,共4页
为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4... 为实现数据仓库中数据的高效更新,探讨了在数据仓库的ETL(数据的抽取、转换和装载)子系统中进行数据增量抽取时所采用的常见机制,对这些机制的原理、条件、方法以及运行效率等方面进行了详细的阐述,并从兼容性、完备性、性能和侵入性4个方面分析和比较了各种数据增量抽取机制的优劣性。最后,总结了选取数据增量抽取机制所应遵循的主要原则和标准。 展开更多
关键词 数据抽取转换 增量抽取 数据仓库 商业智能
在线阅读 下载PDF
一种标准的ETL的设计思想及其实现 被引量:14
2
作者 程跟上 郑洪源 丁秋林 《计算机应用研究》 CSCD 北大核心 2005年第3期101-103,共3页
元数据在数据仓库系统中占据着十分重要的地位,其中存放着许多重要的信息,尤其是对于数据仓库的ETL过程,可以说是ETL的指挥中心。提出了以CWM元数据模型标准为基础来开发标准的ETL的设计思想,并描述了具体的开发步骤。
关键词 etl CWM 抽取元数据 转换元数据 元数据
在线阅读 下载PDF
ETL综述 被引量:23
3
作者 缪嘉嘉 邓苏 刘青宝 《计算机工程》 CAS CSCD 北大核心 2004年第3期4-5,21,共3页
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。
关键词 抽取转换和 数据仓库 数据集成 元数据
在线阅读 下载PDF
一种通用的多数据库间数据抽取方法及应用 被引量:16
4
作者 刘如九 张振山 柴天佑 《北京交通大学学报》 EI CAS CSCD 北大核心 2008年第4期14-18,共5页
为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽... 为方便从多个异构的数据源中抽取转换数据、并加载到目标数据库,提出一种较为通用的抽取方法,并开发了工具软件.该方法基于客户端的方案,使用数据库驱动程序屏蔽异构数据库间的差异;数据的抽取、转换和加载由数据抽取软件执行;数据的抽取转换基于抽取规则,抽取规则采用可视化方法编辑生成;抽取规则存储于规则库,供多次调用修改;多个抽取任务组成抽取任务队列.开发的抽取工具软件DbBridge,支持从Oracle,SQL Server,SAS,Access,Excel等数据源抽取数据.软件成功应用于某数据仓库的建立及数据迁移工作. 展开更多
关键词 数据仓库 数据的抽取转换 数据迁移 关系型数据库
在线阅读 下载PDF
基于关键属性比对的增量数据抽取方法 被引量:4
5
作者 刘胜 杨岳湘 +1 位作者 邓劲生 李阳 《计算机工程与应用》 CSCD 2012年第4期115-117,共3页
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。
关键词 关键属性 增量数据抽取 全表比对 提取转换(etl)
在线阅读 下载PDF
通用ETL工具的研究与实现 被引量:10
6
作者 孙安健 王星 闫晓瑜 《计算机应用与软件》 CSCD 北大核心 2012年第12期175-178,210,共5页
ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出... ETL(Extraction-Transformation-Loading)是建立数据仓库的重要一环。通用应用ETL工具应能够适应不同领域不同需求的业务,无论是针对多样化异构的数据源,还是针对复杂变化的转换逻辑,都能够给予很好的支持。研究ETL工具的技术难点,提出一种通用ETL工具的设计框架,并对每个模块做了详细分析,在所承担项目中给出了具体实现。 展开更多
关键词 数据仓库 数据抽取 数据转换 数据
在线阅读 下载PDF
基于语义树的非结构化年鉴Excel表格的ETL方法 被引量:3
7
作者 赵乐 赵宏宇 +1 位作者 刘斌 陈彦如 《计算机应用》 CSCD 北大核心 2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义... 针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。 展开更多
关键词 EXCEL表格 抽取-转换- 语义树 正则表达式 数据仓库
在线阅读 下载PDF
基于结构图的ETL过程建模方法 被引量:5
8
作者 张忠平 赵瑞珍 《计算机应用研究》 CSCD 北大核心 2008年第11期3354-3356,共3页
ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联... ETL是数据仓库获得高质量数据的重要环节,在数据仓库建设过程中占有极其重要的地位。为了便于ETL过程的设计、维护和修改,提出一种基于结构图的ETL过程建模方法,并依据该方法完成了ETL概念模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。 展开更多
关键词 数据仓库 抽取转换 结构图 模型
在线阅读 下载PDF
基于Spark的并行ETL 被引量:7
9
作者 丁祥武 解书亮 李继云 《计算机工程与设计》 北大核心 2017年第9期2580-2585,共6页
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管... 针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。 展开更多
关键词 大数据 数据仓库 抽取、转换 转换处理 分布式 火花大数据平台
在线阅读 下载PDF
ETL过程的调度控制管理研究 被引量:3
10
作者 雷培莉 孟丽 《计算机工程与设计》 CSCD 北大核心 2006年第21期4046-4048,共3页
对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这... 对抽取、转换、装载(extract,transform,load,ETL)过程的元数据、调度控制管理进行研究,着重研究数据处理流程之间的逻辑关系,以及如何依据这些逻辑关系以及关联数据处理流程的执行状态,合理地对数据处理流程进行调度控制。通过研究这些问题,给出了ETL元数据管理、规划管理、执行管理以及异常处理的处理办法,并提出了一套调度控制管理流程。 展开更多
关键词 元数据 抽取转换 调度控制 数据仓库 过程
在线阅读 下载PDF
结构图ETL概念模型的设计方法 被引量:3
11
作者 张忠平 赵瑞珍 《计算机工程与应用》 CSCD 北大核心 2009年第6期161-164,共4页
ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM... ETL过程是数据仓库获得高质量数据的重要环节,是任何数据仓库工程不可缺少的成功因素。为了便于ETL过程的设计和维护,降低ETL过程的设计、维护代价,提出一种基于结构图的ETL概念模型设计方法,给出一个用于描述ETL过程的模型,并基于CWM完成用以存储元数据的ETL元模型的设计。通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了各个源数据库与目标数据仓库的内部结构和组成、数据的来源与流向、源数据和目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和编码实现,使整个ETL的设计与维护过程更加方便、灵活、有效。 展开更多
关键词 数据仓库 数据抽取 转换 结构图 概念模型
在线阅读 下载PDF
基于模型驱动的ETL模型映射方法 被引量:1
12
作者 姚全珠 白敏 黄蔚 《计算机工程》 CAS CSCD 北大核心 2009年第19期91-93,96,共4页
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了... 针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。 展开更多
关键词 数据抽取--转换技术 逻辑模型 概念模型 数据集成
在线阅读 下载PDF
元数据驱动ETL的研究 被引量:5
13
作者 宿芳 寿永熙 苏依拉 《计算机工程与应用》 CSCD 2012年第6期114-118,125,共6页
对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系... 对原始数据的提取、转换、加载(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计。在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。 展开更多
关键词 抽取、转换和(etl) 数据仓库 元数据 SQL引擎 包引擎
在线阅读 下载PDF
基于商务智能的流程评估系统中ETL的研究 被引量:8
14
作者 陈玉东 姚青 《计算机工程与设计》 CSCD 北大核心 2014年第8期2752-2756,共5页
为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ET... 为解决基于商务智能的业务流程评估系统中的ETL问题,确保评估系统能够更加高效、及时、准确地从异构数据源中获取流程数据,在既有流程评估模型的基础上,搭建应用于流程数据的ETL架构,并对整个架构进行详细的描述。以此为基础,分析现有ETL解决方案以及流程数据的特点,制定应用于业务流程数据的转换规则,确保流程日志中的数据能够快速准确地转换成评估系统需要的标准数据;设计流程数据转换算法。通过某保险公司的流程数据进行了仿真分析,分析结果表明了该模型的可行性和算法的有效性。 展开更多
关键词 商务智能 流程评估 抽取 转换 数据转换 转换规则
在线阅读 下载PDF
基于本体的ETL设计研究 被引量:5
15
作者 吴飞 邢桂芬 邢玉萍 《计算机工程与设计》 CSCD 北大核心 2007年第7期1517-1519,1571,共4页
提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,... 提出了一种基于本体的ETL设计方法,通过建立各数据源的局部本体和目标数据仓库的全局本体以及本体间的映射,得出以OWL表示的各数据源和目标的映射关系。用本体元数据指导数据抽取、转换和加载过程,解决数据源ETL过程中的语义异构问题,实现了企业数据语义程度的集成。 展开更多
关键词 本体 数据抽取 转换 数据集成 数据仓库 元数据
在线阅读 下载PDF
基于MAS的分布式ETL模型 被引量:6
16
作者 徐艳华 郭朝珍 《郑州大学学报(理学版)》 CAS 2007年第4期118-121,共4页
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分... 提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分利用了企业系统中所有的服务器资源,从而降低了运行ETL服务器的硬件成本. 展开更多
关键词 数据仓库 数据抽取 数据转换 数据 etl 分布式计算 AGENT MAS
在线阅读 下载PDF
粒子群算法在分布式ETL任务调度中的应用 被引量:3
17
作者 王春阳 赵书良 王长宾 《计算机工程与应用》 CSCD 2013年第9期150-155,共6页
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度... 随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。 展开更多
关键词 分布式抽取-转换-(etl) 任务调度 基于置换的离散型粒子群算法
在线阅读 下载PDF
基于子模式的关系数据到图数据ETL方法研究 被引量:4
18
作者 丁强龙 王津 张学杰 《计算机工程与应用》 CSCD 北大核心 2017年第12期76-84,共9页
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一... 图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题。因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法。该方法将关系数据库模式拆分为若干个子模式,并行进行ETL。不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据。最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证。结果表明,改进后的ETL方法获得了较已有方法更好的转化性能。 展开更多
关键词 图数据库 分布式存储 etl(数据提取、转换和加) 子模式
在线阅读 下载PDF
专用ETL模式设计与实现 被引量:3
19
作者 谢婷婷 李伟华 《计算机工程与应用》 CSCD 北大核心 2010年第35期133-135,162,共4页
以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的"ETL+元知识库+交互式环境"的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转... 以指挥决策支持系统为背景,构建一个专门针对该系统设计的ETL组件,由此提出专用ETL组件的"ETL+元知识库+交互式环境"的构建模式。该组件采用基于CWM建模的方式来优化对ETL元数据的提取并缩短开发周期。基于领域知识的匹配转换及交互式可扩展环境具有提高数据清洗转换效率,实现复杂转换逻辑的优势,并为各个决策支持系统构建自己的专用ETL组件提供参考。 展开更多
关键词 指挥决策支持系统 抽取转换 公共仓库元模型 元知识库 交互式
在线阅读 下载PDF
基于多Agent与工作流的分布式ETL引擎的研究 被引量:2
20
作者 丁进 郭朝珍 《计算机应用》 CSCD 北大核心 2009年第1期319-322,共4页
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术... 针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。 展开更多
关键词 抽取-转换- 多AGENT 工作流 分布式 协同
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部