期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的分布式ETL体系结构研究 被引量:9
1
作者 宋杰 郝文宁 +2 位作者 陈刚 靳大尉 赵水宁 《计算机科学》 CSCD 北大核心 2013年第6期152-154,共3页
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执... 针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率。 展开更多
关键词 etl MAPREDUCE 分布式
在线阅读 下载PDF
一种改进的分布式ETL体系结构 被引量:5
2
作者 夏秀峰 张亮 +1 位作者 石祥滨 徐蕾 《计算机应用与软件》 CSCD 2010年第4期174-176,共3页
在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一... 在分析了分布式数据仓库数据一致性维护的重要性,以及目前分布式ETL(Extract,transform and load)中存在问题的基础上,针对传统ETL体系结构对分布式数据仓库一致性维护的不足,提出一种新的分布式ETL的体系结构ETLM,并详细描述了数据一致性维护模块(M模块)的设计与实现。ETLM的体系结构免去了分布式数据仓库需要专门进行一致性维护的额外负担,可以更加正确、快捷、高效地支持OLAP。 展开更多
关键词 分布式etl 体系结构 分布式数据仓库
在线阅读 下载PDF
基于CEP引擎的配电网运行监控信号大数据ETL方法 被引量:14
3
作者 葛贤军 艾明浩 +2 位作者 李志宏 汪旭 陈乃仕 《电工电能新技术》 CSCD 北大核心 2017年第9期36-42,共7页
电力系统规模在不断扩大,配电网电气设备数量急剧增长且趋于精细化。大量且散乱的运行监控数据使得主动配电网各应用无法快速有效地提取有用信息以形成决策支持。本文利用复杂事件处理(CEP)引擎作为运行监控信号处理核心,通过Apriori机... 电力系统规模在不断扩大,配电网电气设备数量急剧增长且趋于精细化。大量且散乱的运行监控数据使得主动配电网各应用无法快速有效地提取有用信息以形成决策支持。本文利用复杂事件处理(CEP)引擎作为运行监控信号处理核心,通过Apriori机器学习算法定义和完善规则库,通过核心算法库对信号数据流进行规范化处理。整体采用ETL(Extract-Transform-Load)框架,将主动配电网中分散、零乱、标准不统一的信号数据整合、清洗后加载到数据仓库,并以多种数据接口输出至不同介质,供不同应用调用。基于CEP引擎的大数据ETL方法,可对运行监控信号进行快速、精确、有效的规范化处理,实现多数据源集成与输出,为主动配电网设备仿真、故障分析、状态估计等多种重要应用提供数据准备。 展开更多
关键词 CEP引擎 运行监控 大数据 etl 主动配电网 规范化
在线阅读 下载PDF
分布式ETL中协同机制的研究与设计 被引量:10
4
作者 陈伟江 郭朝珍 《通信学报》 EI CSCD 北大核心 2006年第11期177-182,共6页
ETL工具在构造数据仓库过程中负责数据抽取、转换和加载的工作。商用的ETL工具一般需要运行在高性能的服务器如小型机上进行大量的计算工作,造成数据仓库项目在硬件方面的成本必须大大的提高。针对计算效率的问题,提出了一种多计算服务... ETL工具在构造数据仓库过程中负责数据抽取、转换和加载的工作。商用的ETL工具一般需要运行在高性能的服务器如小型机上进行大量的计算工作,造成数据仓库项目在硬件方面的成本必须大大的提高。针对计算效率的问题,提出了一种多计算服务器的协同计算模型,通过创建一协调中心来控制多计算服务器的协同处理计算来增加计算能力。与原有的ETL工具相比,可以在一定程度上降低ETL工具对服务器硬件性能的要求。 展开更多
关键词 etl 协同工作 分布式计算
在线阅读 下载PDF
基于Spark的并行ETL 被引量:7
5
作者 丁祥武 解书亮 李继云 《计算机工程与设计》 北大核心 2017年第9期2580-2585,共6页
针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管... 针对大数据中的"海量"特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。 展开更多
关键词 大数据 数据仓库 抽取、转换、加载 转换处理 分布式 火花大数据平台
在线阅读 下载PDF
基于MAS的分布式ETL模型 被引量:6
6
作者 徐艳华 郭朝珍 《郑州大学学报(理学版)》 CAS 2007年第4期118-121,共4页
提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分... 提出了基于MAS的分布式ETL模型,该模型将数据处理分配到多计算服务器,利用Agent的协作性、主动性、反应性和交互性,控制多计算服务器的协同处理来提高系统计算能力.与原有的ETL工具相比,该模型不仅可以提高ETL流程的运行效率,而且充分利用了企业系统中所有的服务器资源,从而降低了运行ETL服务器的硬件成本. 展开更多
关键词 数据仓库 数据抽取 数据转换 数据加载 etl 分布式计算 AGENT MAS
在线阅读 下载PDF
基于子模式的关系数据到图数据ETL方法研究 被引量:4
7
作者 丁强龙 王津 张学杰 《计算机工程与应用》 CSCD 北大核心 2017年第12期76-84,共9页
图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一... 图数据库在解决多层关系查询、社区发现等问题时性能优于关系数据库。然而目前大量的数据以关系数据的形式存储,如何高效完整地进行关系数据到图数据的ETL,即抽取、转换、加载,是图数据库应用领域研究的重要问题。国内外对该问题有了一些研究,但存在转换后的图数据质量不高、转换效率低、转换结果不利于分布式存储等问题。因此,提出基于子模式的关系数据到图数据ETL方法,改进原有ETL方法的流程和算法。该方法将关系数据库模式拆分为若干个子模式,并行进行ETL。不仅提高了ETL的效率,转换结果能满足图数据的分布式存储要求,也可以作为Spark GraphX计算框架的基础数据。最后,使用Java EE和Neo4j开发了原型系统,并进行了实验验证。结果表明,改进后的ETL方法获得了较已有方法更好的转化性能。 展开更多
关键词 图数据库 分布式存储 etl(数据提取、转换和加载) 子模式
在线阅读 下载PDF
基于多Agent与工作流的分布式ETL引擎的研究 被引量:2
8
作者 丁进 郭朝珍 《计算机应用》 CSCD 北大核心 2009年第1期319-322,共4页
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术... 针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。 展开更多
关键词 抽取-转换-加载 多AGENT 工作流 分布式 协同
在线阅读 下载PDF
粒子群算法在分布式ETL任务调度中的应用 被引量:3
9
作者 王春阳 赵书良 王长宾 《计算机工程与应用》 CSCD 2013年第9期150-155,共6页
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度... 随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。 展开更多
关键词 分布式抽取-转换-加载(etl) 任务调度 基于置换的离散型粒子群算法
在线阅读 下载PDF
大型商业银行基于Hadoop分布式数据仓库建设初探 被引量:3
10
作者 杨頲 韩路 +1 位作者 许勤 孙元浩 《计算机应用与软件》 2017年第8期72-75,113,共5页
商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyper... 商业银行的数据规模随着传统业务扩展和互联网发展水平的不断提高而与日俱增,使得银行对数据的存储、管理和应用要求越来越高。通过搭建基于Hadoop技术的大数据平台,利用分布式文件系统HDFS、SQL分析引擎Inceptor、Nosql数据库工具Hyperbase、流处理工具Stream等架构,探索了大型商业银行Hadoop分布式数据仓库的构建过程,最终实现了由基于集中式存储架构的传统关系型数据仓库向分布式数据仓库的迁移工作。该分布式数据仓库实现了结构化数据和非结构化数据的存储、ETL调度管理、历史数据检索、交互式分析以及流数据处理。应用表明,相比基于集中式存储架构的传统关系型数据仓库,分布式数据仓库可大幅提高数据存储和数据服务的效率。 展开更多
关键词 分布式数据仓库 HADOOP 数据批处理 历史数据查询 交互式分析
在线阅读 下载PDF
分布式装备管理信息系统的数据同步机制研究与实现 被引量:1
11
作者 刘焕敏 《火力与指挥控制》 CSCD 北大核心 2012年第12期152-154,共3页
根据分布装备管理信息系统的特点,分析了目前现有同步机制中存在的问题,设计和实现了基于ETL技术和XML技术的数据同步机制。该同步机制保证了数据传输的实时性、数据的一致性和完整性,为今后多级之间分布式装备管理数据库的数据同步提... 根据分布装备管理信息系统的特点,分析了目前现有同步机制中存在的问题,设计和实现了基于ETL技术和XML技术的数据同步机制。该同步机制保证了数据传输的实时性、数据的一致性和完整性,为今后多级之间分布式装备管理数据库的数据同步提供一定的理论依据和借鉴经验。 展开更多
关键词 分布式数据库 数据同步 etl XML SQL SERVER
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部