期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
数字化车间多源异构质量数据集成方案研究 被引量:7
1
作者 张培 黄智源 +3 位作者 陈琨 范营营 崔冰华 于艳鹏 《现代制造工程》 CSCD 北大核心 2015年第1期59-65,共7页
针对数字化制造中多源异构质量数据信息量大且缺乏统一、规范和标准化数据管理的问题,提出一种基于面向对象技术和基于映像的数据抽取、转换和加载(Extract-Transform-Load,ETL)技术的异构数据集成方案,该方案简单实用,具有很高的通用性... 针对数字化制造中多源异构质量数据信息量大且缺乏统一、规范和标准化数据管理的问题,提出一种基于面向对象技术和基于映像的数据抽取、转换和加载(Extract-Transform-Load,ETL)技术的异构数据集成方案,该方案简单实用,具有很高的通用性,可提高异构数据的提取精度,有效地解决多源异构质量数据集成问题。 展开更多
关键词 数字化制造 多源异构 面向对象技术 映像 数据抽取 转换(ETL) 数据集成
在线阅读 下载PDF
面向ETL的数据起源追踪系统 被引量:1
2
作者 戴超凡 王涛 《计算机工程》 CAS CSCD 北大核心 2011年第17期256-258,261,共4页
提出一种面向提取-转换-加载(ETL)过程的数据起源追踪系统,讨论实现的关键技术,包括转换分类、元数据设计、转换序列构建、追踪流程设计以及不同转换的追踪方法。系统将追踪所需的元数据设计在包文件结构中,在逆向追踪时抽取元数据进行... 提出一种面向提取-转换-加载(ETL)过程的数据起源追踪系统,讨论实现的关键技术,包括转换分类、元数据设计、转换序列构建、追踪流程设计以及不同转换的追踪方法。系统将追踪所需的元数据设计在包文件结构中,在逆向追踪时抽取元数据进行相关处理,构建各个层次的转换起源信息图,从而实现数据起源的追踪。 展开更多
关键词 数据起源 起源管理系统 提取-转换- 同步/异步转换
在线阅读 下载PDF
面向城市基础设施智慧管养的大数据智能融合方法 被引量:7
3
作者 刘佳俊 喻钢 胡珉 《计算机应用》 CSCD 北大核心 2017年第10期2983-2990,2998,共9页
针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,... 针对运维大数据维度高、形式多样化和变化迅速等特性,为提高数据融合效率以及平台的数据统计和决策分析性能,降低抽取-转换-加载(ETL)执行时间开销和数据中心负担,面向智慧管养需求提出一种多层次任务调度(MTS)ETL框架(MTS-ETL)。首先,将数据仓库分为数据临时区、数据仓储区、数据分类区和数据分析区,并根据所分区域将完整的ETL过程划分为4个层次的ETL任务调度环节,同时设计了多频率ETL运行调度以及顺序和非顺序两种ETL工作模式;接着,基于MTS-ETL框架的非顺序工作模式进行数据融合的概念建模、逻辑建模和物理建模;最后,利用Pentaho Data Integration设计ETL转换模块和工作模块以实现数据融合方法。在交通流量数据融合实验中,该方法融合136 754条数据的时间仅为28.4 s;在千量级的数据融合实验中比传统ETL方法的总平均执行时间降低了6.51%;报表分析结果表明其在融合400万条数据时依然能保证ETL过程的可靠性。所提方法能够有效融合运维大数据,提高平台统计分析性能,并维持ETL执行时间开销在较低水平。 展开更多
关键词 数据 抽取-转换- 数据融合 数据仓库 城市基础设施管养
在线阅读 下载PDF
XML技术在基于PowerMart的项目开发中的应用
4
作者 吴军 韩斌 刘刚 《科学技术与工程》 2010年第1期269-272,283,共5页
PowerMart是一款性能强大的ETL工具,但在基于PowerMart的项目开发过程中,其界面操作繁琐,开发耗时长。本文通过对powermart.dtd的分析,提出了一种基于XML技术的开发方式,针对具有类似ETL映射或Workflow的作业,设计出统一的XML模版,通过... PowerMart是一款性能强大的ETL工具,但在基于PowerMart的项目开发过程中,其界面操作繁琐,开发耗时长。本文通过对powermart.dtd的分析,提出了一种基于XML技术的开发方式,针对具有类似ETL映射或Workflow的作业,设计出统一的XML模版,通过修改XML模版来生成新的Workflow作业。在广东发展银行EDS项目开发过程中证明了这种方法可以显著提高开发效率。 展开更多
关键词 PowerMart文档类型定义 XML技术 数据抽取 数据转换 数据
在线阅读 下载PDF
基于模型驱动的ETL模型映射方法 被引量:1
5
作者 姚全珠 白敏 黄蔚 《计算机工程》 CAS CSCD 北大核心 2009年第19期91-93,96,共4页
针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了... 针对AP模型的特点,给出元模型中对象的形式化定义,优化模型映射算法,提出一种基于模型驱动、从概念模型到逻辑模型的映射方法。改进后的算法能够映射基于数据抽取-加载-转换(ETL)工作流的单源数据或多源数据,并发执行各状态节点,提高了执行的效率。实验结果表明,该方法为模型驱动式ETL设计及数据集成中快速实现ETL奠定了良好基础。 展开更多
关键词 数据抽取-加载-转换技术 逻辑模型 概念模型 数据集成
在线阅读 下载PDF
基于语义树的非结构化年鉴Excel表格的ETL方法 被引量:3
6
作者 赵乐 赵宏宇 +1 位作者 刘斌 陈彦如 《计算机应用》 CSCD 北大核心 2021年第S02期131-135,共5页
针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义... 针对计算机程序在对海量Excel表格中的中国城市年鉴数据进行抽取-转换-加载(ETL)时由于表格的非结构化格式导致的准确率和查全率较低的问题,提出了一种基于语义树的ETL方法。首先,通过数据与表格行名、列名的对应关系分别建立两棵语义树模型,利用两棵语义树生成包含数据项以及数据项所属行名、列名的元数据集合;然后,通过正则表达式对每个元数据所属行名、列名进行语义匹配,从该集合中删除不需要的分项或汇总项元数据;接着,通过三种基于字典的过滤策略进一步做数据清洗,将剩余的元数据导入到数据仓库中;最后,从总量30万个统计年鉴表格中随机抽取604个进行程序ETL与人工ETL对比,实验结果表明,所提出的程序ETL可达到人工ETL86.51%的准确率和95.15%的查全率,可以满足考察地方发展现状、编制和发展未来规划的需求。 展开更多
关键词 EXCEL表格 抽取-转换- 语义树 正则表达式 数据仓库
在线阅读 下载PDF
粒子群算法在分布式ETL任务调度中的应用 被引量:3
7
作者 王春阳 赵书良 王长宾 《计算机工程与应用》 CSCD 2013年第9期150-155,共6页
随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度... 随着分布式数据环境越来越复杂,ETL工具要面临数据源多、分布地域广和海量数据等因素带来的挑战。原有的集中式ETL工作流优化理论不能满足现在复杂数据环境的要求。介绍了如何将基于置换的离散型粒子群算法应用到分布式ETL任务优化调度问题上,主要工作围绕ETL工作调度模型、算法编码设计、目标函数选择等内容来展开,给出了分布式ETL工作调度策略的实现过程和伪代码。理论分析和实验证明了实际应用的有效可行性。 展开更多
关键词 分布式抽取-转换-(ETL) 任务调度 基于置换的离散型粒子群算法
在线阅读 下载PDF
基于多Agent与工作流的分布式ETL引擎的研究 被引量:2
8
作者 丁进 郭朝珍 《计算机应用》 CSCD 北大核心 2009年第1期319-322,共4页
针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术... 针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。 展开更多
关键词 抽取-转换- 多AGENT 工作流 分布式 协同
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部