期刊文献+
共找到1,242篇文章
< 1 2 63 >
每页显示 20 50 100
基于Hadoop的穿透式财务管理体系研究 被引量:1
1
作者 徐倩 《财会通讯》 北大核心 2025年第4期116-122,共7页
财务管理是企业经营发展的重要一环,然而数字化、智能化技术的加快发展使得传统的财务管理方式已无法满足现代企业管理的需求,亟需利用新兴技术手段构建穿透式财务管理体系,以纵向穿透和横向穿透的双向管理形式对企业财务活动进行深入... 财务管理是企业经营发展的重要一环,然而数字化、智能化技术的加快发展使得传统的财务管理方式已无法满足现代企业管理的需求,亟需利用新兴技术手段构建穿透式财务管理体系,以纵向穿透和横向穿透的双向管理形式对企业财务活动进行深入洞察和精细管理,实现高效化、智能化、精细化的财务管理。基于此,文章将具备强大的数据处理能力的Hadoop技术应用于业务规模大、产业链长、数据量庞大的特大型钢铁企业,发现基于Hadoop的穿透式财务管理体系的应用能够有效改善企业预算管理,加强内部控制,规范成本管理,减少财务风险,从而提升企业整体财务管理水平和效率,提高企业经济效益。 展开更多
关键词 穿透式 财务管理 hadoop
在线阅读 下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
2
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop MAPREDUCE hadoop分布式文件系统 Sqoop
在线阅读 下载PDF
HadoopUnit的研究与实现
3
作者 李爱凤 胡莹 《计算机应用与软件》 CSCD 北大核心 2014年第7期74-77,共4页
JUnit是一个单元测试框架的事实标准。介绍一个分布式测试框架HadoopUnit。该框架把JUnit迁移到Hadoop平台上,把测试用例包创建成许多独立的MapReduce工作,再分派到Hadoop集群上的各个节点并行执行。实验结果表明,相比传统的测试用例的... JUnit是一个单元测试框架的事实标准。介绍一个分布式测试框架HadoopUnit。该框架把JUnit迁移到Hadoop平台上,把测试用例包创建成许多独立的MapReduce工作,再分派到Hadoop集群上的各个节点并行执行。实验结果表明,相比传统的测试用例的单机运行,HadoopUnit框架加快了软件测试的速度,缩短了整个软件项目周期,能满足用户对软件进行快速有效测试的要求。 展开更多
关键词 软件测试 hadoop hadoopUnit MAPREDUCE
在线阅读 下载PDF
基于Hadoop平台的分布式重删存储系统 被引量:16
4
作者 刘青 付印金 +1 位作者 倪桂强 梅建民 《计算机应用》 CSCD 北大核心 2016年第2期330-335,共6页
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop... 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。 展开更多
关键词 重复数据删除 分布式存储 hadoop HBASE hadoop分布式文件系统
在线阅读 下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
5
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 hadoop hadoop的分布式文件系统(HDFS) MAPREDUCE 小文件处理 文件输入格式
在线阅读 下载PDF
一种提高虚拟化Hadoop系统数据本地性的资源调度方法 被引量:5
6
作者 孙瑞琦 杨杰 +1 位作者 高瞻 贺志强 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期189-198,共10页
在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在虚拟化的Hadoop系统中效果不佳.这是因为在虚拟化的Hadoop中,... 在Hadoop系统中,大规模数据分析应用程序的数据本地性是影响其性能的关键因素.传统的Hadoop系统是部署在物理机中的,目前针对传统Hadoop系统提高数据本地性的资源调度方法在虚拟化的Hadoop系统中效果不佳.这是因为在虚拟化的Hadoop中,数据的分布被分为2个层次:虚拟机和物理机.采用将计算节点和存储节点分别部署在不同虚拟机中的方式部署虚拟化Hadoop系统,并提出了一种提高数据本地性的资源调度方法.首先,在任务提交阶段,调节作为计算节点的虚拟机的计算能力,使其能够运行数据本地性较高的任务;其次,在任务运行阶段,通过迁移计算节点到任务所需数据存储节点所在的物理机以提高数据本地性.实验表明,提出的方法能够使86%的测试程序的作业完成时间在不同程度上有所减少.特别地,在测试案例TeraSort中处理10GB的数据,该方法比传统方法缩短了33%的作业完成时间. 展开更多
关键词 虚拟化hadoop hadoop部署 数据本地性 资源调度 在线迁移
在线阅读 下载PDF
基于Hadoop的海量电信数据云计算平台研究 被引量:29
7
作者 黎宏剑 刘恒 +1 位作者 黄广文 卜立 《电信科学》 北大核心 2012年第8期80-85,共6页
传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对... 传统的数据分析方法面对海量电信数据存在管理和分析难的问题。Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域。本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法 ,建立了基于Hadoop的海量电信数据云计算平台。实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率。 展开更多
关键词 云计算平台 hadoop MAPREDUCE 海量数据 电信运营商
在线阅读 下载PDF
Hadoop平台下的并行Web日志挖掘算法 被引量:6
8
作者 周诗慧 殷建 《计算机工程》 CAS CSCD 2013年第6期43-46,共4页
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算... 当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈。针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件。实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法。 展开更多
关键词 hadoop框架 WEB挖掘 WEB日志 MapReduce编程模式 hadoop分布式文件系统 并行FP-growth算法
在线阅读 下载PDF
基于云计算平台Hadoop的并行k-means聚类算法设计研究 被引量:84
9
作者 赵卫中 马慧芳 +1 位作者 傅燕翔 史忠植 《计算机科学》 CSCD 北大核心 2011年第10期166-168,176,共4页
随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策... 随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。 展开更多
关键词 云计算 hadoop平台 并行k-means MAPREDUCE
在线阅读 下载PDF
Hadoop系统性能优化与功能增强综述 被引量:72
10
作者 董新华 李瑞轩 +3 位作者 周湾湾 王聪 薛正元 廖东杰 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期1-15,共15页
Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算... Hadoop已成为大数据关键部件,并获得了越来越多的支持.由于认识到Hadoop的巨大潜力,更多的用户在使用现有Hadoop平台技术的同时,着手研发和优化现有技术,以对Hadoop进行补充.在给出Hadoop系统基本框架的基础上,阐述了MapReduce并行计算框架优化、作业调度优化、HDFS性能优化、HBase性能优化和Hadoop功能增强等研究现状,分析已有技术的优势和不足,并探讨了未来的研究方向. 展开更多
关键词 大数据 hadoop 性能优化 MAPREDUCE 作业调度 HDFS
在线阅读 下载PDF
基于Hadoop的智能电网状态监测数据存储研究 被引量:51
11
作者 刘树仁 宋亚奇 +1 位作者 朱永利 王德文 《计算机科学》 CSCD 北大核心 2013年第1期81-84,共4页
智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验... 智能电网需要收集海量设备状态监测数据,这对数据存储与查询提出了更高的要求。为处理这些海量数据,设计并实现了基于Hadoop技术的数据存储系统,包括Hadoop集群、存储客户端和查询客户端。通过基准测试、存储结果验证和查询性能分析,验证了该系统具有分布式海量存储及高效查询的优势,适合智能电网环境下设备状态监测数据的存储。 展开更多
关键词 hadoop HDFS MAPREDUCE 电力设备 状态监测 智能电网
在线阅读 下载PDF
基于Hadoop平台的海量文本分类的并行化 被引量:35
12
作者 向小军 高阳 +1 位作者 商琳 杨育彬 《计算机科学》 CSCD 北大核心 2011年第10期184-188,共5页
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单... 文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。 展开更多
关键词 文本分类 并行化 海量数据 hadoop
在线阅读 下载PDF
基于Hadoop的气象大数据分析GIS平台设计与试验 被引量:21
13
作者 李涛 冯仲科 +1 位作者 孙素芬 程文生 《农业机械学报》 EI CAS CSCD 北大核心 2019年第1期180-188,共9页
针对海量气象数据在传统Web GIS平台下存储和分析计算受到限制的问题,提出基于Hadoop的分布式计算和存储框架,使用了Hadoop生态体系中的HDFS分布式文件存储框架来存储管理分析海量气象数据。在海量数据的并行计算分析方面,使用MapReduc... 针对海量气象数据在传统Web GIS平台下存储和分析计算受到限制的问题,提出基于Hadoop的分布式计算和存储框架,使用了Hadoop生态体系中的HDFS分布式文件存储框架来存储管理分析海量气象数据。在海量数据的并行计算分析方面,使用MapReduce作为分布式计算编程模型,该模型通过分析海量气候数据可对农业生产进行决策。最后,利用地理信息系统空间可视化技术,在前端页面以三维形式对分析结果进行展示,并分析比较数据量和集群中节点数对计算耗时的影响。试验结果表明,使用分布式多节点集群可以有效提高海量气象数据的存储和计算效率,解决了传统Web GIS平台数据存储与计算的局限性问题。 展开更多
关键词 气象数据 分布式 hadoop MAPREDUCE
在线阅读 下载PDF
云计算中Hadoop技术研究与应用综述 被引量:77
14
作者 夏靖波 韦泽鲲 +1 位作者 付凯 陈珍 《计算机科学》 CSCD 北大核心 2016年第11期6-11,48,共7页
Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学... Hadoop作为当今云计算与大数据时代背景下最热门的技术之一,其相关生态圈与Spark技术的结合一同影响着学术发展和商业模式。首先介绍了Hadoop的起源和优势,阐明相关技术原理,如MapReduce,HDFS,YARN,Spark等;然后着重分析了当前Hadoop学术研究成果,从MapReduce算法的改进与创新、HDFS技术的优化与创新、二次开发与其它技术相结合、应用领域创新与实践4个方面进行总结,并简述了国内外应用现状。而Hadoop与Spark结合是未来的趋势,最后展望了Hadoop未来研究的发展方向和亟需解决的问题。 展开更多
关键词 云计算 大数据 hadoop SPARK MAPREDUCE
在线阅读 下载PDF
Hadoop云平台MapReduce模型优化研究 被引量:10
15
作者 张红 王晓明 +3 位作者 曹洁 马彦宏 郭义戎 王慜 《计算机工程与应用》 CSCD 北大核心 2016年第22期22-25,共4页
针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细... 针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明Map Reduce+Open MP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。 展开更多
关键词 hadoop MAPREDUCE OPENMP 分布式 并行
在线阅读 下载PDF
基于Hadoop的海量MP3文件存储架构 被引量:28
16
作者 赵晓永 杨扬 +1 位作者 孙莉莉 陈宇 《计算机应用》 CSCD 北大核心 2012年第6期1724-1726,共3页
MP3作为数字音乐时代的事实标准,数量已相当巨大,用户的访问需求也与日俱增,有效存储和管理海量的MP3文件,为用户提供良好的体验,越来越引起人们的关注。Hadoop的出现,提供了一种新的思路。但由于Hadoop自身并不适合海量小文件处理,提... MP3作为数字音乐时代的事实标准,数量已相当巨大,用户的访问需求也与日俱增,有效存储和管理海量的MP3文件,为用户提供良好的体验,越来越引起人们的关注。Hadoop的出现,提供了一种新的思路。但由于Hadoop自身并不适合海量小文件处理,提出一种基于Hadoop的海量MP3文件存储架构,充分利用MP3文件自身包含的丰富描述信息,通过预处理模块的归类算法,将小文件归并到Sequence File中,同时引入高效的索引机制,很好地解决了小文件过多时NameNode内存瓶颈问题。实验证明,该架构能达到良好的效果。 展开更多
关键词 hadoop MP3 小文件 富元数据 存储架构
在线阅读 下载PDF
基于Hadoop的数值预报产品服务平台设计与实现 被引量:34
17
作者 李永生 曾沁 +1 位作者 徐美红 石小英 《应用气象学报》 CSCD 北大核心 2015年第1期122-128,共7页
数值预报产品数据与日俱增,采用传统的关系型数据库对其进行存储和管理存在效率低和存储能力不足的问题。另外,基于文件的存储方式在数据存储处理、数据读取和算法计算等方面存在性能瓶颈。针对这一问题,基于Hadoop技术体系设计了分布... 数值预报产品数据与日俱增,采用传统的关系型数据库对其进行存储和管理存在效率低和存储能力不足的问题。另外,基于文件的存储方式在数据存储处理、数据读取和算法计算等方面存在性能瓶颈。针对这一问题,基于Hadoop技术体系设计了分布式的数据存储模型,实现了数值预报产品数据的分布式存储和处理,开发了数值预报产品数据接入处理模块;并实现了基于Rest Web Service的获取数值预报产品要素场数据访问接口、时间序列数据访问接口、数据下载接口等业务应用接口。多业务用户的实际业务测试表明,该平台在诸如数值预报产品气象数据处理和业务应用方面较传统技术架构具有一定优势。 展开更多
关键词 hadoop技术体系 气象数据 WEB Service接口
在线阅读 下载PDF
Hadoop集群部署实验的设计与实现 被引量:20
18
作者 孟永伟 黄建强 +1 位作者 曹腾飞 王晓英 《实验技术与管理》 CAS 北大核心 2015年第1期145-149,共5页
阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出... 阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出了实现过程。通过该实验能够让学生从理论和实践上掌握Hadoop有关的技术知识。 展开更多
关键词 hadoop 集群部署 HDFS MAPREDUCE NameNode DataNode JobTrack TaskTrack
在线阅读 下载PDF
基于Hadoop的智能电网数据安全存储设计 被引量:45
19
作者 张少敏 李晓强 王保义 《电力系统保护与控制》 EI CSCD 北大核心 2013年第14期136-140,共5页
针对智能电网下海量数据的存储问题及数据保密性和完整性需求,分析了现有安全存储方案的特点,结合智能电网应用环境的特殊场合,设计了一种基于Hadoop的智能电网数据安全存储方案。该方案充分利用了HBase高性能优势和现代密码技术,将密... 针对智能电网下海量数据的存储问题及数据保密性和完整性需求,分析了现有安全存储方案的特点,结合智能电网应用环境的特殊场合,设计了一种基于Hadoop的智能电网数据安全存储方案。该方案充分利用了HBase高性能优势和现代密码技术,将密钥与密文的管理分离,具有安全性好、密钥管理方便及效率高等特点。开发了基于Hadoop的原型系统,对方案的时间开销进行了分析,并通过相关实验证明了方案的有效性和可行性。 展开更多
关键词 智能电网 云计算 hadoop 数据安全 安全存储
在线阅读 下载PDF
基于Hadoop的高效连接查询处理算法CHMJ 被引量:36
20
作者 赵彦荣 王伟平 +2 位作者 孟丹 张书彬 李均 《软件学报》 EI CSCD 北大核心 2012年第8期2032-2041,共10页
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多... 提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍. 展开更多
关键词 大数据 hadoop 连接查询处理 HashMapJoin
在线阅读 下载PDF
上一页 1 2 63 下一页 到第
使用帮助 返回顶部