期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
1
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
在线阅读 下载PDF
HDFS下载效率的优化 被引量:23
2
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 hadoop档案系统(hdfs) 多线程 并行下载
在线阅读 下载PDF
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
3
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 hadoop分布式文件系统(hdfs) PSD-BPA
在线阅读 下载PDF
基于Hadoop生态系统的大数据解决方案综述 被引量:119
4
作者 陈吉荣 乐嘉锦 《计算机工程与科学》 CSCD 北大核心 2013年第10期25-35,共11页
一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:... 一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。 展开更多
关键词 大数据 hadoop生态系统 MAPREDUCE hdfs 列存储数据库
在线阅读 下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
5
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 hadoop分布式文件系统(hdfs) 一致性
在线阅读 下载PDF
基于Hadoop平台的农产品价格数据爬取和存储系统的研究 被引量:4
6
作者 杨晓东 郜鲁涛 +1 位作者 杨林楠 刘建阳 《计算机应用与软件》 2017年第3期76-80,共5页
目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpC... 目前许多大型农贸市场和农业信息商务平台都在实时发布每天各地区不同农产品的价格数据。针对数据更新快、数据量大、数据形式多样,使数据的爬取和存储以及后续的分析工作变得困难,提出基于Hadoop的农产品价格爬取及存储系统。利用HttpClient框架结合线程池通过多线程爬取,爬取结束后执行完整性检查,过滤出信息不完整的网页,进行二次爬取直到信息完整。对爬取到的网页使用正则表达式进行解析和清洗,提取有用的数据,以文本文件的形式存入HDFS(Hadoop Distributed File System),此后爬取到的数据以追加的方式写入HDFS文件中。实验表明HDFS的写入性能满足爬取数据不断递增的现状,副本数越少,数据块越大,写入性能越好。 展开更多
关键词 分布式系统 爬虫 hadoop hdfs 正则表达式
在线阅读 下载PDF
眼科医疗影像文件存取下的HDFS负载均衡 被引量:1
7
作者 刘烁阳 周丽娟 +1 位作者 任仲山 张树东 《计算机工程与应用》 CSCD 北大核心 2017年第2期253-259,264,共8页
在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过... 在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服务器节点的平均响应时间,有利于提高HDFS集群整体的工作效率。 展开更多
关键词 hadoop分布式文件系统(hdfs) 分布式集群 负载均衡 眼科医疗 影像文件存取
在线阅读 下载PDF
初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究 被引量:1
8
作者 段效琛 李英娜 +2 位作者 贾会玲 赵振刚 李川 《传感器与微系统》 CSCD 2017年第4期31-33,38,共4页
随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(... 随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(GA)与蚁群优化算法(ACO)算法相结合,将它们进行动态衔接。提出基于初始信息素筛选的ACO算法,既克服了ACO算法初始搜索速度慢,又充分利用GA的快速随机全局搜索能力。利用云计算仿真工具Cloud Sim来验证此策略的效果,结果表明:Init Ph_ACO策略在作业执行时间、副本读取响应时间和副本负载均衡性三个方面的性能均优于基于ACO算法的副本选择策略和基于GA的副本选择策略。 展开更多
关键词 hadoop分布式文件系统(hdfs) 副本选择 初始信息素筛选 蚁群优化算法 遗传算法
在线阅读 下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
9
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 hadoop hadoop的分布式文件系统(hdfs) MAPREDUCE 小文件处理 文件输入格式
在线阅读 下载PDF
Hadoop中处理小文件的四种方法的性能分析 被引量:8
10
作者 李三淼 李龙澍 《计算机工程与应用》 CSCD 北大核心 2016年第9期44-49,共6页
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input ... Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input Format输入格式、Sequence File技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。 展开更多
关键词 hadoop 小文件处理 hadoop的分布式文件系统(hdfs) MAPREDUCE 大数据
在线阅读 下载PDF
云环境下分布式文件系统负载均衡研究 被引量:13
11
作者 吴瑶瑶 杨庚 《计算机工程与应用》 CSCD 北大核心 2019年第10期67-72,224,共7页
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载... Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载均衡不足。虽然Hadoop系统自带的负载均衡器可以实现均衡调整,但需要用户预先给出静态的阈值。为了解决阈值的固定性和主观性,通过对磁盘空间使用率、CPU利用率、内存利用率、磁盘I/O占用率、网络带宽占用率等参数的分析评估优化,形成对阈值的计算表达式,并通过理论分析和仿真实验对阈值的计算和负载均衡进行验证。实验结果表明,相比较Hadoop静态的输入阈值的算法,该方法达到了更好的平衡效果,提高了计算资源的利用率。 展开更多
关键词 云环境 hadoop分布式文件系统(hdfs) 负载均衡 动态阈值
在线阅读 下载PDF
海量样本数据集中小文件的存取优化研究 被引量:5
12
作者 马振 哈力旦.阿布都热依木 李希彤 《计算机工程与应用》 CSCD 北大核心 2018年第22期80-84,98,共6页
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,... 针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统(hdfs) 小文件 样本数据集 缓存预取 分布式数据库 HBASE
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部