期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
HiBase:一种基于分层式索引的高效HBase查询技术与系统 被引量:56
1
作者 葛微 罗圣美 +6 位作者 周文辉 赵頔 唐云 周娟 曲文武 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2016年第1期140-153,共14页
大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主... 大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍. 展开更多
关键词 HBASE 非主键索引 查询处理 分层式索引 缓存替换策略 大数据
在线阅读 下载PDF
HOS:一种基于HBase的分布式存储系统设计与实现 被引量:18
2
作者 季一木 张宁 +4 位作者 尧海昌 李奎 李航 刘尚东 王汝传 《南京邮电大学学报(自然科学版)》 北大核心 2019年第5期63-71,共9页
大数据时代,数据快速增长,迫切需要寻找有效的数据存储方案,HBase系统具有分布式、列式存储的特点,为大数据的存储管理提供了一种高效的解决方案。由于HBase只支持主键索引,对于非主键查询效率低下,难以满足实时需求。为此,提出一种分... 大数据时代,数据快速增长,迫切需要寻找有效的数据存储方案,HBase系统具有分布式、列式存储的特点,为大数据的存储管理提供了一种高效的解决方案。由于HBase只支持主键索引,对于非主键查询效率低下,难以满足实时需求。为此,提出一种分层式索引查询模型,该模型基于HBase建立持久性索引层,基于Redis建立分布式热点索引缓存层。前者为存储在HBase中的数据建立索引表,提高查询效率,后者基于Redis在内存中存储热点索引,降低磁盘访问开销,进一步提高查询效率。最终,依据此模型实现了分层式索引查询系统HOS,基于Imagenet图片数据集对HOS进行实验,实验结果表明,HOS数据查询性能优于标准HBase。 展开更多
关键词 HBASE 查询处理 分层式索引 分布存储
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部