-
题名基于Hadoop的高效连接查询处理算法CHMJ
被引量:36
- 1
-
-
作者
赵彦荣
王伟平
孟丹
张书彬
李均
-
机构
中国科学院计算技术研究所
中国科学院国家智能计算机研究开发中心
中国科学院研究生院
腾讯公司数据平台部
-
出处
《软件学报》
EI
CSCD
北大核心
2012年第8期2032-2041,共10页
-
基金
国家自然科学基金(60903047)
-
文摘
提出了一种并行连接查询处理算法CoLocationHashMapJoin(CHMJ).首先,设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,在提升了连接查询处理中数据本地性的同时,保证了数据的可用性;其次,基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了连接查询的处理效率.CHMJ算法在腾讯公司的数据仓库系统中进行了应用,结果表明,CHMJ连接查询的处理效率比Hive系统提高了近5倍.
-
关键词
大数据
HADOOP
连接查询处理
HashMapJoin
-
Keywords
big data
Hadoop
join query processing
HashMapJoin
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-