期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于Hadoop的多表链接策略 被引量:2
1
作者 徐剑 陈群 +1 位作者 王卓 李战怀 《现代电子技术》 2014年第6期90-94,共5页
Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果... Hadoop系统在处理多表链接问题时,每轮都会将大量的中间结果写入本地磁盘,从而严重降低了系统的处理效率。为解决该问题,提出一种"替换-查询"方法,该方法通过对链接表建立索引,将预输出的元组集替换为索引信息输出到中间结果,以索引的形式参与多表链接,以此减少中间结果的I/O代价。运用缓冲池、二次排序和多线程技术对索引信息进行优化管理,加快索引查询速度。最后在TPC-H数据集上,设计了与原Hadoop的对比实验,结果表明该方法可减少35.5%的存储空间,提高12.9%的运行效率。 展开更多
关键词 多表链接 替换-查询 索引 缓冲池 二次排序
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部