-
题名大数据环境下支持概率数据范围查询索引的研究
被引量:2
- 1
-
-
作者
朱睿
王斌
杨晓春
王国仁
-
机构
东北大学信息科学与工程学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第10期1929-1946,共18页
-
基金
国家"九七三"重点基础研究发展规划项目基金(2012CB316201)
国家自然科学基金(61272178
+5 种基金
61572122
61173031
61129002
61532021
U1401256)
国家优秀青年科学基金(61322208)资助~~
-
文摘
随着数据规模的不断增长,大数据管理具有重要意义.在众多数学模型中,因为概率模型可以将海量数据抽象成少量概率数据,所以它非常适合管理大数据.因此,研究大数据环境下的概率数据管理具有重要意义.作为一种经典查询,基于概率数据的范围查询已被深入研究.然而,当前研究成果不适合在大数据环境下使用.其根本原因是这些索引的更新代价较大.该文提出了索引HGD-Tree解决这一问题.首先,该文提出了一系列算法降低新增数据的处理代价.它可以保证树结构平衡的前提下快速地执行插入、删除、更新等操作.其次,该文提出了一种基于划分的方法构建概率对象的概要信息.它可以根据概率密度函数的特点自适应地执行划分.此外,由于作者提出的概要是基于比特向量,上述策略可以保证索引以较低空间代价管理概率数据.最后,该文提出了一种基于位运算的方法访问HGD-Tree.它可以用少量的位运算执行过滤操作.大量的实验验证了算法的有效性.
-
关键词
大数据
概率数据
索引
概率概要信息
多分辨率网格
-
Keywords
big-data
range query
index
summary
multi-resolution grid
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-