-
题名面向近似近邻查询的分布式哈希学习方法
被引量:11
- 1
-
-
作者
文庆福
王建民
朱晗
曹越
龙明盛
-
机构
清华大学软件学院
清华大学信息科学与技术国家实验室(筹)
-
出处
《计算机学报》
EI
CSCD
北大核心
2017年第1期192-206,共15页
-
基金
清华大学信息科学与技术国家实验室大数据科学与技术专项基金
国家自然科学基金(61325008
+1 种基金
61502265)
中国博士后基金特别资助项目(2015T80088)资助~~
-
文摘
近似近邻查询是信息检索领域中的一项重要技术.随着文本、图像、视频等非结构化数据规模的迅速增长,如何对海量高维数据进行快速、准确的查询是处理大规模数据所必须面对的问题.哈希作为近似近邻查询的关键方法之一,能够在保持数据相似性的条件下对高维数据进行大比例压缩.以往所提出的哈希方法往往都是应对集中式存储的数据,因而难以处理分布式存储的数据.该文提出了一种基于乘积量化的分布式哈希学习方法SparkPQ,并在Spark分布式计算框架下实现算法.在传统的乘积量化方法的基础上,该文首先给出了分布式乘积量化模型的形式化定义.然后,作者设计了一种按行列划分的分布式矩阵,采用分布式K-Means算法实现模型求解和码本训练,利用训练出的码本模型对分布式数据进行编码和索引.最终,该文构建了一套完整的近似近邻查询系统,不仅可以大幅降低存储和计算开销,而且在保证高检索准确率的条件下加速查询效率.在较大规模的图像检索数据集上进行的实验验证了方法的正确性和可扩展性.
-
关键词
近似近邻查询
哈希学习
高维索引
分布式计算
SPARK
-
Keywords
approximate nearest neighbor search
learning to hash
high-dimensional indexing
distributed computing
Spark
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-