-
题名高维空间近邻检索的双层组合量化GPU加速算法
被引量:5
- 1
-
-
作者
邓理睿
包涵
陈靓
全成斌
赵有健
-
机构
清华大学计算机科学与技术系
中国石油勘探开发研究院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2019年第2期390-394,共5页
-
基金
国家自然科学基金项目(61472210
61233007)资助
-
文摘
在大规模视频、图像、文本检索等许多实际应用中,高维空间内海量数据的索引及近邻检索一直是难点和关键问题之一.传统的K-D树等树形索引方法在高维空间中容易陷入"维度灾难",而主流的哈希散列方法(如局部敏感哈希)空间复杂度较高,在大规模数据下难以应用.本文总结了近年来基于向量量化的检索算法的相关研究,提出了一种基于GPU优化的高维数据近似近邻检索算法,在组合量化算法的基础上融合双层索引树结构与局部子空间最优化思想,在提高算法准确率的同时针对GPU模型优化算法,极大改善了检索性能,在单张GPU上实现了十亿量级高维数据的高效近似近邻检索.
-
关键词
近似近邻检索
组合量化
GPU
高维索引
-
Keywords
approximate nearest neighbor
composite quantization
GPU
high-dimension indexing
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名开放环境多分布特性的局部敏感哈希检索方法
被引量:13
- 2
-
-
作者
张仕
赖会霞
肖如良
潘淼鑫
张路路
陈伟林
-
机构
福建师范大学计算机与网络空间安全学院
数字福建环境监测物联网实验室(福建师范大学)
福建省网络安全与密码技术重点实验室(福建师范大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第4期1200-1217,共18页
-
基金
国家自然科学基金(61772004)
福建省科技重大项目(2020H6011)
福建省自然科学基金(2020J01161)。
-
文摘
基于局部敏感哈希的检索方法能够较好地解决高维大规模数据的近似近邻检索问题.但在开放环境下针对多种分布特性时,迄今尚未有令人满意的解决方案.利用Laplacian算子对数据分布剧烈变化敏感的特性,提出一种具有全局性、适用于开放环境下多种分布特性的基于Laplacian算子的局部敏感哈希搜索方法(LPLSH).该方法把Laplacian算子应用于数据投影的概率密度分布,找到数据投影分布的剧烈变化位置作为超平面的偏移量.从理论上证明了精简维度的哈希函数能够保持局部敏感性及低投影密度区间分割的有效性,分析了利用Laplacian算子计算的二阶导数对超平面偏移量设置的指导意义.与其他8种方法对比,LPLSH算法的F1值是其他方法最优值的0.8倍-5倍,耗费时间也大幅减少.通过对具有多种分布特性数据集上的实验验证,结果表明:LPLSH方法能够同时兼顾效率、精度和召回率,可满足开放环境下多分布特性的大规模高维检索的鲁棒性需求.
-
关键词
开放环境
近似近邻检索
数据多分布特性
局部敏感哈希
数据检索
-
Keywords
open environment
nearest neighbor search
data multiple distributed characteristics
locality-sensitive hashing
data retrieval
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于随机森林的哈希检索算法
被引量:6
- 3
-
-
作者
花强
郭欣欣
张峰
董春茹
-
机构
河北大学河北省机器学习与计算智能重点实验室
-
出处
《计算机科学与探索》
CSCD
北大核心
2019年第7期1174-1183,共10页
-
基金
河北省自然科学基金面上项目Nos.F2018201115,F2018201096
河北省教育厅青年基金No.QN2017019
河北省教育厅科学技术研究重点项目No.ZD2019021~~
-
文摘
从海量数据中进行近似数据的检索是数据挖掘领域许多应用的关键。尤其近年来,数据的规模出现爆炸式增长,数据检索需面对海量数据和“维度灾难”的叠加考验,这使得传统最近邻算法效率降低,而近似最近邻算法发挥了越来越重要的作用。其中哈希算法以其在存储空间和计算时间上的优势受到了广泛关注。提出了一种基于随机森林的哈希算法。该算法通过构建随机森林,将原始空间的样本映射为海明空间的二进制哈希码,并在哈希空间上定义了顺序敏感的海明距离,以最大程度保持数据在原空间的近邻关系不变。由于随机森林中不同决策树所使用的特征空间和学习过程是独立的,可以以增量的方式灵活地确定哈希码的长度。此外基于随机森林的哈希编码算法天然适合并行部署,从而可以大大提高算法速度。最后,在MNIST和CIFAR-10数据集对所提算法进行了实验验证,结果表明了算法的有效性和出色性能。
-
关键词
近似近邻检索(ANNS)
哈希编码
随机森林
顺序敏感的海明距离
-
Keywords
approximate nearest neighbor search (ANNS)
Hashing code
random forest
order-sensitive Hamming distance
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于卷积神经网络和监督核哈希的图像检索方法
被引量:37
- 4
-
-
作者
柯圣财
赵永威
李弼程
彭天强
-
机构
解放军信息工程大学信息系统工程学院
武警工程大学电子技术系
河南工程学院计算机学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2017年第1期157-163,共7页
-
基金
国家自然科学基金(No.60872142
No.61301232)
-
文摘
当前主流的图像检索方法采用的视觉特征,缺乏自主学习能力,导致其图像表达能力不强,此外,传统的特征索引方法检索效率较低,难以适用于大规模图像数据.针对这些问题,本文提出了一种基于卷积神经网络和监督核哈希的图像检索方法.首先,利用卷积神经网络的学习能力挖掘训练图像内容的内在隐含关系,提取图像深层特征,增强特征的视觉表达能力和区分性;然后,利用监督核哈希方法对高维图像深层特征进行监督学习,并将高维特征映射到低维汉明空间中,生成紧致的哈希码;最后,在低维汉明空间中完成对大规模图像数据的有效检索.在Image Net-1000和Caltech-256数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索效率,优于当前主流方法.
-
关键词
深度学习
图像检索
卷积神经网络
近似近邻检索
监督核哈希
-
Keywords
deep learning
image retrieval
convolutional neural network
approximate nearest neighbor
kernel-based supervised Hashing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-