-
题名LIFT:一种用于高维数据的索引结构
被引量:5
- 1
-
-
作者
薛向阳
罗航哉
吴立德
-
机构
复旦大学计算机系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2001年第2期192-195,共4页
-
基金
自然科学基金重点项目! (No.699350 1 0 )
国家863-317-01-07-99
自然科学基金项目! (No.60 0 0 30 1 7)
-
文摘
本文提出一种新的高维空间中点数据的索引方法 ,其基本原理是用格矢量量化 (Latticevectorquantiza tion)均匀划分数据空间、用倒排文件 (InvertedFile)存储格点、用Trie树实现倒排文件的组织和存储、用Trie并行搜索算法实现倒排文件的快速访问 .和传统索引方法相比 ,新方法具有许多优点 ,例如它能以较低的复杂度建立索引结构、支持非常高维的数据索引、充分利用高维空间中点分布的稀疏性等 .实验结果表明 ,在较高维数时 ,LIFT性能优于传统索引方法 .
-
关键词
索引结构
相似性检索
高维数据索引
程序设计
-
Keywords
Computer simulation
Data processing
Information retrieval
Parallel algorithms
Trees (mathematics)
Vector quantization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于改进的局部敏感哈希算法实现图像型垃圾邮件过滤
被引量:13
- 2
-
-
作者
曹玉东
刘艳洋
贾旭
王冬霞
-
机构
辽宁工业大学电子与信息工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2016年第6期1693-1696,共4页
-
基金
国家自然科学基金资助项目(61272214)
辽宁省自然科学基金资助项目(201302022)
辽宁工业大学教师科研启动基金资助项目(X201216)
-
文摘
提出一种快速的图像型垃圾邮件过滤方案,结合半监督机器学习技术改进局部敏感哈希(LSH)算法,基于改进的LSH算法构建垃圾图像特征库索引,提高图像的查找速度。搜集并构造了60 000个垃圾图像样本,实验结果表明,利用改进的LSH算法能有效地提高垃圾图像的过滤速度。
-
关键词
垃圾图像过滤
局部敏感哈希
图像特征提取
高维数据索引
-
Keywords
image spam filtering
LSH
image feature extraction
high dimension data index
-
分类号
TP393.098
[自动化与计算机技术—计算机应用技术]
-
-
题名低空间复杂度的LSH算法及其在图像检索中的应用
被引量:2
- 3
-
-
作者
曹玉东
刘艳洋
孙福明
贾旭
-
机构
辽宁工业大学电子与信息工程学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2015年第2期379-383,共5页
-
基金
国家自然科学基金资助项目(61272214)
辽宁省自然科学基金资助项目(2013020020)
+1 种基金
辽宁省教育厅一般项目(L2013241)
辽宁工业大学教师科研启动基金(X201216)
-
文摘
局部敏感哈希LSH算法是有效的高维数据索引方法,如何生成哈希函数是算法的关键部分。LSH算法的哈希函数是基于p-稳态分布随机生成的,为了提高算法性能就需要增加哈希表的数量,但这会增加算法的空间复杂度。改进后的LSH算法(I-LSH)在生成哈希函数时不需要有标记的训练样本,而是仅仅利用数据点的分布信息构造投影方向。实验结果表明,在不显著降低检索性能的情况下,ILSH有效地降低了内存的使用量,适合处理大规模数据。
-
关键词
高维数据索引
局部敏感哈希索引
图像检索
Gist特征
-
Keywords
high data indexing
LSH indexing
image retrieval
Gist feature
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名量化编码的分层可通航小世界图算法
被引量:1
- 4
-
-
作者
李秋珍
白兴强
李立夏
王赢
-
机构
武汉数字工程研究所
华中科技大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2019年第4期618-625,共8页
-
基金
军委装备发展部科研订购局"十三五"装备预研领域基金(61401320501)
-
文摘
随着大数据和人工智能的高速发展,针对多媒体数据的结构化处理与基于内容的检索受到极大的关注,面对多媒体数据结构化后的海量高维特征向量,如何快速、准确地检索是人工智能处理大规模数据所必须解决的问题。最近提出的分层可通航小世界图HNSW检索算法在多个公开数据集取得了最佳的性能表现,但该算法存在内存开销大的问题。而基于量化编码的检索算法能够压缩数据集向量,大幅度降低内存占用。将量化编码和分层可通航小世界图算法结合,提出了2种基于量化编码改进的HNSW算法,分别是使用标量量化编码向量的HNSWSQ算法和使用乘积量化编码向量的HNSWPQ算法,2种算法使用不同的量化策略存储原始向量编码,以降低内存开销,再通过HNSW算法建立索引达到缩短检索耗时的目的。其中HNSWSQ算法在多个数据集上获得了与HNSW算法相近的查全率和平均检索耗时,而内存开销大幅降低。实验结果表明,HNSWSQ算法在SIFT-1M和GIST-1M数据集上的内存开销比HNSW算法分别降低了45.1%和70.4%。
-
关键词
近似最近邻检索
分层可通航小世界图算法
乘积量化
标量量化
相似性搜索
高维数据索引
-
Keywords
approximate nearest neighbor search
hierarchical navigable small world graph algorithm
product quantization
scalar quantization
similarity search
indexing of high-dimensional data
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-