期刊文献+
共找到64篇文章
< 1 2 4 >
每页显示 20 50 100
基于点云配准与最近邻搜索的钢轨磨耗测量方法 被引量:1
1
作者 曾杉 王文斌 +3 位作者 尹太军 彭建川 刘艳彩 张杰 《燕山大学学报》 北大核心 2025年第1期55-65,共11页
提出了基于点云配准和最邻近搜索的方法,以解决钢轨轨腰处钢印噪声导致的轨顶磨耗测量点识别误差较大的问题,并成功实现了钢轨垂直和侧面磨耗点的自动定位。首先,通过坐标系旋转和点云滤波等预处理技术,以钢轨轮廓作为数据单元,获取有... 提出了基于点云配准和最邻近搜索的方法,以解决钢轨轨腰处钢印噪声导致的轨顶磨耗测量点识别误差较大的问题,并成功实现了钢轨垂直和侧面磨耗点的自动定位。首先,通过坐标系旋转和点云滤波等预处理技术,以钢轨轮廓作为数据单元,获取有效的钢轨配准数据。接着,采用非线性拟合方法拟合轨腰圆弧的圆心,以此作为基准点进行任意状态下的点云初步粗配准。对于在轨腰处出现钢印编号的实际测量情况,采用了轨顶与轨腰点云的ICP加权精配准方案,实现测量轮廓与标准轮廓的精确重合。最后,根据钢轨磨耗计量办法,以标准钢轨轮廓指定位置坐标线为基准线,在配准后的点云数据中,通过最邻近搜索的方法寻找距离基准线最近的坐标,从而精确定位磨耗测量点的位置。实验结果表明,该方法能高效且精确地提取钢轨磨耗测量点。文章最后以三维图的方式展示磨耗测量点与标准轮廓的对比,其特征点提取的标准偏差小于0.1 mm,最大偏差小于0.3 mm。 展开更多
关键词 钢轨磨耗 点云预处理 加权点云配准 最近邻搜索
在线阅读 下载PDF
面向点云识别的最近邻搜索硬件加速器
2
作者 陈立 李桢旻 马宇晴 《合肥工业大学学报(自然科学版)》 北大核心 2025年第2期179-184,共6页
动态图卷积神经网络(dynamic graph convolutional neural network,DGCNN)作为点云识别主流算法之一,主要由边缘卷积层构成,而最近邻搜索操作占据边缘卷积层63%的计算时间。文章针对现有的最近邻搜索加速器准确率较低、速度较慢的问题,... 动态图卷积神经网络(dynamic graph convolutional neural network,DGCNN)作为点云识别主流算法之一,主要由边缘卷积层构成,而最近邻搜索操作占据边缘卷积层63%的计算时间。文章针对现有的最近邻搜索加速器准确率较低、速度较慢的问题,设计一种面向点云识别的最近邻搜索硬件加速器。该加速器采用基于点云分割的并行双调流水排序结构进行2轮双调排序,并用曼哈顿距离替代欧氏距离衡量点与点距离的远近。实验结果表明,在同样的实验环境配置下,相较于其他点云最近邻搜索加速器,文章设计的最近邻搜索加速器速度提升了3.6倍。 展开更多
关键词 最近邻搜索 硬件加速器 边缘卷积 双调排序 曼哈顿距离
在线阅读 下载PDF
采用定权最近邻搜索的信息集译码算法
3
作者 刘冰 冯雨薇 +1 位作者 聂艇 吴旭聃 《密码学报(中英文)》 CSCD 北大核心 2024年第6期1278-1292,共15页
伴随式译码问题是基于编码的密码算法核心问题之一,通常用信息集译码(ISD)方式来评估这类算法,而近期信息集译码算法的进展又依赖于该算法中非常重要的步骤—最近邻技术.本文整理了信息集译码算法的发展过程,给出信息集译码算法的复杂... 伴随式译码问题是基于编码的密码算法核心问题之一,通常用信息集译码(ISD)方式来评估这类算法,而近期信息集译码算法的进展又依赖于该算法中非常重要的步骤—最近邻技术.本文整理了信息集译码算法的发展过程,给出信息集译码算法的复杂度变化情况,分析改进的方向与方案之间的区别.总结出三个主要的改进方向,即框架、搜索方式和搜索树的深度.针对信息集译码算法中的核心内容,研究了最近邻技术的变化.在BM算法的框架基础上提出了采用定权最近邻技术且深度为6的BM-plus-depth6算法,所提算法在最坏码率情况下,全距离译码时间复杂度可以降低至2^(0.0944n),半距离译码时间复杂度可以降低至2^(0.0444n). 展开更多
关键词 信息集译码 最近邻搜索 伴随式译码
在线阅读 下载PDF
基于相关信息特征最近邻搜索的快速分形图像编码 被引量:8
4
作者 王强 梁德群 毕胜 《小型微型计算机系统》 CSCD 北大核心 2011年第6期1108-1112,共5页
针对分形图像压缩算法编码时间过长的问题,提出采用相关信息特征作为最近邻搜索特征的快速分形编码算法.通过深入分析图像子块的结构特性,提出相关信息特征的定义,证明并分析了采用该特征进行最近邻搜索操作的合理性.与传统特征相比,相... 针对分形图像压缩算法编码时间过长的问题,提出采用相关信息特征作为最近邻搜索特征的快速分形编码算法.通过深入分析图像子块的结构特性,提出相关信息特征的定义,证明并分析了采用该特征进行最近邻搜索操作的合理性.与传统特征相比,相关信息特征能够更好地反映子块的结构特性,所以基于相关信息特征的最近邻搜索能够更准确地确定后续局部匹配的范围.实验表明,在编码时间相同的情况下,本文算法较其他三种同类算法能够得到更好的解码图像质量. 展开更多
关键词 图像压缩 分形图像编码 相关信息特征 最近邻搜索
在线阅读 下载PDF
基于SOFM和快速最近邻搜索的网络入侵检测系统与攻击分析 被引量:3
5
作者 郑军 胡铭曾 +1 位作者 云晓春 张宏莉 《计算机研究与发展》 EI CSCD 北大核心 2005年第9期1578-1586,共9页
近年来越来越多的机器学习算法被应用到入侵检测中.但是在网络入侵检测系统(NIDS)中,随着网络规模和速度的增加,一般机器学习算法难以满足入侵检测系统实时性的要求,这也是困扰机器学习算法在入侵检测领域进一步实用化的主要瓶颈之一.... 近年来越来越多的机器学习算法被应用到入侵检测中.但是在网络入侵检测系统(NIDS)中,随着网络规模和速度的增加,一般机器学习算法难以满足入侵检测系统实时性的要求,这也是困扰机器学习算法在入侵检测领域进一步实用化的主要瓶颈之一.为了增加网络入侵检测系统的可用性和实时性,提出了一种基于自组织特征映射(SOFM)的网络入侵检测系统,并且在此基础上实现了一种面向提高入侵检测效率的快速最近邻搜索算法VENNS,以减少系统训练和系统检测时间开销.在DARPA1999入侵检测评估数据的基础上,进行了系统的综合性能评价和对比分析.实验证明,系统在维持较低误报率的基础上取得较高的检测率;系统效率大大提高:训练时间开销大约达到改进前的14,检测时间开销则约达到改进前的17. 展开更多
关键词 入侵检测 自组织特征映射 快速最近邻搜索 量化错误
在线阅读 下载PDF
一种基于角相似性的k-最近邻搜索算法 被引量:9
6
作者 余小高 余小鹏 《计算机应用研究》 CSCD 北大核心 2009年第9期3296-3299,共4页
k-最近邻搜索(KNNS)在高维空间中应用非常广泛,但目前很多KNNS算法是基于欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用。提出一种基于角相似性的k-最近邻搜索算法(BA-KNNS)。该算法先提出基于角相似性的数据索引结构(BA-Inde... k-最近邻搜索(KNNS)在高维空间中应用非常广泛,但目前很多KNNS算法是基于欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用。提出一种基于角相似性的k-最近邻搜索算法(BA-KNNS)。该算法先提出基于角相似性的数据索引结构(BA-Index),参照一条中心线和一条参照线,将数据以系列壳—超圆锥体方式进行组织并分别线性存储;然后确定查询对象的空间位置,有效确定一个以从原点到查询对象的直线为中心线的超圆锥体并在其中进行搜索。实验结果表明,BA-KNNS算法较其他k-最近邻搜索算法有更好的性能。 展开更多
关键词 k-最近邻搜索 数据分割 角相似性 壳-超圆锥体
在线阅读 下载PDF
基于最近邻搜索耦合近邻损耗聚类的图像伪造检测算法 被引量:4
7
作者 史二颖 朱家群 杨长春 《包装工程》 CAS 北大核心 2018年第5期185-190,共6页
目的为了解决当前图像伪造检测算法在对图像进行伪造检测时,主要依靠全局搜索的方式来完成特征点匹配,导致其检测效率较低,且在对复杂伪造图像进行检测时,易出现检测精度不高和检测错误的不足。方法提出基于最近邻搜索耦合近邻损耗聚类... 目的为了解决当前图像伪造检测算法在对图像进行伪造检测时,主要依靠全局搜索的方式来完成特征点匹配,导致其检测效率较低,且在对复杂伪造图像进行检测时,易出现检测精度不高和检测错误的不足。方法提出基于最近邻搜索耦合近邻损耗聚类的图像伪造检测算法。首先引入积分图像的方法,对图像进行预处理,借助Hessian矩阵行列式来提取特征点。利用特征点构建圆形区域,通过求取圆形区域内Haar小波响应获取特征点的特征描述符。然后通过特征描述符建立KD树索引,利用最近邻搜索方法代替SURF中全局搜索的方法,对SURF进行改进,完成特征点的匹配。最后,利用特征点间的近邻关系求取近邻函数值,通过近邻函数值对特征点进行聚类,完成图像的伪造检测。结果实验结果显示,与当前图像伪造检测算法相比,所提算法具有更高的检测效率以及更高的检测正确度。结论所提算法具备较高的检测精度,在印刷防伪与信息安全等领域具有较好的应用价值。 展开更多
关键词 图像伪造检测 最近邻搜索 SURF特征 KD树 特征聚类 Haar小波响应
在线阅读 下载PDF
基于投影残差量化哈希的近似最近邻搜索 被引量:3
8
作者 杨定中 陈心浩 《计算机工程》 CAS CSCD 北大核心 2015年第12期161-165,170,共6页
针对投影哈希中投影误差较大,二进制编码时原始信息丢失严重等问题,提出一种近似最近邻搜索方法。该方法通过多阶段量化策略减少编码过程中的投影及量化误差。在每阶段训练时,对前一阶段的量化残差采用投影、按维度训练码书及量化、反... 针对投影哈希中投影误差较大,二进制编码时原始信息丢失严重等问题,提出一种近似最近邻搜索方法。该方法通过多阶段量化策略减少编码过程中的投影及量化误差。在每阶段训练时,对前一阶段的量化残差采用投影、按维度训练码书及量化、反投影等运算生成各阶段的子量化器。子量化器按投影后数据的维度提供多个哈希函数,最终的哈希函数由各阶段哈希函数共同构成。在最近邻搜索时,给二进制编码加上权重以便对搜索结果进行重排,提高搜索精度。实验结果表明,基于投影残差量化哈希的近似最近邻的搜索性能优于当前主流的哈希方法。 展开更多
关键词 投影残差量化哈希 大规模搜索 近似最近邻搜索 编码权重 多阶段量化
在线阅读 下载PDF
基于近似最近邻搜索的改进PRM算法 被引量:15
9
作者 薛阳 孙越 +2 位作者 叶晓康 李蕊 华茜 《计算机工程与设计》 北大核心 2021年第11期3211-3217,共7页
针对移动机器人工作环境范围复杂时,使用传统概率路线图(PRM)算法非常耗时的问题,提出一种改进的PRM算法。PRM算法最耗时的部分是构建无向路径图,构建无向路径图的关键是近邻搜索。通过使用近似最近邻搜索中的局部敏感哈希算法代替原先... 针对移动机器人工作环境范围复杂时,使用传统概率路线图(PRM)算法非常耗时的问题,提出一种改进的PRM算法。PRM算法最耗时的部分是构建无向路径图,构建无向路径图的关键是近邻搜索。通过使用近似最近邻搜索中的局部敏感哈希算法代替原先最近邻搜索算法,在不降低生成路线图质量的前提下,加快无向路线图的构建速度,减少PRM算法的运行时间。仿真结果表明,改进的PRM算法相较于传统的PRM算法在无向路径图建立时间上减少27.36%~33.27%,使PRM算法效率大大提高。 展开更多
关键词 概率路线图(PRM)算法 无向路径图 最近邻搜索 近似最近邻搜索 局部敏感哈希
在线阅读 下载PDF
基于P2P的自适应分布式k最近邻搜索算法 被引量:1
10
作者 余小高 余小鹏 《计算机工程》 CAS CSCD 北大核心 2009年第19期49-52,55,共5页
k最近邻搜索算法无法满足数据挖掘的分布性、实时性和可扩展性要求,针对该问题提出基于P2P的自适应分布式k最近邻搜索算法[0](P2PAKNNs)。阐述GHT*结构,定义高维数据相似度函数HDSF(X,Y),论述GHT*中的插入算法、范围查找算法和搜索算法... k最近邻搜索算法无法满足数据挖掘的分布性、实时性和可扩展性要求,针对该问题提出基于P2P的自适应分布式k最近邻搜索算法[0](P2PAKNNs)。阐述GHT*结构,定义高维数据相似度函数HDSF(X,Y),论述GHT*中的插入算法、范围查找算法和搜索算法。给出P2PAKNNs的实现过程,通过实验证明其正确性。 展开更多
关键词 k最近邻搜索算法 度量空间 相似性查询
在线阅读 下载PDF
基于角相似性的k最近邻搜索研究
11
作者 余小鹏 马费成 《情报学报》 CSSCI 北大核心 2009年第1期58-63,共6页
在高维空间中k最近邻搜索(KNNS)应用非常广泛,但是目前很多KNNS算法都根据欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用。本文提出一种基于角相似性的k最近邻搜索算法(AS—KNNS)。该算法先提出基于角相似性的数据索引... 在高维空间中k最近邻搜索(KNNS)应用非常广泛,但是目前很多KNNS算法都根据欧氏距离对数据进行索引和搜索,不适合采用角相似性的应用。本文提出一种基于角相似性的k最近邻搜索算法(AS—KNNS)。该算法先提出基于角相似性的数据索引结构(AS-Index),参照一条中心线和一条参照线,将数据以系列壳.超圆锥体方式进行组织并分别线性存储;然后确定查询对象的空间位置,有效确定一个以从原点到查询对象的直线为中心线的超圆锥体并在其中进行搜索。实验结果表明,AS-KNNS算法较其他k最近邻搜索算法有更好的性能。 展开更多
关键词 数据分割 k最近邻搜索 角相似性 壳-超圆锥体
在线阅读 下载PDF
参数自适应下基于近邻图的近似最近邻搜索 被引量:4
12
作者 甘红楠 张凯 《计算机工程》 CAS CSCD 北大核心 2022年第9期28-36,共9页
现有基于近邻图的近似最近邻搜索(ANNS)算法通常将数据库中被检索向量组织成近邻图结构,根据用户设定参数搜索查询向量的近似最近邻。为提升基于近邻图的ANNS算法在给定召回率下的搜索效率,提出一种参数自适应方法 AdaptNNS。采集数据... 现有基于近邻图的近似最近邻搜索(ANNS)算法通常将数据库中被检索向量组织成近邻图结构,根据用户设定参数搜索查询向量的近似最近邻。为提升基于近邻图的ANNS算法在给定召回率下的搜索效率,提出一种参数自适应方法 AdaptNNS。采集数据库中的被检索向量并对采样结果进行聚类,利用聚类中心向量和最近邻分类器提取查询负载特征,同时将查询负载特征与不同的召回率相结合作为输入特征训练梯度提升决策树(GBDT)模型。在查询处理过程中,根据应用程序指定的召回率获取最终输入特征,并通过GBDT模型预测最优搜索参数,提升ANNS算法的吞吐量。在Text-to-Image、DEEP和Turing-ANNS数据集上的实验结果表明,当达到相同的目标召回率时,AdaptNNS方法相比于Baseline方法最多可将DiskANN和HNSW算法的吞吐量提升1.3倍,具有更高的近似最近邻搜索效率。 展开更多
关键词 近似最近邻搜索 参数自适应 聚类 梯度提升决策树
在线阅读 下载PDF
LayerLSB:基于分层局部敏感B树的最近邻搜索 被引量:2
13
作者 丁际文 刘卓锦 +2 位作者 王家兴 张岩峰 于戈 《计算机科学》 CSCD 北大核心 2023年第4期32-39,共8页
最近邻搜索由于其广泛的应用已成为一个重要的研究课题。传统的空间索引结构,如R-tree和KD-tree,可以在低维空间中高效地返回准确的最近邻搜索结果,但不适用于高维空间。局部敏感B树(LSB)将数据点哈希到可排序的一维值,并将它们排列成... 最近邻搜索由于其广泛的应用已成为一个重要的研究课题。传统的空间索引结构,如R-tree和KD-tree,可以在低维空间中高效地返回准确的最近邻搜索结果,但不适用于高维空间。局部敏感B树(LSB)将数据点哈希到可排序的一维值,并将它们排列成树状结构,这在不影响结果质量的前提下极大地提高了传统局部敏感哈希(LSH)所需的空间和查询效率。但是,LSB并没有考虑到数据分布,它在均匀的数据分布设置中表现良好,但在数据倾斜时表现出了不稳定的性能。针对这个问题,文中提出了LayerLSB,通过探索哈希值的密度对密集范围内的哈希值进行重建,使其分布更均匀,从而提高查询效率。相比LSB,LayerLSB索引在数据分布方面变得更有针对性,并构建了多层结构,与简单的重新哈希方法相比,多层方法会通过仔细选择组数和哈希函数来保证搜索质量。实验结果表明,在达到相同查询精度的情况下,查询成本最多可降低为原来的44.6%。 展开更多
关键词 最近邻搜索 分层结构 局部敏感哈希 局部敏感B树
在线阅读 下载PDF
面向近似最近邻搜索的码字扩展增强型残差量化
14
作者 艾列富 程宏俊 +3 位作者 陶勇 于俊清 郑馨 刘德阳 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第3期459-469,共11页
为了进一步提高图像特征向量的近似最近邻搜索精度,提出一种码字扩展增强型残差量化方法,将增强型残差量化与均值等分向量计算方法相结合,降低码书训练误差并提高特征向量量化精度.在码书训练阶段,除第1层码书训练外,利用均值等分向量... 为了进一步提高图像特征向量的近似最近邻搜索精度,提出一种码字扩展增强型残差量化方法,将增强型残差量化与均值等分向量计算方法相结合,降低码书训练误差并提高特征向量量化精度.在码书训练阶段,除第1层码书训练外,利用均值等分向量计算方法将上一层码书训练的误差向量作为下一层码书训练的输入,在此基础上提出迭代优化方法降低码书训练的全局量化误差;在特征向量量化阶段,利用均值等分向量计算方法对每层码书进行扩展,用得到的新码字对该层输入特征向量进行量化以提高量化精度;最后对特征向量近似最近邻搜索,提出一种非对称欧几里得度量计算方法.在2个公开的SIFT和GIST数据集上与5种典型方法进行实验的结果表明,所提方法可降低码书训练误差10%~24%,提高近似最近邻搜索召回率1%~44%;另外,在获得相同召回率条件下,所提方法可使码书的规模减小50%. 展开更多
关键词 近似最近邻搜索 向量量化 残差向量 均值等分向量
在线阅读 下载PDF
结合噪声掩模训练和最近邻搜索机制的轻量级椒盐去噪
15
作者 黄成强 金星 《液晶与显示》 CAS CSCD 北大核心 2023年第9期1234-1247,共14页
随着图像处理应用在各新兴领域的不断扩展,高性能椒盐去噪仍然是一项具有挑战性的任务。本文提出了一种结合噪声掩模训练和最近邻搜索机制的椒盐去噪方法。首先,搭建一个包含9个卷积层的轻量级神经网络,用于生成高质量的噪声掩模。接着... 随着图像处理应用在各新兴领域的不断扩展,高性能椒盐去噪仍然是一项具有挑战性的任务。本文提出了一种结合噪声掩模训练和最近邻搜索机制的椒盐去噪方法。首先,搭建一个包含9个卷积层的轻量级神经网络,用于生成高质量的噪声掩模。接着,根据该噪声掩模的噪点标记结果,正常像素不作处理,通过最近邻搜索机制寻找与噪点最相邻的正常像素灰阶替代噪点灰阶。本文提出了一种用于噪点标记的轻量级卷积神经网络。在降低网络深度的同时,在中间层采用深度可分离卷积代替常规卷积,这两个因素使得运算复杂度和参数量得到数量级的降低。另外,提出了一种基于最近邻搜索机制的去噪方法,提升了去噪性能。实验结果表明,所提出网络的运算复杂度比传统网络有数量级的降低,训练所得噪声掩模的误判率分别比极点标记、均值标记和极值图像块标记分别降低了94.79%、94.79%和83.65%。此外,去噪图像的峰值信噪比相比于传统卷积神经网络方法的处理结果提升了2.53%,信息损失降低了6.76%。本文首次将轻量级卷积神经网络应用于椒盐去噪,降低了网络的复杂度,提升了去噪性能。 展开更多
关键词 椒盐噪声 噪声掩模 轻量级卷积神经网络 最近邻搜索 深度学习
在线阅读 下载PDF
RPA:一种内存高效的度量空间recall@R近似最近邻搜索索引
16
作者 江润本 陈家颖 毛睿 《深圳大学学报(理工版)》 CAS CSCD 北大核心 2023年第6期640-648,共9页
现有的度量空间的近似最近邻搜索(approximate nearest neighbor search,ANNS)方法通常依赖于预选择的支撑点构成的序列,序列中的支撑点按照到数据元素的距离升序排列.然而,大多数现有的度量空间ANNS方法由于索引结构复杂、支撑点过多... 现有的度量空间的近似最近邻搜索(approximate nearest neighbor search,ANNS)方法通常依赖于预选择的支撑点构成的序列,序列中的支撑点按照到数据元素的距离升序排列.然而,大多数现有的度量空间ANNS方法由于索引结构复杂、支撑点过多或者未能充分利用距离信息导致搜索时内存开销巨大.为此,提出精简排列阵(reduced permutation array,RPA)的度量空间recall@R近似最近邻搜索方法.对于全体数据元素,RPA预先选择k个支撑点,对每个数据元素仅存储离该数据元素最近的l个(l<<k),并将所有元素的支撑点序列构建为一个数组结构.在搜索过程中,利用一种得分函数,该函数基于查询对象到各个支撑点的距离来近似计算数据元素到查询对象的距离.同时,维护一个有界最小堆,以保存R个候选结果数据元素.RPA具有结构简单、内存效率高和可扩展性强等特点.实验结果表明,在相同召回率的情况下,与排列索引(permutation-based index,P-index)相比,RPA平均具有高达3倍的内存压缩比.研究结果可在内存资源有限的单机环境下提供一种有效的针对海量数据的ANNS方法. 展开更多
关键词 计算机科学与技术 近似最近邻搜索 度量空间 索引结构 支撑点选择 支撑点序列 内存高效
在线阅读 下载PDF
基于最近邻子空间搜索的两类文本分类方法 被引量:3
17
作者 李玉鑑 王影 冷强奎 《计算机工程与科学》 CSCD 北大核心 2015年第1期168-172,共5页
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高... 在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。 展开更多
关键词 文本分类 最近子空间搜索 最近邻搜索
在线阅读 下载PDF
基于均衡聚类索引的近似最近邻检索方法
18
作者 吕宏伟 李博 +3 位作者 刘普凡 刘识 李继伟 刘俊健 《南京师大学报(自然科学版)》 CAS 北大核心 2024年第2期99-108,共10页
大数据时代,深度学习通过将复杂对象表示为高维特征向量,并使用向量之间的距离度量来衡量样本的相似性,在推荐系统、用户画像、数据中台管理等场景中得到了广泛的应用.但是,随着数据规模的不断增加,海量特征数据的相似向量检索面临着检... 大数据时代,深度学习通过将复杂对象表示为高维特征向量,并使用向量之间的距离度量来衡量样本的相似性,在推荐系统、用户画像、数据中台管理等场景中得到了广泛的应用.但是,随着数据规模的不断增加,海量特征数据的相似向量检索面临着检索模型占用内容大、特征检索算法召回率较低的严重挑战.如何在保证检索精度的前提下,设计紧凑型索引图结构,降低特征检索的内存消耗,对于提升大数据系统的近邻检索效率具有重要的作用.因此,本文提出了一种均衡感知的快速K均值近邻聚类的特征数据分桶及其图结构紧凑型索引用于海量数据近邻检索.首先,设计了均衡感知的快速K-均值聚类算法,通过在图索引构建过程中海量特征数据的均衡分桶,将高维向量压缩成轻量级紧凑型图索引结构,随后通过量化操作进一步压缩高维向量样本,提升其在候选集上的最近邻检索速度.在基准数据集上实验验证结果表明,本文提出的方法能够在保证较高检测召回率的同时,有效加快索引构建速度,可以用于支持高维特征数据的高效最近邻检索. 展开更多
关键词 大数据检索与分析 最近邻搜索 均衡感知
在线阅读 下载PDF
面向近邻搜索的马尔科夫图哈希算法 被引量:1
19
作者 刘弘 江爱文 +1 位作者 王明文 万剑怡 《计算机科学与探索》 CSCD 北大核心 2015年第7期861-868,共8页
基于哈希编码的算法,由于其高效性,已经成为海量数据高维特征最近邻搜索的研究热点。目前存在的普遍问题是,当哈希编码长度较低时,原始特征信息保留不是很充分,从而导致检索结果不理想。为了解决这一问题,提出了一种基于Markov网络的有... 基于哈希编码的算法,由于其高效性,已经成为海量数据高维特征最近邻搜索的研究热点。目前存在的普遍问题是,当哈希编码长度较低时,原始特征信息保留不是很充分,从而导致检索结果不理想。为了解决这一问题,提出了一种基于Markov网络的有效哈希编码算法。该算法首先根据稀疏编码策略进行特征重构,通过Markov随机游走的方式构建特征之间的语义网络关系图,然后根据Laplacian特征映射求出投影函数,最后进行快速的线性投影二值化编码。在公开数据集上与主流算法进行了性能比较,实验结果表明该算法具备良好的检索性能。 展开更多
关键词 最近邻搜索 MARKOV网络 Laplacian特征映射 哈希编码
在线阅读 下载PDF
一种可扩展的面向海量数据高维最近邻检索的对等索引结构
20
作者 齐向东 刘大伟 王劲林 《小型微型计算机系统》 CSCD 北大核心 2014年第4期765-769,共5页
大规模数据集的最近邻检索,目前逐渐成为计算机领域中一个重要问题.采用一种分布式对等索引结构,对海量数据集进行最近邻检索.通过采用lp范数下的局部敏感哈希算法对高维空间的数据进行相似检索,并利用典型的哈希算法与不均匀Hilbert曲... 大规模数据集的最近邻检索,目前逐渐成为计算机领域中一个重要问题.采用一种分布式对等索引结构,对海量数据集进行最近邻检索.通过采用lp范数下的局部敏感哈希算法对高维空间的数据进行相似检索,并利用典型的哈希算法与不均匀Hilbert曲线结合,将高维的局部敏感哈希数据桶空间映射到一维DHT索引空间.系统设计时同时考虑相似性检索和P2P网络维持的需求,索引本身具备局部敏感特性,以及DHT网络的负载均衡能力.文中将展示如何利用局部敏感哈希有效地在P2P网络中执行最近邻搜索问题.实验基于真实数据,进一步验证本方法的有效性,以及扩展性上相比于其他方法的优势. 展开更多
关键词 最近邻搜索 局部敏感哈希 分布式哈希表 HILBERT曲线
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部