期刊文献+
共找到123篇文章
< 1 2 7 >
每页显示 20 50 100
基于Multi-probe LSH的菊花花型相似性计算 被引量:2
1
作者 袁培森 翟肇裕 +1 位作者 钱淑韵 徐焕良 《农业机械学报》 EI CAS CSCD 北大核心 2019年第7期208-215,共8页
针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算... 针对海量高维菊花图像相似性计算带来的挑战,研究了基于多探测局部位置敏感哈希技术的菊花表型相似性计算方法。针对菊花图像,采用SIFT技术提取菊花图像特征,并采用BoVW模型进行建模。由于图像特征的高维性质,海量的菊花表型相似性计算效率不高,为了提高计算效率,提出采用近似相似性技术中的多探测局部位置敏感哈希技术,用此方法构建菊花图像数据的哈希数据结构,在菊花相似性查询方面提高了计算效率,并确保了计算结果的质量。在菊花数据集上进行了计算效率和查询质量两方面的测试,并与典型的方法进行了试验对比和分析。结果表明,相比线性式扫描,平均查询成功概率达到0.90以上,平均加速比为3.3~19.8。本文方法能够在查询质量和计算效率两方面通过参数设置提供灵活的优化选择,并对参数的选择提供了参考范围,可为海量菊花花型相似性计算提供参考。 展开更多
关键词 菊花 花型 花型相似性 多探测 局部位置敏感哈希
在线阅读 下载PDF
基于改进PRM算法的翼盒装配机器人路径规划研究
2
作者 游勇 李红卫 +2 位作者 黎应学 姜杰凤 毕运波 《航空制造技术》 北大核心 2025年第21期155-164,185,共11页
针对飞机翼盒装配机器人在使用传统概率路线图(PRM)算法时存在的各种问题(如采样点分布不均、冗余采样点、路径图构建复杂及路径折点过多等),提出了一种基于改进PRM算法的路径规划方法。首先,采用Halton序列优化采样策略,确保采样点在... 针对飞机翼盒装配机器人在使用传统概率路线图(PRM)算法时存在的各种问题(如采样点分布不均、冗余采样点、路径图构建复杂及路径折点过多等),提出了一种基于改进PRM算法的路径规划方法。首先,采用Halton序列优化采样策略,确保采样点在构型空间中的均匀分布,从而提高采样质量;其次,设计了基于控制点的椭圆区域冗余点优化策略,并引入局部敏感哈希(LSH)函数,以减少构型空间内的冗余采样点,优化概率路线图的构建和搜索效率;最后,采用B样条曲线对规划路径进行平滑处理,以满足翼盒装配机器人的实际运动约束。二维和三维空间的仿真试验结果表明,相比传统PRM算法,在二维空间中,改进PRM算法的规划时间平均减少了41.1%;在机械臂高维构型空间中,改进PRM算法的规划时间平均减少了68.43%,生成的路径更加优化,显著提升了翼盒装配机器人的工作效率。 展开更多
关键词 路径规划 Halton序列 冗余点优化策略 局部敏感哈希(LSH)函数 B样条曲线
在线阅读 下载PDF
基于哈希增强技术的分布式系统数据分片方案
3
作者 艾志成 曹炳尧 王演祎 《计算机应用研究》 北大核心 2025年第9期2779-2784,共6页
分布式系统数据分片技术旨在优化数据分布以提升计算效率,然而现有方法在分片质量与冗余控制等方面存在局限。为此,提出一种基于混合局部敏感哈希(hybrid LSH)的分片策略与改进的meta-partitioning优化技术。首先,设计混合LSH框架,通过M... 分布式系统数据分片技术旨在优化数据分布以提升计算效率,然而现有方法在分片质量与冗余控制等方面存在局限。为此,提出一种基于混合局部敏感哈希(hybrid LSH)的分片策略与改进的meta-partitioning优化技术。首先,设计混合LSH框架,通过MinHash与自适应LSH的协同机制实现实体描述的高效初步聚类;其次,提出逆块频率边权重计算方法与动态双阶段剪边策略,优化分片覆盖率与冗余控制。在四个基准数据集上的实验表明:相较于现有方法,该方案使平均分片大小平均降低58.3%,最大分片规模平均减少51.1%,PC指标达96.4%(整体提升3.4个百分点),PQ指标达11.6%(较最差基线提升至少6.6个百分点)。研究成果为分布式系统提供了兼顾分片质量与计算效率的解决方案,其量化指标验证了方法在覆盖率与冗余控制方面的双重优势。 展开更多
关键词 数据分片 分片优化 混合局部敏感哈希 meta-partitioning
在线阅读 下载PDF
图采样泛化行人重识别算法
4
作者 闵锋 毛一新 +3 位作者 况永刚 彭伟明 郝琳琳 吴波 《计算机工程与应用》 CSCD 北大核心 2024年第14期219-227,共9页
最近的研究表明,度量学习中的深度特征匹配方法,结合大规模、多样化的训练数据,可以显著增强人员再识别的泛化能力。然而,许多现有的方法会产生大量的内存和计算成本,如分类参数或类记忆学习等。为解决上述问题,提出了一种新的基于相关... 最近的研究表明,度量学习中的深度特征匹配方法,结合大规模、多样化的训练数据,可以显著增强人员再识别的泛化能力。然而,许多现有的方法会产生大量的内存和计算成本,如分类参数或类记忆学习等。为解决上述问题,提出了一种新的基于相关性图采样(correlation graph sampler,CGS)的泛化行人重识别算法,CGS的基本思想是在训练开始时使用局部敏感哈希函数(locality-sensitive Hashing,LSH)和特征度量为所有类构造最近邻关系图。这确保了每一小批训练样本由随机选择的基类和与基类具有相似性的近邻类组成,以提供信息量大且具有挑战性的学习示例,提高行人重识别模型的判别性学习能力。CGS的采样原理会受主干网提取的特征质量影响,因此CGS采样能力会随着主干网的训练而增强,具有可学习性。通过在大规模数据集(包括CUHK03、Market-1501和MSMT17)上交叉评估该方法,广泛的实验结果证实了该方法的有效性,并展示了其在行人重识别应用中的潜力。 展开更多
关键词 行人重识别 度量学习 相关性图采样 局部敏感哈希函数
在线阅读 下载PDF
中文词义密文模糊搜索算法研究
5
作者 张志红 付钰 付伟 《海军工程大学学报》 CAS 北大核心 2024年第6期38-45,共8页
为解决云存储中密文数据的语义模糊搜索问题,设计了一种面向中文词义的云存储密文模糊搜索算法。利用Word2vec轻量级神经网络将词语转化为结构化向量,并进行语汇的相似度衡量,扩展关键词的中文近义词集;以布隆过滤器为基础,利用位置敏... 为解决云存储中密文数据的语义模糊搜索问题,设计了一种面向中文词义的云存储密文模糊搜索算法。利用Word2vec轻量级神经网络将词语转化为结构化向量,并进行语汇的相似度衡量,扩展关键词的中文近义词集;以布隆过滤器为基础,利用位置敏感哈希函数构造文件索引与搜索陷门,实现对关键词的安全存储和对多关键词的检索支持;在位置敏感哈希函数映射后再结合文件ID计算二轮哈希值进行混淆,并在文件加密过程中引入MD5值,实现了文件完整性验证。理论分析和仿真实验证明:所设计的密文模糊搜索算法能够实现基于中文词义的多关键词密文模糊搜索。 展开更多
关键词 密文检索 布隆过滤器 位置敏感哈希函数 Word2vec 语义相似度
在线阅读 下载PDF
区块链环境中的隐私保护推荐算法研究 被引量:3
6
作者 赵文韬 官礼和 +1 位作者 何建国 唐昊 《计算机工程与科学》 CSCD 北大核心 2024年第6期1032-1040,共9页
针对区块链环境中推荐算法难以抵御恶意攻击和推荐效果不佳的问题,一方面,提出了基于整数向量的快速同态加密算法,对用户数据进行隐私保护,其安全性由LWE问题保证;另一方面,基于E2LSH设计了一种高效的个性化推荐算法,该算法根据哈希桶... 针对区块链环境中推荐算法难以抵御恶意攻击和推荐效果不佳的问题,一方面,提出了基于整数向量的快速同态加密算法,对用户数据进行隐私保护,其安全性由LWE问题保证;另一方面,基于E2LSH设计了一种高效的个性化推荐算法,该算法根据哈希桶编号进行密钥分发,从而使得同一哈希桶中的用户能进行同态加密运算并快速计算相似度。在区块链+IPFS的基础系统模型上,使用公用数据集与最新相关的隐私保护推荐算法进行了对比实验,实验结果表明,所提算法在安全性和隐私性得到保障的同时拥有理想的推荐效果和速度。 展开更多
关键词 区块链 隐私保护 局部敏感哈希 同态加密
在线阅读 下载PDF
基于近似存在性查询的高效图像异常检测方法
7
作者 伍凌川 史慧芳 +1 位作者 邱枫 石义官 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期424-430,共7页
对于图像异常检测问题,查询测试样本在正常样本集中的K近邻距离并估计其异常程度,是一类准确率较高、对复杂分布的效果较稳定的方法。此类方法采用近似最近邻搜索(Approximate Nearest Neighbour Search, ANNS)索引进行K近邻搜索。但由... 对于图像异常检测问题,查询测试样本在正常样本集中的K近邻距离并估计其异常程度,是一类准确率较高、对复杂分布的效果较稳定的方法。此类方法采用近似最近邻搜索(Approximate Nearest Neighbour Search, ANNS)索引进行K近邻搜索。但由于ANNS查询操作较高的计算开销和现实问题中庞大的数据量,此类方法的计算效率难以应对低时延、高吞吐量的应用场景。该文基于局部敏感哈希和布隆过滤器,提出了一种近似存在性查询(Approximate Membership Query,AMQ)方法,用特征近似存在性预测异常样本。相比于ANNS,AMQ具有更低的计算复杂度且更适合单指令多数据并行,可以有效解决基于特征库检索方法的计算性能瓶颈。在MVTec-AD数据集上的实验结果显示,基于AMQ的方法的异常分割准确率仅比ANNS方法降低1%左右,但推理时延、吞吐量和内存开销显著较优,接近端到端深度学习异常检测模型的计算效率。 展开更多
关键词 异常检测 无监督学习 近似存在性查询 布隆过滤器 局部敏感哈希
在线阅读 下载PDF
开放环境多分布特性的局部敏感哈希检索方法 被引量:13
8
作者 张仕 赖会霞 +3 位作者 肖如良 潘淼鑫 张路路 陈伟林 《软件学报》 EI CSCD 北大核心 2022年第4期1200-1217,共18页
基于局部敏感哈希的检索方法能够较好地解决高维大规模数据的近似近邻检索问题.但在开放环境下针对多种分布特性时,迄今尚未有令人满意的解决方案.利用Laplacian算子对数据分布剧烈变化敏感的特性,提出一种具有全局性、适用于开放环境... 基于局部敏感哈希的检索方法能够较好地解决高维大规模数据的近似近邻检索问题.但在开放环境下针对多种分布特性时,迄今尚未有令人满意的解决方案.利用Laplacian算子对数据分布剧烈变化敏感的特性,提出一种具有全局性、适用于开放环境下多种分布特性的基于Laplacian算子的局部敏感哈希搜索方法(LPLSH).该方法把Laplacian算子应用于数据投影的概率密度分布,找到数据投影分布的剧烈变化位置作为超平面的偏移量.从理论上证明了精简维度的哈希函数能够保持局部敏感性及低投影密度区间分割的有效性,分析了利用Laplacian算子计算的二阶导数对超平面偏移量设置的指导意义.与其他8种方法对比,LPLSH算法的F1值是其他方法最优值的0.8倍-5倍,耗费时间也大幅减少.通过对具有多种分布特性数据集上的实验验证,结果表明:LPLSH方法能够同时兼顾效率、精度和召回率,可满足开放环境下多分布特性的大规模高维检索的鲁棒性需求. 展开更多
关键词 开放环境 近似近邻检索 数据多分布特性 局部敏感哈希 数据检索
在线阅读 下载PDF
一种大规模的跨平台同源二进制文件检索方法 被引量:8
9
作者 陈昱 刘中金 +3 位作者 赵威威 马原 石志强 孙利民 《计算机研究与发展》 EI CSCD 北大核心 2018年第7期1498-1507,共10页
近年来由于代码的交叉复用,同源二进制文件广泛存在于物联网设备固件中.当某个固件被爆出漏洞二进制文件时,则包含该同源二进制文件的其他固件也将处于高风险中.因此同源二进制文件检索对于物联网固件的安全分析与应急响应具有重要意义... 近年来由于代码的交叉复用,同源二进制文件广泛存在于物联网设备固件中.当某个固件被爆出漏洞二进制文件时,则包含该同源二进制文件的其他固件也将处于高风险中.因此同源二进制文件检索对于物联网固件的安全分析与应急响应具有重要意义.然而,目前缺少一种大规模且有效的针对嵌入式设备二进制文件的大规检索方法.传统的基于"一对一"关联匹配的同源检索方法的时间复杂度是O(N),不能满足大规模同源检索的需求.设计和实现了一种时间复杂度为O(lgN)的面向物联网设备固件的同源二进制文件检索方法.该方法的核心思想是通过深度学习网络编码二进制文件中的可读字符串,然后对编码向量生成局部敏感Hash从而实现快速检索.按照16种不同的编译参数编译了893个开源组件,共生成71 129对带标签的二进制文件来训练和测试网络模型.结果表明:该方法的ROC特性好于传统方法.此外,实际应用案例表明:该方法只需不到1s的时间即可完成一次针对22 594个固件的同源二进制文件检索任务. 展开更多
关键词 二进制搜索 跨平台 深度学习 循环神经网络 局部敏感hash
在线阅读 下载PDF
基于双向LSTM的误植域名滥用检测方法 被引量:5
10
作者 吕品 李全刚 +4 位作者 柳厅文 宁振虎 王玉斌 时金桥 方滨兴 《电子学报》 EI CAS CSCD 北大核心 2018年第9期2081-2086,共6页
当前,误植域名检测主要以计算域名对之间的编辑距离为基础,未能充分挖掘域名的上下文信息,且对短域名的检测易产生大量的假阳性结果。采集域名相关信息进行判定虽然有助于提高检测效果,却会引入较大的额外开销.本文采用了基于域名字符... 当前,误植域名检测主要以计算域名对之间的编辑距离为基础,未能充分挖掘域名的上下文信息,且对短域名的检测易产生大量的假阳性结果。采集域名相关信息进行判定虽然有助于提高检测效果,却会引入较大的额外开销.本文采用了基于域名字符串的轻量级检测策略,并引入双向长短时记忆模型(LSTM,Long Short-Term Memory)来充分利用域名上下文,提升检测效果.本文还设计了面向域名的局部敏感哈希函数,以提高在大规模域名集合上进行误植域名检测的速度.在大量真实数据集上的实验结果表明,本文的工作改进了基于编辑距离检测方法的不足,能够有效地进行误植域名滥用检测. 展开更多
关键词 误植域名 编辑距离 双向LSTM 上下文信息 局部敏感哈希
在线阅读 下载PDF
一种基于学习的高维数据c-近似最近邻查询算法 被引量:18
11
作者 袁培森 沙朝锋 +1 位作者 王晓玲 周傲英 《软件学报》 EI CSCD 北大核心 2012年第8期2018-2031,共14页
针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用... 针对高维数据近似最近邻查询,在过滤-验证框架下提出了一种基于学习的数据相关的c-近似最近邻查询算法.证明了数据经过随机投影之后,满足语义哈希技术所需的熵最大化准则.把经过随机投影的二进制数据作为数据的类标号,训练一组分类器用来预测查询的类标号.在此基础上计算查询与数据集中数据对象的海明距离.最后,在过滤后的候选数据集上计算查询的最近邻.与现有方法相比,该方法对空间需求更小,编码长度更短,效率更高.模拟数据集和真实数据集上的实验结果表明,该方法不仅能够提高查询效率,而且方便调控在查询质量和查询处理时间方面的平衡问题. 展开更多
关键词 随机投影 c-近似最近邻查询 支持向量机分类器 高维数据 熵最大化准则 位置敏感哈希
在线阅读 下载PDF
面向加密云数据的多关键词模糊检索方法 被引量:9
12
作者 申艳光 张猛 范永健 《计算机工程与设计》 北大核心 2016年第12期3156-3160,共5页
现有密文检索方案无法有效解决模糊检索及陷门关联性问题,为此提出一种面向加密云数据的多关键词模糊检索方法 (multi-keyword fuzzy query,MKFQ)。对关键词的二元向量集合进行二进制编码,结合Bloom Filter和LSH函数对二进制编码进行哈... 现有密文检索方案无法有效解决模糊检索及陷门关联性问题,为此提出一种面向加密云数据的多关键词模糊检索方法 (multi-keyword fuzzy query,MKFQ)。对关键词的二元向量集合进行二进制编码,结合Bloom Filter和LSH函数对二进制编码进行哈希,分别选取常数和正态随机数对索引位进行扩展及加密,采用内积相似性算法计算相似分数并排序。实验通过安全性分析,以Enron邮件数据集作为测试数据集,验证了MKFQ方案的高效性和正确性。 展开更多
关键词 云环境 隐私保护 布隆过滤器 局部敏感哈希 模糊检索
在线阅读 下载PDF
基于改进局部敏感散列算法的图像配准 被引量:11
13
作者 龚卫国 张旋 李正浩 《光学精密工程》 EI CAS CSCD 北大核心 2011年第6期1375-1383,共9页
为实现图像间的快速准确配准,在局部敏感散列(LSH)算法基础上,提出一种高效的高维特征向量检索算法—改进的LSH(ELSH)算法用以图像特征间的检索配对,从而实现图像间的配准。该配准算法首先采用尺度不变特征变换(SIFT)算法提取图像的特... 为实现图像间的快速准确配准,在局部敏感散列(LSH)算法基础上,提出一种高效的高维特征向量检索算法—改进的LSH(ELSH)算法用以图像特征间的检索配对,从而实现图像间的配准。该配准算法首先采用尺度不变特征变换(SIFT)算法提取图像的特征点并进行描述,得到图像的高维特征向量。然后,根据随机选择的若干子向量构建哈希索引结构,以缩减构建索引数据的维数和搜索的范围,从而缩短建立索引的时间。最后,根据数据随机取样一致性(RANSAC)剔除错误点。实验结果表明,与BBF(Best-Bin-First)和LSH算法相比,ELSH算法不但提高了匹配点对的准确性同时也缩短了匹配时间,其特征匹配时间分别减少了49.9%和37.9%。实验表明该算法可以快速、精确地实现图像间的配准。 展开更多
关键词 尺度不变特征变换 特征匹配 局部敏感散列 改进的局部敏感散列
在线阅读 下载PDF
基于随机化视觉词典组和上下文语义信息的目标检索方法 被引量:5
14
作者 赵永威 郭志刚 +2 位作者 李弼程 高毫林 陈刚 《电子学报》 EI CAS CSCD 北大核心 2012年第12期2472-2480,共9页
传统的视觉词典法(Bag ofVisual Words,BoVW)具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题,且当目标区域所包含的信息不能正确或不足以表达用户检索意图时就得不到理想的检索结果.针对这些问题,本文提出了基于随机化视... 传统的视觉词典法(Bag ofVisual Words,BoVW)具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题,且当目标区域所包含的信息不能正确或不足以表达用户检索意图时就得不到理想的检索结果.针对这些问题,本文提出了基于随机化视觉词典组和上下文语义信息的目标检索方法.首先,该方法采用精确欧氏位置敏感哈希(Exact Euclidean Locality Sensitive Hashing,E2LSH)对局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后,利用查询目标及其周围的视觉单元构造包含上下文语义信息的目标模型;最后,引入K-L散度(Kullback-Leibler divergence)进行相似性度量完成目标检索.实验结果表明,新方法较好地提高了目标对象的可区分性,有效地提高了检索性能. 展开更多
关键词 目标检索 上下文语义信息 精确欧氏位置敏感哈希 随机化视觉词典组 K-L散度
在线阅读 下载PDF
基于多表频繁项投票和桶映射链的快速检索方法 被引量:5
15
作者 高毫林 彭天强 +1 位作者 李弼程 郭志刚 《电子与信息学报》 EI CSCD 北大核心 2012年第11期2574-2581,共8页
为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造... 为解决基于随机映射的高维向量快速检索方法位置敏感哈希存在的随机性强和内存消耗大两个问题,在E2LSH(Exact Euclidean Locality Sensitive Hashing)的基础上提出了基于多表频繁项投票和桶映射链的快速检索方法。该方法用检索结果构造基准索引矩阵,并对基准索引矩阵进行频繁项投票和校正得出最终索引来降低检索的随机性;桶映射链利用E2LSH的数据划分特性减少检索时读入内存的数据点的数目,以此来降低内存消耗。实验证明该方法能减弱检索的随机性,并有效地降低检索的内存消耗。这对于提高大规模信息检索尤其是图像检索的可行性有着较大的作用。 展开更多
关键词 信息检索 位置敏感哈希 随机性 内存消耗 频繁项投票 桶映射链
在线阅读 下载PDF
一种基于随机化视觉词典组和查询扩展的目标检索方法 被引量:9
16
作者 赵永威 李弼程 +1 位作者 彭天强 高毫林 《电子与信息学报》 EI CSCD 北大核心 2012年第5期1154-1161,共8页
在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words,BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题。针对以上问题,该文提出了一种基于随机化视觉词典组和查询扩展的目标检... 在目标检索领域,当前主流的解决方案是视觉词典法(Bag of Visual Words,BoVW),然而,传统的BoVW方法具有时间效率低、内存消耗大以及视觉单词同义性和歧义性的问题。针对以上问题,该文提出了一种基于随机化视觉词典组和查询扩展的目标检索方法。首先,该方法采用精确欧氏位置敏感哈希(Exact Euclidean LocalitySensitive Hashing,E2LSH)对训练图像库的局部特征点进行聚类,生成一组支持动态扩充的随机化视觉词典组;然后,基于这组词典构建视觉词汇分布直方图和索引文件;最后,引入一种查询扩展策略完成目标检索。实验结果表明,与传统方法相比,该文方法有效地增强了目标对象的可区分性,能够较大地提高目标检索精度,同时,对大规模数据库有较好的适用性。 展开更多
关键词 目标检索 视觉词典法 随机化视觉词典组 精确欧氏位置敏感哈希 查询扩展
在线阅读 下载PDF
基于精确欧氏局部敏感哈希的协同过滤推荐算法 被引量:9
17
作者 李红梅 郝文宁 陈刚 《计算机应用》 CSCD 北大核心 2014年第12期3481-3486,共6页
针对推荐系统中用户评分数据的海量高维与稀疏性,以及直接利用传统相似性度量方法来获取近邻的计算量大、结果不准等对推荐质量的影响,提出基于精确欧氏局部敏感哈希(E2LSH)的协同过滤推荐算法。首先利用精确欧氏局部敏感哈希算法对用... 针对推荐系统中用户评分数据的海量高维与稀疏性,以及直接利用传统相似性度量方法来获取近邻的计算量大、结果不准等对推荐质量的影响,提出基于精确欧氏局部敏感哈希(E2LSH)的协同过滤推荐算法。首先利用精确欧氏局部敏感哈希算法对用户评分数据进行降维处理并构建索引,以快速获取目标用户的近邻用户;然后利用加权策略来预测用户评分,进而完成协同过滤推荐。实验结果表明,该算法能有效解决用户数据的海量高维与稀疏性问题,且运行效率高,具有较好的推荐质量。 展开更多
关键词 精确欧氏局部敏感哈希 协同过滤 相似性度量 推荐系统 近似近邻
在线阅读 下载PDF
结合局部敏感哈希的k近邻数据填补算法 被引量:5
18
作者 郑奇斌 刁兴春 +2 位作者 曹建军 周星 许永平 《计算机应用》 CSCD 北大核心 2016年第2期397-401,共5页
k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的k NN数据填补算法LSH-k NN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之... k近邻(kNN)算法是缺失数据填补的常用算法,但由于需要逐个计算所有记录对之间的相似度,因此其填补耗时较高。为提高算法效率,提出结合局部敏感哈希(LSH)的k NN数据填补算法LSH-k NN。首先,对不存在缺失的完整记录进行局部敏感哈希,为之后查找近似最近邻提供索引;其次,针对枚举型、数值型以及混合型缺失数据分别提出对应的局部敏感哈希方法,对每一条待填补的不完整记录进行局部敏感哈希,按得到的哈希值找到与其疑似相似的候选记录;最后在候选记录中通过逐个计算相似度来找到其中相似程度最高的k条记录,并按照k NN算法对不完整记录进行填补。通过在4个真实数据集上的实验表明,结合局部敏感哈希的k NN填补算法LSH-k NN相对经典的k NN算法能够显著提高填补效率,并且保持准确性基本不变。 展开更多
关键词 数据质量 数据完整性 数据填补 K近邻算法 局部敏感哈希
在线阅读 下载PDF
基于结构化P2P的语义查询技术 被引量:3
19
作者 侯祥松 曹元大 +1 位作者 关志涛 张昱 《电子与信息学报》 EI CSCD 北大核心 2009年第3期707-710,共4页
由于P2P系统可以高效地对资源进行共享而受到关注,但现在的P2P仅支持精确查找或者通过洪泛方式进行低效率文本检索。为了解决这个问题,该文提出了一种结构化P2P环境中的文本检索系统,使用LSH函数将高维语义相关的文本向量映射相近的节点... 由于P2P系统可以高效地对资源进行共享而受到关注,但现在的P2P仅支持精确查找或者通过洪泛方式进行低效率文本检索。为了解决这个问题,该文提出了一种结构化P2P环境中的文本检索系统,使用LSH函数将高维语义相关的文本向量映射相近的节点上,并解决了由此带来的负载均衡问题。实验结果显示该系统具有很好的查询准确率和负载均衡性能。 展开更多
关键词 对等网络 语义查询 位置敏感函数
在线阅读 下载PDF
云存储中加密数据的相似检索技术应用研究 被引量:6
20
作者 黄美东 谢维信 张鹏 《信号处理》 CSCD 北大核心 2017年第4期472-479,共8页
随着云存储的广泛应用,大量数据存储在云服务器。尽管云服务提供很多便利,但数据的隐私及安全性一直是重点关注的问题,为解决数据安全问题需要将外储数据以加密的形式进行存储。加密存储的方式保护了数据不被恶意访问,然而数据的一些重... 随着云存储的广泛应用,大量数据存储在云服务器。尽管云服务提供很多便利,但数据的隐私及安全性一直是重点关注的问题,为解决数据安全问题需要将外储数据以加密的形式进行存储。加密存储的方式保护了数据不被恶意访问,然而数据的一些重要的基本应用如检索等不能实现。为了在不泄露隐私的条件下实现对加密数据的检索,很多可检索的加密方案被提出。然而,这些方案多数只能处理确切的关键字匹配检索而不能进行相似的关键字检索,相似检索在现实应用中又极其重要。本文提出一个高效的支持加密数据相似检索的方案,为了实现相似密文的检索我们利用一种被称为位置敏感的哈希算法。为了确保数据的机密性和安全性,我们给出了严格的安全定义,并且在安全定义下证明了方案的安全性。 展开更多
关键词 可检索加密 位置敏感函数 布隆过滤器 云存储
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部