-
题名相似文本的快速搜索
被引量:1
- 1
-
-
作者
燕继坤
郑辉
席建民
-
机构
西南电子电信技术研究所国家重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2004年第15期22-23,71,共3页
-
基金
国防预研基金资助项目
-
文摘
相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。
-
关键词
大规模文本处理
相似文本搜索
复制检测
-
Keywords
Large scale text processing
Similar texts searching
Copy detection
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于倒排索引的文本相似搜索
被引量:4
- 2
-
-
作者
杨建武
陈晓鸥
-
机构
北京大学计算机研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2005年第5期1-3,共3页
-
文摘
根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
-
关键词
相似搜索
倒排索引
多维索引
文本相似搜索
-
Keywords
Similaritysearch
Inverted-index
Multi-dimension index
Similaritysearch for text
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-