-
题名基于压缩后缀数组技术的搜索引擎
被引量:2
- 1
-
-
作者
姚全珠
张楠
杨增辉
田元
-
机构
西安理工大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第10期83-85,88,共4页
-
基金
陕西省自然科学基金资助项目(2005F07)
-
文摘
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。
-
关键词
压缩后缀数组
倒排文件
后缀数组
搜索引擎
-
Keywords
Compressed Suffix Array(CSA)
inverted file
Suffix Array(SA)
search engine
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于压缩后缀数组的近似字符串匹配算法
被引量:3
- 2
-
-
作者
胥永康
杨光露
路松峰
-
机构
中国工程物理研究院计算机应用研究所
河南中烟工业有限责任公司南阳卷烟厂
华中科技大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第23期139-142,共4页
-
基金
国家自然科学基金委员会与中国工程物理研究院联合基金(No.10876012)
-
文摘
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检索速度快和适用广泛的优点。利用压缩后缀数组,提出了适合近似字符串匹配搜索算法的数据结构,并在此基础上提出了一种匹配搜索算法。实验结果表明,相对于现有的算法,提出的算法在小字母表的情况下具有计算优势。
-
关键词
模式匹配
近似串匹配
后缀数组
压缩后缀数组
-
Keywords
pattern matching
approximate string matching
suffix array
compressed suffix array
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个基于压缩后缀数组的乐纹索引算法
- 3
-
-
作者
刘学政
史有群
罗辛
陶然
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第S1期462-464 488,488,共4页
-
文摘
在基于乐纹的音乐检索系统中,提取的乐纹的多少决定了检索结果的匹配度,这就造成了数据库大小与检索匹配度不能兼顾的矛盾。提出使用压缩后缀数组来压缩乐纹索引的方法,解决全文索引时索引空间过大的问题。主要利用有序乐纹数据中较高位特征出现重复的概率大的特点,使用游程编码对乐纹序列进行无损压缩。实验结果表明,该方法在包含2000首歌曲的数据库中仅需要使用原来80%的乐纹数据空间,在包含12000首歌曲的数据库中只需要使用原来30%的乐纹数据空间。与传统的后缀数组索引方法相比,该方法需要的索引存储空间仅为原来的60%。
-
关键词
乐纹
压缩后缀数组
索引压缩
游程编码
垂直编码
-
Keywords
Audio fingerprint,Compressed suffix array,Index compression,Run length encoding,Vertical code
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-