-
题名一种全新的全文索引模型——后继数组模型
被引量:11
- 1
-
-
作者
刘学文
陶晓鹏
于玉
胡运发
-
机构
复旦大学
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第1期150-158,共9页
-
文摘
提出了一种新的全文索引模型——后继数组模型,它结合了目前多个主流全文检索模型(倒排表模型、Pat数组模型等)的优点,提高了空间效率和时间效率,并得到了理论和实验的证明.
-
关键词
全文索引模型
后继数组模型
文本数据库
数据模型
-
Keywords
full-text index
inverted list
Pat array
subsequence array
-
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于邻接矩阵的全文索引模型(英文)
被引量:10
- 2
-
-
作者
周水庚
胡运发
关佶红
-
机构
复旦大学计算机科学与工程系
复旦大学计算机与信息技术系
武汉大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第10期1933-1942,共10页
-
基金
国家自然科学基金No.60173027
湖北省自然科学基金No.2001ABB050~
-
文摘
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用.
-
关键词
邻接矩阵
全文索引模型
倒排文
PAT数组
信息检索系统
-
Keywords
information retrieval
full-text indexing
inverted file
PAT array
adjacency matrix
model
-
分类号
G354.45
[文化科学—情报学]
-