题名 高效的随机访问分块倒排文件自索引技术
被引量:14
1
作者
刘小珠
彭智勇
陈旭
机构
武汉大学软件工程国家重点实验室
武汉理工大学自动化学院
武汉大学计算机学院
出处
《计算机学报》
EI
CSCD
北大核心
2010年第6期977-987,共11页
基金
到国家"九七三"重点基础研究发展规划项目基金(2007CB310806)
国家自然科学基金(60573095)
武汉大学2008年博士研究生自主科研项目(20086350101000066)资助~~
文摘
针对倒排索引空间开销大、查询时间效率低以及难以同时支持连接布尔查询和排序查询的问题,提出了一种同时提高空间效率与查询时间效率的高效随机访问分块倒排文件自索引RABIF.为了在降低空间消耗的同时支持连接布尔查询与排序查询,RABIF将倒排列表进行合理地分块,然后对每个子块的不同部分采用相应的压缩方式,在不需要插入任何附加辅助信息的前提下实现压缩索引的快速定位与随机访问.理论分析及实验结果表明,与忽略倒排文件自索引SIF相比,提出的RABIF空间开销平均减少5.3%,布尔查询时间平均减少17.8%;对于0.2%与1%排序查询,查询时间分别平均减少34.4%与27.5%.
关键词
倒排文件
自索引
时间效率
空间效率
随机访问
Keywords
inverted file
self-index
time efficiency
space efficiency
random access
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于多重倒排文件的快速相似性检索
被引量:8
2
作者
吴立德
罗航哉
薛向阳
机构
复旦大学计算机科学系
出处
《计算机学报》
EI
CSCD
北大核心
2000年第11期1156-1160,共5页
基金
自然科学基金重点项目!(6 9935 0 10 )
自然科学基金面上项目
"八六三"高技术研究发展计划等资助
文摘
提出一种新的高维空间中点数据的索引方法 (即 MIF) ,其基本原理是利用多维倒排文件 .和传统索引方法相比 ,新方法有许多优点 ,例如它能以较低的复杂度建立索引结构、支持非常高的维数、极低的 I/ O代价等 .实验结果表明 。
关键词
索引结构
相拟性检索
多重倒排文件
数据库
Keywords
index structure, similarity retrieval, multiple inverted file
分类号
G354.4
[文化科学—情报学]
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 搜索引擎倒排文件的一种分块组织技术
被引量:9
3
作者
彭波
李晓明
机构
北京大学计算机科学技术系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2005年第2期358-362,共5页
基金
国家 973计划项目 (No G1 9990 32 70 6)
教育部博士点基金 (No 2 0 0 30 0 0 1 0 76)
文摘
检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 .
关键词
搜索引擎
信息检索
倒排文件
检索效率
Keywords
search engine
information retrieval
inverted file
retrieval efficiency
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于倒排文件的布尔规则隐藏算法
被引量:1
4
作者
张伟
陈芸
邹汉斌
周霆
机构
江南大学信息工程学院
江苏信息职业技术学院计算机系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第14期97-98,218,共3页
文摘
介绍了关联规则方法的研究概况,提出了利用基于倒排文件的比特向量操作实现布尔规则隐藏算法,以及对实验结果的评估分析,并对未来数据挖掘领域中涉及的信息隐藏研究进行了展望。
关键词
敏感规则
隐藏
倒排文件
比特向量
Keywords
Sensitive rule
Hiding
Inverted file
Bit vector
分类号
TP311.131
[自动化与计算机技术—计算机软件与理论]
题名 对几种倒排文件压缩技术的研究与分析
被引量:2
5
作者
王虎
王潜平
机构
中国矿业大学计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2006年第7期169-173,共5页
文摘
要提高文件检索系统的性能,需要对倒排文件压缩技术进行研究与对比,以使文件检索系统在最大压缩比和最快的解压速度间寻找均衡,以到达最大的吞吐量。对Golomb,Eliasgamma,Eliasdelta,VariableByteEncoding和BinaryInterpolativeCoding五种压缩技术通过在Windows操作系统下对theTRECWallStreetJournalcollection文件系统进行存取与压缩,从CPU时钟周期角度来对比各个算法的压缩比、压缩与解压缩的时间和对文件的读取和查询所花费的时间,并对它们进行了一个综合的评测。
关键词
倒排文件
索引
压缩
文本搜索
Keywords
inverted files,document indexing,compression,text searching
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
题名 基于C语言编程实现倒排文件的数据查找
6
作者
许维平
崔建军
许静瑶
机构
齐齐哈尔大学工学院计算机系
齐齐哈尔电视台
出处
《计算机工程与应用》
CSCD
北大核心
1998年第11期63-64,共2页
文摘
该文较为详细地阐明了用C语言编程构造B_树生成倒排文件实现数据查找。对于文件记录中的数据项查找,往往采用对整个文件顺序查找的办法,这种方法速度太慢,利用倒排文件实现对数据项的查找可大大减少记录的操作量,提高查找速度。
关键词
B-树
倒排文件
数据查找
C语言
数据结构
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
题名 倒排文件的散列组织方法
7
作者
石冰
黄诒珩
机构
山东工业大学计算中心
出处
《情报学报》
CSSCI
北大核心
1991年第4期282-287,272,共7页
关键词
倒排文件
数据库
情报检索
分类号
G354.4
[文化科学—情报学]
题名 用B-树实现倒排文件数据的快速查找
8
作者
尹绍宏
机构
天津纺织工学院计算机技术与自动化系
出处
《天津纺织工学院学报》
北大核心
1999年第5期83-86,共4页
文摘
对于数据文件中的记录进行查找的方法一般可采用顺序查找等方法来进行,但这些查找方法的速度都较慢.本文研究采用B- 树来建立倒排表,并通过对B- 树的查找来实现对倒排文件中数据的快速查找方法.用这种方法实现对记录的查找可以减少对记录的比较次数,提高其查找的速度.
关键词
B_树
倒排文件
索引
数据库系统
Keywords
B -tree
inverted file
index
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 基于格矢量量化和倒排文件的快速图像检索方法
被引量:2
9
作者
陈学青
罗航哉
薛向阳
吴立德
机构
复旦大学计算机系
出处
《电子学报》
EI
CAS
CSCD
北大核心
2000年第8期94-96,共3页
基金
自然科学基金!(No .6960 2 0 0 3)
863项目
自然科学基金重点项目
文摘
本文提出一种新的快速图像检索方法 ,它用格矢量量化器对特征矢量进行量化和描述 ,用倒排文件和Hash表存储和索引量化后的特征矢量 ,利用代数格良好的几何和代数性质实现快速检索 .最后 ,本文分析了新方法的检索性能 ,并给出实验结果 .
关键词
矢量量化
图像检索
倒排文件
Keywords
information retrieval
index
vector quantization
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于压缩倒排文件的中文全文检索仿真系统
10
作者
宋懿
国德峰
机构
上海交通大学计算机科学与工程系
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第9期64-66,共3页
文摘
探讨基于压缩倒排文件的中文全文检索技术,包括数据压缩方法、存储、检索与排名机制。借助中科院的高精度ICTCLAS中文分词系统,采用C++/STL语言仿真实现了一个中文全文检索系统。该文列出部分关键代码,利用搜狗实验室提供的数据进行实验。通过改进压缩算法,系统的磁盘利用率提高了近80%。
关键词
中文全文检索
压缩倒排文件
排名
Keywords
Chinese full-text retrieval, compressed inverted file
ranking
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一类海量数据倒排文件的组织
11
作者
鲁声清
机构
天津商学院
出处
《天津大学学报》
EI
CAS
CSCD
1999年第5期657-659,共3页
文摘
探讨了一类海量数据的倒排文件组织的理论和技术,以一部1100余万字的巨著的数据组织为例,阐述了主索引文件的生成、变长记录的处理、记录排序方法及检纠错技术等.
关键词
文件 组织
数据处理
倒排文件
索引
计算机
Keywords
file organization data processing inverted file index art
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
题名 应用倒排文件进行模式匹配
12
作者
阎敬伟
出处
《光学机械》
CSCD
1992年第3期88-90,共3页
文摘
对模式识别技术的匹配方法提出了一种对参考模式特征数据的存贮结构,并给出了识别过程的算法。
关键词
倒排文件
模式匹配
存贮结构
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于时空约束和成本感知的集合空间关键字查询
13
作者
李松
曹文琪
郝晓红
张丽平
郝忠孝
机构
哈尔滨理工大学计算机科学与技术学院
出处
《计算机研究与发展》
北大核心
2025年第3期808-819,共12页
基金
国家自然科学基金项目(62072136)
黑龙江省重点研发计划项目(JD2023SJ20)
国家重点研发计划项目(2020YFB1710200)。
文摘
集合空间关键字查询在空间数据库、位置服务、智能推荐和群智感知等领域具有重要的作用.现有的集合空间关键字查询方法没有考虑要求同时带有时空约束和成本感知的问题,不能满足大部分用户在时空约束条件下的查询需求问题,已有研究成果具有较大的局限性.为了弥补已有方法的不足,提出一种基于时空约束和成本感知的集合空间关键字查询TDCCA-Co SKQ.为了解决现有索引中无法同时包含关键字信息和时间信息的问题,提出了一种TDCIR-Tree索引,该索引融合了倒排文件和时间属性标签文件,可以减小查询计算的开销;为了有效地筛选出符合查询条件的集合,提出了一种TDCCA_PP算法,其中包括第1层剪枝算法、组间有序排列和第2层剪枝算法,可以提高关键字的查询效率;进一步提出了一种基于TDC成本函数的排序算法,TDC成本函数是由距离成本和时间成本组成的,其中包含代表用户偏好度的自变量系数α和β,可以增加用户的选择自由度,有效解决了现有的成本函数无法满足时空约束和成本感知的集合空间关键字查询的问题.理论研究与实验表明,所提出的方法具有较好的效率与准确性.
关键词
集合空间关键字查询
时空约束
成本感知
倒排文件
时间属性标签文件
Keywords
collective spatial keyword query
time-distance constrained
cost aware
inverted files
time attribute label files
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 电网调度控制系统公共信息模型文件快速查询方法
被引量:5
14
作者
李镇义
孙云枫
李焱
宋爱波
周剑
张国芳
机构
国网四川省电力公司
国电南瑞科技股份有限公司
智能电网保护和运行控制国家重点实验室
东南大学计算机科学与工程学院
出处
《电力系统自动化》
EI
CSCD
北大核心
2017年第9期116-122,共7页
基金
国家电网公司科技项目"电网调度控制系统图模维护和共享技术的优化研究与应用"~~
文摘
电网调度控制系统采用描述电网模型的公共信息模型(CIM)文件进行多级调度系统间的模型交换。在电网调度控制系统内部,开始采用CIM文件代替传统的关系数据库作为电网模型多版本和离线编辑模型的存储介质,实现电网模型的轻量化存储。研究了CIM文件快速查询技术,提出了一种基于广义后缀数组的路径索引算法,结合基于倒排文件的关键词索引建立一种轻量级的联合索引,该索引存储性能良好,且可以保存到磁盘;基于联合索引,给出了关键词查询、直接路径查询(DPQ)和间接路径查询(IPQ)三种查询算法。最后,通过和XPath查询技术比较,表明DPQ和IPQ有很好的查询性能,大幅提高了CIM文件的查询效率,能够有效满足模型多版本和模型离线编辑对CIM文件查询的需求。
关键词
公共信息模型(CIM)
广义后缀数组
路径索引
倒排文件
关键词查询
路径查询
Keywords
common information model (CIM)
general suffix array
path index
inverted files
keyword query
path query
分类号
TM734
[电气工程—电力系统及自动化]
题名 利用关键词倒排表实时检索中文网页
被引量:4
15
作者
王远定
梁久祯
机构
江南大学信息工程学院
出处
《计算机工程与应用》
CSCD
北大核心
2010年第28期135-137,159,共4页
基金
江苏省自然科学基金No.BK20080544~~
文摘
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。
关键词
检索
网页特征表
倒排文件
实时性
Keywords
retrieval
webpage feature table
inverted file
real-time
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 一种全文检索系统的设计与实现
被引量:13
16
作者
涂新辉
何婷婷
罗景
机构
华中师范大学计算机系
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2005年第17期55-57,共3页
基金
国家语言文字应用委员会"十五"应用资助项目(ZDI105-43B)
湖北省自然科学基金资助项目(2001ABB012)
文摘
在对全文检索有关技术进行分析和研究的基础之上,提出并实现了一个实用的全文检索系统UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案以及分布式检索。依次讨论了该系统中的存储层、词法语法分析层、系统核心接口层。最后给出了该系统的一种分布式部署方案。
关键词
全文检索
全文索引
倒排文件
分布式
Keywords
Full-text retrieval
Full-text indexing
Inverted files
Distribution
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 全文索引技术时空效率分析
被引量:17
17
作者
刘小珠
彭智勇
机构
武汉大学软件工程国家重点实验室
武汉理工大学自动化学院
武汉大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2009年第7期1768-1784,共17页
基金
国家自然科学基金Nos.60573095
90718027
+1 种基金
国家高技术研究发展计划(863)No.2006AA12Z210
国家教育部博士学科点专项科研基金No.20050486024~~
文摘
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向.
关键词
倒排文件
签名文件
后缀树
后缀数组
自索引
压缩
时空效率
Keywords
inverted file
signature file
suffix tree
suffix array
self-index
compression
time and space efficiency
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于单汉字索引的全文检索系统的优化研究
被引量:11
18
作者
余海燕
张仲义
机构
北方交通大学自动化所
出处
《中文信息学报》
CSCD
北大核心
2001年第4期14-19,27,共7页
基金
86 3高技术资助项目!(86 3 - 30 6 -ZD - 0 7- 0 2 )
文摘
对于按照单汉字建立倒排索引的全文检索系统 ,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法 :一是利用参数化的Golomb编码对倒排文件进行压缩 ;二是对求集合交集的逻辑乘算法进行改进 ;三是运用并行计算和双缓冲技术。实验结果表明 ,经过优化后的单汉字全文检索系统已达到实用化的程度。
关键词
单汉字标引
倒排文件
Golomb编码
全文检索系统
倒排 索引
单汉字索引
Keywords
full text retrieval
single Chinese character indexing
inverted file
Golomb coding
分类号
G354.45
[文化科学—情报学]
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于压缩后缀数组技术的搜索引擎
被引量:2
19
作者
姚全珠
张楠
杨增辉
田元
机构
西安理工大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第10期83-85,88,共4页
基金
陕西省自然科学基金资助项目(2005F07)
文摘
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。
关键词
压缩后缀数组
倒排文件
后缀数组
搜索引擎
Keywords
Compressed Suffix Array(CSA)
inverted file
Suffix Array(SA)
search engine
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 基于SIFT特征向量的图像检索优化
被引量:2
20
作者
肖曼玉
卢江虎
谢公南
机构
西北工业大学理学院应用数学系
出处
《应用数学和力学》
CSCD
北大核心
2013年第11期1209-1215,共7页
基金
国家自然科学基金青年科学基金(11302173)~~
文摘
基于SIFT(scale-invariant feature transform,尺度不变特征转换)向量的图像检索在精度和实时性方面都与使用者的心理预期有较大的偏差,该文在建树(build vocabulary tree)、检索、以及匹配度计算方面做了一些改进,在满足实时性的要求下,提高了检索精度;在建树过程中,重新定义了SIFT特征向量聚类机制,将分类和K均值聚类法结合起来代替传统的K均值聚类法;在进行图像检索时,直接利用已有欧氏距离信息,减少向量之间距离的计算,对SIFT向量统一化处理;最后通过改进单位化处理方法,克服SIFT大数据造成的误差.数值结果表明,改进后vocabulary tree的节点有更强的差异性,克服了将训练集按数量均分而不是按距离均分和直接决定树的层数的缺陷;使得检索时间很好地满足了实时性的要求;改进的单位化方法消除了SIFT大数据的误差,从而极大地提高了检索精度.
关键词
SIFT
图像检索
倒排文件
K均值聚类
Keywords
SIFT
image retrieval
inverted-file
K-means clustering
分类号
V19
[航空宇航科学与技术—人机与环境工程]
O343.6
[理学—固体力学]