期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
面向科技文献多维语义组织的混合倒排索引构建方法 被引量:1
1
作者 张敏 李唯 范青 《现代情报》 CSSCI 北大核心 2024年第2期107-114,129,共9页
[目的/意义]为满足科研人员对科技文献内部细粒度语义信息进行高效查询的迫切需求,前期研究提出了面向科技文献的多维语义索引体系,然而基于HashMap的常见倒排索引会导致查询效率低下。本文旨在通过面向不同维度语义特征建立混合倒排索... [目的/意义]为满足科研人员对科技文献内部细粒度语义信息进行高效查询的迫切需求,前期研究提出了面向科技文献的多维语义索引体系,然而基于HashMap的常见倒排索引会导致查询效率低下。本文旨在通过面向不同维度语义特征建立混合倒排索引,以改进语义查询性能。[方法/过程]本文以Treap、B+树等多种数据结构探索适合不同语义维度的倒排索引构建方法,并将其组合形成多种适用于科技文献多维语义组织的混合倒排索引构建方法,并通过对比实验,在排序查询和布尔查询条件下分析验证不同类型倒排索引构建方法的查询性能。[结果/结论]实验结果表明,组合形成的8种混合倒排索引构建方法中,表2所示的C3(HHHB)被证明在排序查询条件下具有最高的效率,而C4(TTTB)则在布尔查询条件下被证明最为高效。本文的方法能有效解决单一索引结构导致的查询效率问题。 展开更多
关键词 科技文献 语义组织 混合倒排索引 HashMap Treap B+树
在线阅读 下载PDF
一种基于倒排索引的音频检索方法 被引量:8
2
作者 张雪源 贺前华 +1 位作者 李艳雄 叶婉玲 《电子与信息学报》 EI CSCD 北大核心 2012年第11期2561-2567,共7页
传统的基于实例的音频检索算法采用顺序索引,检索时需遍历数据库并导致难以忍受的等待时间。针对传统的顺序的索引方法,该文提出基于倒排索引的音频检索算法。该方法首先利用多种音频特征构成的超向量,通过多层音频分割方法将连续音频... 传统的基于实例的音频检索算法采用顺序索引,检索时需遍历数据库并导致难以忍受的等待时间。针对传统的顺序的索引方法,该文提出基于倒排索引的音频检索算法。该方法首先利用多种音频特征构成的超向量,通过多层音频分割方法将连续音频流分割为特征数值波动幅度小的短时音频段;然后利用事先训练好的音频字典,将短时音频段序列转换为可以表征音频内容的音频字序列,并建立倒排索引;检索时,将用户提交的查询转换为音频字后利用倒排索引无须遍历数据库即可直接定位候选段落,并根据候选段落与查询的内容相似度大小对候选段落进行排序,将排好序的列表作为检索结果。仿真实验以匹配项排名、同类检索结果比例、定位准确性和检索用时4个方面作为评价指标,实验结果显示,该算法能够在平均1.101 s时间内实现92.58%的检索准确率。 展开更多
关键词 音频信号处理 音频检索 内容相似度 倒排索引
在线阅读 下载PDF
基于位运算和倒排索引的关联规则挖掘算法 被引量:1
3
作者 黄玉蕾 罗晓霞 林青 《电信科学》 北大核心 2015年第11期81-86,共6页
提出了一种改进的Apriori关联规则挖掘算法,称为Apriori-BR。该算法首先通过扫描两次数据库建立各个频繁项目集到事务的倒排索引,并对倒排索引按照事务长度进行分组,然后在挖掘过程中,利用位运算加快子集的检测,并在必要时动态删除无效... 提出了一种改进的Apriori关联规则挖掘算法,称为Apriori-BR。该算法首先通过扫描两次数据库建立各个频繁项目集到事务的倒排索引,并对倒排索引按照事务长度进行分组,然后在挖掘过程中,利用位运算加快子集的检测,并在必要时动态删除无效的低维事务。实验结果表明,相比于经典的Apriori算法和已有文献中的改进算法,本文所提的Apriori-BR算法显著提高了挖掘效率。 展开更多
关键词 APRIORI算法 位运算 倒排索引
在线阅读 下载PDF
基于Lucene的倒排索引性能的研究 被引量:1
4
作者 朱鹏 《无线互联科技》 2014年第8期149-149,共1页
倒排索引技术是现代搜索引擎的核心技术之一,索引技术的好坏直接影响搜索引擎的性能。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构,可以方便的嵌入到各种应用程序中。在深入分析和研究Lucene索引机制的基础上,通过... 倒排索引技术是现代搜索引擎的核心技术之一,索引技术的好坏直接影响搜索引擎的性能。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构,可以方便的嵌入到各种应用程序中。在深入分析和研究Lucene索引机制的基础上,通过实验发现,与传统的字符串匹配查找的性能相比,使用倒排索引的Lucene更快捷、更准确的实现全文检索。 展开更多
关键词 倒排索引 索引 LUCENE 性能
在线阅读 下载PDF
一种基于倒排索引的频繁项集挖掘方法 被引量:1
5
作者 贾丽波 姜晓明 +1 位作者 叶青 陈占芳 《长春理工大学学报(自然科学版)》 2019年第2期117-119,124,共4页
针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束... 针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。 展开更多
关键词 频繁项集挖掘 倒排索引 二维数组
在线阅读 下载PDF
基于倒排索引结构的寻亲系统的设计 被引量:1
6
作者 刘健 宁玉文 +2 位作者 孙茂 许浩 李宝娟 《信息技术》 2018年第10期73-76,共4页
设计一种新型的数据存储结构和检索方法,以实现对短串联重复序列数据的合理存储和快速检索。对不同STR基因座位点设置不同的域;在不同的域中,构建倒排索引结构来存储STR基因座数据;在此基础上,构建了基于STR基因座数据相似度的检索排序... 设计一种新型的数据存储结构和检索方法,以实现对短串联重复序列数据的合理存储和快速检索。对不同STR基因座位点设置不同的域;在不同的域中,构建倒排索引结构来存储STR基因座数据;在此基础上,构建了基于STR基因座数据相似度的检索排序算法。该方法有效解决了采用传统关系型数据库存储STR基因座数据时存在的检索效率低下、难以应对基因突变以及扩展性差等问题。采用文中提出的数据存储结构和检索算法,极大地提高了系统的检索性能和可扩展性。 展开更多
关键词 STR 亲子鉴定 倒排索引 检索
在线阅读 下载PDF
基于倒排索引的DNF算法改进
7
作者 王茜 《信息技术》 2014年第8期180-182,186,共4页
中国互联网广告的高速发展使得广告市场对广告投放效果提出了更高的要求。布尔表达式检索作为定向广告的核心检索方式,决定着投放广告的精准度。由于具有倒排索引属性值唯一的特性,布尔表达式检索算法为广告主定制化需求带来了极大的限... 中国互联网广告的高速发展使得广告市场对广告投放效果提出了更高的要求。布尔表达式检索作为定向广告的核心检索方式,决定着投放广告的精准度。由于具有倒排索引属性值唯一的特性,布尔表达式检索算法为广告主定制化需求带来了极大的限制。文中将使用流归并的思路改进DNF算法,在检索过程中归并同属性链表,从而实现用户标签属性的多值"与"关系索引建立及检索,更好地满足定向广告中广告主对定向条件多样化的需求。 展开更多
关键词 计算广告 倒排索引 DNF算法
在线阅读 下载PDF
基于倒排索引的铁道供电集群监控H-CRQ技术
8
作者 屈志坚 范明明 +3 位作者 赵亮 朱丹 孙旭兵 王子潇 《铁道学报》 EI CAS CSCD 北大核心 2020年第11期75-83,共9页
针对铁道供电监控海量数据查询响应越来越慢,易造成调度界面卡屏的问题,结合倒排二级索引和动态缓存机制,提出一种铁道供电综合监控海量数据的H-CRQ集群监控处理方法。将铁道供电监控系统数据结构改变为倒排索引结构,使查询直接作用在... 针对铁道供电监控海量数据查询响应越来越慢,易造成调度界面卡屏的问题,结合倒排二级索引和动态缓存机制,提出一种铁道供电综合监控海量数据的H-CRQ集群监控处理方法。将铁道供电监控系统数据结构改变为倒排索引结构,使查询直接作用在特定关键词的检索上;避免逐条扫描;并将索引查询结果储存于缓存中;然后设计一种H-CRQ更新替换缓存的结构;将热点数据驻留缓存;避免高重复度数据逐条扫描和反复搜索;进一步提高查询效率。以天水-兰州铁路10 kV供电监测系统的实测数据为算例;进行查询响应测试。结果表明基于倒排索引的铁道供电集群监控H-CRQ技术可有效提高海量数据查询效率;且验证了新方法在缓存空间设置合理条件下;可解决铁道供电监控系统查询响应问题。 展开更多
关键词 铁道供电 海量数据 倒排索引 热点缓存 集群监控
在线阅读 下载PDF
基于Lucene的索引系统的设计与实现 被引量:11
9
作者 黄少林 王华 +1 位作者 张玉红 蒋一峰 《现代情报》 2009年第7期169-171,共3页
索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术... 索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术和Lucene的索引系统结构。 展开更多
关键词 索引 索引 LUCENE 倒排索引
在线阅读 下载PDF
高效FTP搜索引擎的设计与实现 被引量:7
10
作者 郭立力 赵春江 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期135-139,共5页
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是... 为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量. 展开更多
关键词 文件传输协议 索引 倒排索引 自动分类 自动纠错
在线阅读 下载PDF
搜索引擎中混合型分布式索引组织策略 被引量:1
11
作者 陈伟 刘康苗 +2 位作者 卜佳俊 陈纯 张利军 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第8期1361-1366,共6页
针对搜索引擎中索引组织策略在查询性能和可扩展性等方面存在的问题,提出了一种混合型分布式索引组织策略(Loc-Glob).该策略整合了局部和全局索引组织的基本思路,首先将搜索引擎系统的索引服务器从逻辑上分为若干个索引服务器池,索引数... 针对搜索引擎中索引组织策略在查询性能和可扩展性等方面存在的问题,提出了一种混合型分布式索引组织策略(Loc-Glob).该策略整合了局部和全局索引组织的基本思路,首先将搜索引擎系统的索引服务器从逻辑上分为若干个索引服务器池,索引数据先以局部(或全局)索引组织策略分配到索引服务器池上.然后,在索引服务器池的内部,索引继续以全局(或局部)索引组织的方式存储到各索引服务器上.混合型的索引组织策略较局部和全局索引组织策略具有更好的可扩展性.实验结果表明,该策略较全局索引组织策略在查询性能、负载均衡方面都有所提升,与局部索引组织策略的查询性能基本相当,并具备较高的负载均衡水平. 展开更多
关键词 索引 倒排索引 分布式索引组织 查询性能 负载均衡
在线阅读 下载PDF
一种密文全文检索系统的安全索引结构 被引量:1
12
作者 彭霖 李瑞轩 +3 位作者 宋赛 辜希武 文坤梅 卢正鼎 《微电子学与计算机》 CSCD 北大核心 2012年第9期27-30,共4页
文中提出了一种改进的安全全文索引结构.通过在倒排索引中对词条进行加密以抵抗语义分析攻击,屏蔽词条位置和频率信息以抵抗统计攻击,使用分块加密策略以抵抗已知明文攻击,使用两级索引结构保证了索引安全和检索效率的平衡.基于该安全... 文中提出了一种改进的安全全文索引结构.通过在倒排索引中对词条进行加密以抵抗语义分析攻击,屏蔽词条位置和频率信息以抵抗统计攻击,使用分块加密策略以抵抗已知明文攻击,使用两级索引结构保证了索引安全和检索效率的平衡.基于该安全全文索引结构设计了密文全文索引加密方案,并给出了一种多级密钥管理策略. 展开更多
关键词 密文全文检索 倒排索引 安全索引结构 分块加密
在线阅读 下载PDF
基于文档重要度的静态索引剪枝方法 被引量:1
13
作者 李晓明 单栋栋 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第4期1-6,共6页
针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的... 针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法. 展开更多
关键词 索引 倒排索引 静态索引剪枝 文档重要度
在线阅读 下载PDF
一种基于Bigram二级哈希的中文索引结构 被引量:2
14
作者 孙德才 王晓霞 《电子设计工程》 2014年第12期1-4,共4页
为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,... 为通过构建高速的中文索引结构来提高Off-line模式的串匹配速度,提出了一种基于Bigram二级哈希的中文索引结构。该索引采用中文GB2312编码处理中文汉字,以中文Bigram项作为词汇项,并实现了基于二级哈希的词汇表存储结构。实验数据显示,本文索引结构虽然占用存储空间为词索引的2倍多,但其匹配速度是词索引的4倍多。结果表明本文索引在中文匹配中具有速度优势。 展开更多
关键词 串匹配 中文 倒排索引
在线阅读 下载PDF
高性能FTP搜索引擎的设计 被引量:7
15
作者 方冰 张一中 《南京邮电大学学报(自然科学版)》 2007年第3期67-70,75,共5页
FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术。使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型... FTP(file transfer protcol)搜索引擎的重点在于中文分词技术和检索技术。使用了一种面向FTP搜索优化的最大前向匹配分词算法,并将用户查询作为反馈来更新分词算法中所使用的字典,结合倒排索引技术实现了一个高性能的FTP搜索引擎的原型系统。压力测试结果表明此FTP搜索引擎具有很高的性能。 展开更多
关键词 FTP 索引 分词 倒排索引
在线阅读 下载PDF
基于hadoop和hbase的分布式索引集群研究 被引量:4
16
作者 万轶 向广利 《信息技术与信息化》 2015年第1期102-103,共2页
随着互联网的发展,搜索引擎要处理的数据量越来越大,为提高信息检索效率,避免传统索引的创建和维护效率不高的情况,设计了一种基于Hadoop分布式索引集群和Hbase分布式查询数据库的解决方案。利用Hadoop的分布式计算和存储框架,采用分布... 随着互联网的发展,搜索引擎要处理的数据量越来越大,为提高信息检索效率,避免传统索引的创建和维护效率不高的情况,设计了一种基于Hadoop分布式索引集群和Hbase分布式查询数据库的解决方案。利用Hadoop的分布式计算和存储框架,采用分布式倒排索引算法,分词并建立索引表,最后存储到Hbase中。通过实验证明了基于Hadoop的分布式索引集群在数据处理方面的优势。 展开更多
关键词 分布式索引 HADOOP 倒排索引 分词 HBASE
在线阅读 下载PDF
一种基于DGKAD模型的FTP搜索引擎索引算法
17
作者 石小梅 刘克剑 +1 位作者 郭彩虹 严莲 《西华大学学报(自然科学版)》 CAS 2013年第3期50-53,76,共5页
为解决FTP资源快速定位问题,提出了基于双字母倒排索引和引入地理位置信息的Kademlia模型(DGKAD)。在Kademlia(KAD)网络中加入了地理位置信息,弥补了KAD网络的层叠网逻辑拓扑和物理拓扑不匹配的问题,提高了网络通信效率;同时,鉴于FTP搜... 为解决FTP资源快速定位问题,提出了基于双字母倒排索引和引入地理位置信息的Kademlia模型(DGKAD)。在Kademlia(KAD)网络中加入了地理位置信息,弥补了KAD网络的层叠网逻辑拓扑和物理拓扑不匹配的问题,提高了网络通信效率;同时,鉴于FTP搜索引擎的检索对象是文件名,使用双字母倒排索引可以避免分词,提高了检索精确率。模拟实验表明,与基于中文分词的标准KAD(CKAD)相比,该算法的资源定位时间减少了约50%,检索查全率提高了约30%。 展开更多
关键词 双字母倒排索引 KADEMLIA FTP搜索引
在线阅读 下载PDF
可扩展性桌面搜索引擎的设计与实现
18
作者 张剑明 周荣辉 《成都信息工程学院学报》 2012年第1期49-54,共6页
为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采... 为了使桌面搜索引擎具有良好的可扩展性和执行效率,满足用户对信息的全文检索要求,在研究桌面搜索引擎基本构件的基础上,架构出可扩展性桌面搜索引擎的系统体系结构,探讨了在Visual C++环境中如何基于组件编程的方法设计各关键构件、采用倒排索引和多线程处理等关键技术。结果表明该桌面搜索引擎可扩展性强并具有良好的效率和效果。 展开更多
关键词 计算机软件与理论 桌面搜索 倒排索引 组件编程 多线程处理
在线阅读 下载PDF
基于动态平衡树的增量索引合并策略研究
19
作者 李文杰 《中国新通信》 2015年第1期116-116,共1页
本文提出一种基于动态平衡树的索引构建合并策略,以提高其索引合并和检索的综合性能。这种高效的索引文件结构,允许多个子索引同时存在,并在某一特定时间进行索引合并优化,实现高效增量地构建索引。实验表明,采用类哈夫曼树的动态合并... 本文提出一种基于动态平衡树的索引构建合并策略,以提高其索引合并和检索的综合性能。这种高效的索引文件结构,允许多个子索引同时存在,并在某一特定时间进行索引合并优化,实现高效增量地构建索引。实验表明,采用类哈夫曼树的动态合并策略优于LOG和GP方法。 展开更多
关键词 信息检索 倒排索引 在线索引 动态平衡树
在线阅读 下载PDF
句子相似模型和最相似句子查找算法 被引量:68
20
作者 吕学强 任飞亮 +1 位作者 黄志丹 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第6期531-534,共4页
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·... 提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小· 展开更多
关键词 自然语言处理 基于实例 机器翻译 句子相似度 倒排索引 语料库
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部