期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于DHT的分布式索引技术研究与实现 被引量:8
1
作者 吴炜 苏永红 +1 位作者 李瑞轩 卢正鼎 《计算机科学》 CSCD 北大核心 2010年第2期65-70,共6页
针对索引创建和维护效率不高的问题,设计了一种基于DHT(Distributed Hash Table)的分布式倒排索引构建算法。该算法利用基于改进的Chord网络的分布式哈希表技术,将分词后的结果分散到多个索引服务器上并行构建索引,同时采用前驱列表定... 针对索引创建和维护效率不高的问题,设计了一种基于DHT(Distributed Hash Table)的分布式倒排索引构建算法。该算法利用基于改进的Chord网络的分布式哈希表技术,将分词后的结果分散到多个索引服务器上并行构建索引,同时采用前驱列表定位和减少服务器定位延迟的技术,大大缩短了索引构建时间。通过采用统一调度的基于分块的增量式倒排索引更新策略,索引更新时不再需要移动已有的索引文件,提高了索引更新效率。利用周期性稳定算法和前驱列表定位提高了系统的稳定性、容错性和索引的一致性。 展开更多
关键词 分布式索引 分布式哈希表 CHORD网络
在线阅读 下载PDF
基于分布式索引和目录聚合的海量小文件存储研究 被引量:5
2
作者 马灿 孟丹 熊劲 《高技术通讯》 CAS CSCD 北大核心 2012年第10期1035-1040,共6页
针对海量小文件访问问题的挑战,提出了用基于分布式索引和目录聚合的分布式文件系统——超虚拟文件系统(HVFS)来管理数十亿个小文件的方法,以支持高并发、高吞吐、低延迟的访问。重点讨论了目录索引、目录存储问题,提出了利用可扩... 针对海量小文件访问问题的挑战,提出了用基于分布式索引和目录聚合的分布式文件系统——超虚拟文件系统(HVFS)来管理数十亿个小文件的方法,以支持高并发、高吞吐、低延迟的访问。重点讨论了目录索引、目录存储问题,提出了利用可扩展哈希索引来降低延迟、提高扩展性,利用日志结构和列存储的目录聚合来提高吞吐率的方法。测试结果表明,HVFS的存储性能能够线性扩展,82节点上峰值创建速度接近百万每秒,与GIGA+相比有200%以上的提升,小文件I/O性能与OrangeFS相比有60倍以上的提升,充分验证了分布式索引和目录聚合方法的有效性。 展开更多
关键词 小文件 海量存储 分布式索引 目录聚合 分布式文件系统
在线阅读 下载PDF
面向大数据流的分布式索引构建 被引量:5
3
作者 杨良怀 卢晨曦 +2 位作者 范玉雷 朱镇洋 潘建 《软件学报》 EI CSCD 北大核心 2021年第11期3576-3595,共20页
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排... 大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景. 展开更多
关键词 大数据 数据流 分布式索引 B+树
在线阅读 下载PDF
搜索引擎中混合型分布式索引组织策略 被引量:1
4
作者 陈伟 刘康苗 +2 位作者 卜佳俊 陈纯 张利军 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2009年第8期1361-1366,共6页
针对搜索引擎中索引组织策略在查询性能和可扩展性等方面存在的问题,提出了一种混合型分布式索引组织策略(Loc-Glob).该策略整合了局部和全局索引组织的基本思路,首先将搜索引擎系统的索引服务器从逻辑上分为若干个索引服务器池,索引数... 针对搜索引擎中索引组织策略在查询性能和可扩展性等方面存在的问题,提出了一种混合型分布式索引组织策略(Loc-Glob).该策略整合了局部和全局索引组织的基本思路,首先将搜索引擎系统的索引服务器从逻辑上分为若干个索引服务器池,索引数据先以局部(或全局)索引组织策略分配到索引服务器池上.然后,在索引服务器池的内部,索引继续以全局(或局部)索引组织的方式存储到各索引服务器上.混合型的索引组织策略较局部和全局索引组织策略具有更好的可扩展性.实验结果表明,该策略较全局索引组织策略在查询性能、负载均衡方面都有所提升,与局部索引组织策略的查询性能基本相当,并具备较高的负载均衡水平. 展开更多
关键词 索引 倒排索引 分布式索引组织 查询性能 负载均衡
在线阅读 下载PDF
基于日志结构合并树的轻量级分布式索引实现方法 被引量:2
5
作者 崔双双 王宏志 《计算机应用》 CSCD 北大核心 2021年第3期630-635,共6页
针对现有基于日志结构合并树(LSM-Tree)实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法 SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查... 针对现有基于日志结构合并树(LSM-Tree)实现的分布式数据库仅支持高效的主键查询,无法让用户快速地应用在自己的集群中的问题,提出了基于LSM-Tree的轻量级分布式索引实现方法 SIBL。首先,通过对主键属性列建立索引来提高非主键属性的查询效率;然后,提出了分布式索引构建算法以及基于等距取样的索引区间划分算法,从而保证了索引在系统中的均匀分布,并且优化了传统索引的查询算法,将索引文件看作特殊的数据文件分布式地存储在系统中,从而保证了系统的负载均衡和可扩展性;最后,将该方法与华为二级索引方案HIndex在HBase数据库上进行实验来比较二者的索引构建的时间和空间开销、索引的查询性能和系统的负载均衡等性能,验证得出所提出的方法使查询性能提升了50~200倍。 展开更多
关键词 日志结构合并树 分布式索引 HBASE 查询优化
在线阅读 下载PDF
集群环境下分布式索引的实现 被引量:7
6
作者 翁海星 宫学庆 +1 位作者 朱燕超 胡华梁 《计算机应用》 CSCD 北大核心 2016年第1期1-7,12,共8页
针对分布式存储系统上使用非主键访问数据带来的性能问题,探讨在分布式存储系统上实现索引的相关关键技术。在充分分析分布式存储特征的基础上,提出了分布式索引设计和实现的关键点,并结合分布式存储系统的特点及相关的索引技术,讨论了... 针对分布式存储系统上使用非主键访问数据带来的性能问题,探讨在分布式存储系统上实现索引的相关关键技术。在充分分析分布式存储特征的基础上,提出了分布式索引设计和实现的关键点,并结合分布式存储系统的特点及相关的索引技术,讨论了索引的组织形式、索引的维护和数据一致性等问题;然后基于如上的分析,选择在分布式数据库系统OceanBase开源版本上,设计和实现分布式索引机制,并通过基准测试工具YCSB进行性能测试。实验结果表明,虽然辅助索引会对系统性能产生影响,但因为充分考虑了系统特征及存储特点,在不同数据规模下,该索引都能够将性能影响控制在5%以内。另外,使用冗余列的方式,能进一步将该索引的性能提升100%。 展开更多
关键词 分布式存储 分布式索引 辅助索引 索引维护 OceanBase
在线阅读 下载PDF
结合论文施引特征和分布式检索技术的引文耦合度算法设计
7
作者 郭锐锋 常志军 +3 位作者 董美 张建勇 钱力 董智鹏 《小型微型计算机系统》 北大核心 2025年第2期297-304,共8页
大规模科技文献知识库的全量引文耦合关系因计算量巨大的难题,阻碍了引文耦合知识服务在诸多业务场景的应用.本文提出了一种适用于大规模文献知识库的全量引文耦合度计算算法,根据施引特征过滤没有耦合关系的无效组合,避免计算过程中稀... 大规模科技文献知识库的全量引文耦合关系因计算量巨大的难题,阻碍了引文耦合知识服务在诸多业务场景的应用.本文提出了一种适用于大规模文献知识库的全量引文耦合度计算算法,根据施引特征过滤没有耦合关系的无效组合,避免计算过程中稀疏矩阵的产生,并引入多模式匹配技术,优化算法的整体时间复杂度为O(n log z).本算法在生产环境中依赖分布式搜索引擎集群完成工程化实施.在国家科技图书文献中心的3600万篇科技文献数据库上,对该方法与传统引文耦合方法进行了多组实验对比,并生成了6.59亿论文对的耦合度数据,为国家科技图书文献中心的引文耦合知识服务提供了数据支持,验证了该方法的准确性和实用性. 展开更多
关键词 引文耦合度 分布式索引 稀疏矩阵 施引特征 多模式匹配
在线阅读 下载PDF
分布式搜索引擎系统效能建模与评价 被引量:6
8
作者 张伟哲 张宏莉 +1 位作者 许笑 何慧 《软件学报》 EI CSCD 北大核心 2012年第2期253-265,共13页
针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此... 针对分布式搜索引擎系统效能建模与评估问题,通过对当前分布式搜索引擎系统的建模与分类,扩展了能耗与网络开销的成本模型;对5种构建搜索引擎系统的设计方案,从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析与评价.由此发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他系统具有相对较高的效能,同时能够较好地兼顾用户的服务质量. 展开更多
关键词 分布式索引 效能建模 分布式采集 分布式索引 半广域网搜索引
在线阅读 下载PDF
基于Cassandra的可扩展分布式反向索引的构建 被引量:10
9
作者 唐李洋 倪志伟 李应 《计算机科学》 CSCD 北大核心 2011年第6期187-190,共4页
随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求。如何在分布式的环境中高效地处理数据检索成为亟待解决的问题。传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一... 随着云计算时代的到来,大型Web应用的不断发展,海量数据不断增加,集中式的数据检索已不再满足需求。如何在分布式的环境中高效地处理数据检索成为亟待解决的问题。传统的关系型数据存储也无法完全适应云环境,NoSQL(Not only SQL)作为一种云存储形式应运而生,其中Cassandra的应用较为广泛。以分布式的多节点架构的索引构建为背景,提出了建立在分布可扩展的数据存储Cassandra之上的分布式反向索引(DII,Distributed Inverted Index),并给出了数据模型和查询处理流程的分析,最后给出了Cassandra的性能测试。 展开更多
关键词 云存储 分布式索引 反向索引 Cassandra
在线阅读 下载PDF
高维分布式局部敏感哈希索引方法 被引量:9
10
作者 林朝晖 于俊清 +2 位作者 何云峰 管涛 艾列富 《计算机科学与探索》 CSCD 2013年第9期811-818,共8页
为了解决基于内容的图像检索中存在的索引存储量大和构建索引计算开销大等问题,在系统地分析局部敏感哈希索引算法及Hadoop分布式系统的基础上,改进了现有高维索引计算模型和索引结构方法。根据局部敏感哈希索引的特点,将现有局部敏感... 为了解决基于内容的图像检索中存在的索引存储量大和构建索引计算开销大等问题,在系统地分析局部敏感哈希索引算法及Hadoop分布式系统的基础上,改进了现有高维索引计算模型和索引结构方法。根据局部敏感哈希索引的特点,将现有局部敏感哈希索引改为松耦合的索引结构,将索引文件分布式部署在多个查询节点中实现了高并发的索引查询。通过MapReduce分布式计算模型实现了索引的并行构造,提高了索引构造的效率,并采用分布式数据库存储海量高维索引数据,增强了系统可扩展性。实验结果表明,该算法具有一定的可行性。 展开更多
关键词 局部敏感哈希 分布式索引 基于内容图像检索
在线阅读 下载PDF
CS-Chord:基于聚类分离的分布式高维向量索引 被引量:1
11
作者 袁鑫攀 汪灿飞 +1 位作者 龙军 彭成 《计算机科学》 CSCD 北大核心 2017年第B11期494-497,共4页
M-Chord是一种基于P2P网络的高维向量索引,其聚类边缘的向量容易与搜索圆频繁相交,使得查找的区域增多,降低了M-Chord的效率。提出一种基于聚类分离的分布式高维向量索引(CS-Chord),将边缘区域的高频检索向量从Chord环中分离出来,集中... M-Chord是一种基于P2P网络的高维向量索引,其聚类边缘的向量容易与搜索圆频繁相交,使得查找的区域增多,降低了M-Chord的效率。提出一种基于聚类分离的分布式高维向量索引(CS-Chord),将边缘区域的高频检索向量从Chord环中分离出来,集中存储在服务器上,中心区域的向量仍存储于Chord环中,节省了大量资源的定位时间,从而提高检索效率。实验结果表明:在查询半径为0.2时,CS-Chord距离计算次数约为2000,比M-Chord减少了约2500次;CS-Chord消息转发次数约降低150次,仅为M-Chord的50%。 展开更多
关键词 高维向量 聚类 CHORD 分布式索引
在线阅读 下载PDF
一种基于Agent的分布式搜索引擎 被引量:13
12
作者 肖诗源 叶俊 刘贤德 《计算机工程》 CAS CSCD 北大核心 2002年第7期38-39,115,共3页
分析了传统搜索引擎的不足,提出了一种基于智能的分布式搜索引擎,以的方法实现了搜索引擎的各项功能,描述了多AgentAgent个搜索引擎利用通信机制组成分布式网络的过程。
关键词 AGENT 分布式索引 信息检索 INTERNET
在线阅读 下载PDF
DTindex:分布式时态索引技术 被引量:2
13
作者 叶小平 周畅 +1 位作者 廖青云 朱峰华 《华南师范大学学报(自然科学版)》 CAS 北大核心 2013年第3期40-44,共5页
研究了基于线序划分(LOP)分布式时态索引技术DTindex.通过建立DTindex所需数据结构和算法,讨论分布式时态数据索引DTindex;针对时间数据LOP结构提出基于查询期望的数据分布算,依据DTindex两层索引架构提出P2P部署以减少系统的通信开销;... 研究了基于线序划分(LOP)分布式时态索引技术DTindex.通过建立DTindex所需数据结构和算法,讨论分布式时态数据索引DTindex;针对时间数据LOP结构提出基于查询期望的数据分布算,依据DTindex两层索引架构提出P2P部署以减少系统的通信开销;通过仿真实验表明了索引可行性和有效性. 展开更多
关键词 时态拟序结构 分布式时态索引 查询期望与P2P部署
在线阅读 下载PDF
一种分布式搜索引擎设计 被引量:4
14
作者 印鉴 邹胜 《计算机科学》 CSCD 北大核心 2001年第10期74-77,共4页
This paper presents a distributed search engine design of an on-line bookstore system. Sever-al principles are introduced such as database miniaturization,the entire structure and the main modules are explained in det... This paper presents a distributed search engine design of an on-line bookstore system. Sever-al principles are introduced such as database miniaturization,the entire structure and the main modules are explained in detail. Compared with a centralized structure,the distributed structure has several ad-vantages including high speed, efficient usage of network bandwidth, less security problems, etc. The system uses feedback of the users to judge the information quality, select search engines and update databases. So,the system performances are improved. 展开更多
关键词 INTERNET 分布式索引 信息检索 设计
在线阅读 下载PDF
基于语义Web服务的分布式服装搜索引擎系统设计 被引量:3
15
作者 张革伕 徐琪 《计算机应用》 CSCD 北大核心 2009年第6期1601-1604,共4页
从电子商务环境下服装供应链管理的需求出发,分析了目前服装搜索引擎存在的问题,提出了基于语义Web服务的分布式服装商品搜索引擎系统模型,并讨论了它的体系结构。介绍了基于Ontology Web Language(OWL)的服装本体设计模型及其语义描述... 从电子商务环境下服装供应链管理的需求出发,分析了目前服装搜索引擎存在的问题,提出了基于语义Web服务的分布式服装商品搜索引擎系统模型,并讨论了它的体系结构。介绍了基于Ontology Web Language(OWL)的服装本体设计模型及其语义描述方法。分析了服装搜索引擎的基本功能及分布式环境下的Web Services(WS)合成。理论分析和实例原型说明了基于服装语义树的搜索引擎多关键词搜索效率明显高于全文搜索引擎。 展开更多
关键词 语义WEB WEB服务 分布式索引 服装供应链
在线阅读 下载PDF
一种新的分布式并行索引树——DPB^+-Tree
16
作者 唐继勇 白新跃 +1 位作者 杨峰 何建 《计算机科学》 CSCD 北大核心 2005年第12期75-78,共4页
随着数据规模的增大,查询越来越复杂,分布式并行索引以其高性能而逐渐成为解决复杂查询问题的有效手段。本文提出一种适合于分布式并行的新索引树结构——DPB^+-Tree,该索引树以B^+树和 hash结构为基础,其叶子结点被组织为有n个散列表元... 随着数据规模的增大,查询越来越复杂,分布式并行索引以其高性能而逐渐成为解决复杂查询问题的有效手段。本文提出一种适合于分布式并行的新索引树结构——DPB^+-Tree,该索引树以B^+树和 hash结构为基础,其叶子结点被组织为有n个散列表元的hash表链,从树的根结点到叶子结点,结点副本数量逐渐减少,并且其数量的变化是动态的。对DPB^+-Tree响应时间的仿真结果表明 DPB^+-Tree系统提高了系统的查询效率,与其它相关策略,如CPB方法比较具有较明显优势。 展开更多
关键词 分布式并行索引 B^+树 hash结构 DPB^+-Tree
在线阅读 下载PDF
基于文本聚类与分布式Lucene的知识检索 被引量:10
17
作者 冯汝伟 谢强 丁秋林 《计算机应用》 CSCD 北大核心 2013年第1期186-188,共3页
针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规... 针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。 展开更多
关键词 非结构化知识 分布式索引 文本聚类 全文检索 并行检索
在线阅读 下载PDF
分布式环境下大规模移动对象范围查询算法 被引量:1
18
作者 马永强 陈晓萌 于自强 《计算机应用》 CSCD 北大核心 2023年第1期111-121,共11页
移动对象的连续范围查询是许多基于位置的服务的核心问题。针对该问题,提出一种面向大规模移动对象并发范围查询的分布式搜索方法。首先,设计了一种由全局网格索引(GGI)和局部弹性四叉树构成的移动对象分布式动态索引(DDI)结构。其次,... 移动对象的连续范围查询是许多基于位置的服务的核心问题。针对该问题,提出一种面向大规模移动对象并发范围查询的分布式搜索方法。首先,设计了一种由全局网格索引(GGI)和局部弹性四叉树构成的移动对象分布式动态索引(DDI)结构。其次,提出了一种基于DDI结构的分布式查询算法(DSA),该算法首先引入了一种在移动对象和查询点的位置连续变化的情况下的查询结果增量更新策略;然后,在增量更新过程中引入一种面向多并发查询的共享计算优化策略,该策略能够根据已有计算结果对移动对象范围查询结果进行增量搜索。最后,基于德国路网模拟了3个具有不同空间分布的移动对象数据集,将DSA与NS(Naive Search)、GI(Grid Index)和分布式混合索引(DHI)进行对比。实验结果表明,与性能最好的对比算法DHI相比,DSA的初始查询时间减少了22.7%,增量查询时间减少了15.2%,性能优于对比算法。 展开更多
关键词 连续范围查询 移动对象 四叉树 分布式动态索引 基于位置的服务
在线阅读 下载PDF
一种P2P环境下的B^+树索引管理算法 被引量:5
19
作者 鞠大鹏 黎明 +3 位作者 胡进锋 汪东升 郑纬民 马永泉 《计算机研究与发展》 EI CSCD 北大核心 2005年第8期1438-1444,共7页
PeertoPeer(P2P)广域存储系统的分布式数据查询是其重要组成部分.其中对连续有序数据的查询还没有有效的算法.提出了一种在P2P环境下为连续有序数据建立分布式索引的算法——PBlink树.PBlink树具有可靠性高、吞吐率高、网络开销低、负... PeertoPeer(P2P)广域存储系统的分布式数据查询是其重要组成部分.其中对连续有序数据的查询还没有有效的算法.提出了一种在P2P环境下为连续有序数据建立分布式索引的算法——PBlink树.PBlink树具有可靠性高、吞吐率高、网络开销低、负载均衡的性质,比传统的分布式索引算法更能适应P2P环境.理论推导和实验数据证明,PBlink树算法的数据通信开销是传统分布式索引的20%,查询效率是其7倍.在承受整个系统中50%节点失效的情况下,仍可以保证85%查询的正确性,具有很强的可靠性. 展开更多
关键词 PEER-TO-PEER 广域存储系统 分布式索引 PB-link树
在线阅读 下载PDF
面向云环境的图像高维特征索引框架 被引量:1
20
作者 陈凤娟 丁贵广 朱妤晴 《计算机集成制造系统》 EI CSCD 北大核心 2011年第8期1827-1833,共7页
针对海量图像数据的高维特征索引和查询方法,设计了一个面向云环境的两阶段图像高维特征索引框架,并基于MapReduce机制进行了系统实现。提出了一种基于位置敏感哈希函数的两阶段索引框架,可有效支持高维特征索引的分布式创建;利用MapRed... 针对海量图像数据的高维特征索引和查询方法,设计了一个面向云环境的两阶段图像高维特征索引框架,并基于MapReduce机制进行了系统实现。提出了一种基于位置敏感哈希函数的两阶段索引框架,可有效支持高维特征索引的分布式创建;利用MapReduce计算机制,设计和实现了分布式索引构建和查询算法,并集成到非结构化数据管理系统中。实验结果表明,该索引框架的查询速度随着数据规模不断增大呈亚线性增长。 展开更多
关键词 高维特征索引 分布式索引 位置敏感哈希算法 基于内容的图像检索 云计算 数据管理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部