期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
一种基于Solr的HBase海量数据二级索引方案 被引量:15
1
作者 王文贤 陈兴蜀 +1 位作者 王海舟 吴小松 《信息网络安全》 CSCD 2017年第8期39-44,共6页
针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据... 针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据的插入、更新、删除和恢复等操作都实现了相应的回调函数,通过回调函数向Solr发送相关请求,以实现在Solr中自动为HBase建立和维护二级索引,保证数据与索引的一致性。该方案具有良好的通用性,可以同时为多张表的多列数据建立索引。该方案扩展了HBase的客户端功能,增加了直接查询Solr的接口,利用Solr提供的高效、灵活、多样的检索功能实现对HBase海量数据的快速检索。最后,与hindex进行了二级索引的查询性能对比实验,证明了该方案在查询速度上要远快于hindex。 展开更多
关键词 HBASE 二级索引 SOLR 快速检索
在线阅读 下载PDF
基于二级索引的重复数据删除系统中性能相关参数的量化分析与研究 被引量:3
2
作者 李超 周晓阳 +1 位作者 王树鹏 云晓春 《计算机研究与发展》 EI CSCD 北大核心 2012年第S2期173-177,共5页
随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大... 随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大小等一些性能相关的参数进行了分析研究,设计了相关实验,对这些参数与读写性能的关系进行了量化描述,对本类模型在实际环境中的应用有很好的指导意义,同时为下一步性能优化工作提供了重要的数据基础. 展开更多
关键词 重复数据删除 二级索引结构 参数 性能 量化分析
在线阅读 下载PDF
使用二级索引的中文分词词典 被引量:10
3
作者 张庆扬 柴胜 《计算机工程与应用》 CSCD 北大核心 2009年第19期139-141,共3页
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分... 中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。 展开更多
关键词 中文分词 二级索引 正向最大匹配
在线阅读 下载PDF
基于协处理器的HBase二级索引方法 被引量:4
4
作者 郭红 周健倩 +1 位作者 张瑛瑛 郭昆 《计算机工程与应用》 CSCD 北大核心 2019年第21期87-92,共6页
在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应... 在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。 展开更多
关键词 HBASE 二级索引 协处理器 ElasticSearch
在线阅读 下载PDF
相似聚类的二级索引重复数据删除算法 被引量:2
5
作者 王青松 葛慧 《小型微型计算机系统》 CSCD 北大核心 2017年第12期2797-2801,共5页
针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.... 针对重复数据删除算法指纹对比I/O瓶颈问题,提出一种基于相似聚类的二级索引重复数据删除算法.首先计算所有数据块的Simhash值,基于Simhash值之间的海明距离,提出一种自适应的相似聚类算法,所有聚类中心信息形成一级索引存放在内存中.然后计算每个类中数据块的MD5值,将其信息形成二级索引存放在聚类中心.当需要进行重复数据块检测时,计算待检测数据块Simhash值到一级索引中所有聚类中心Simhash值的海明距离,并将海明距离最小的类的二级索引调入内存中进行MD5指纹对比.实验结果表明,算法没有误判率,在较大提高了指纹对比速度的同时,每次检测只产生一次I/O操作,具有更高效的性能. 展开更多
关键词 重复数据删除 二级索引 相似聚类 Simhash 海明距离
在线阅读 下载PDF
相似索引:适用于重复数据删除的二级索引 被引量:1
6
作者 张志珂 蒋泽军 +1 位作者 蔡小斌 彭成章 《计算机应用研究》 CSCD 北大核心 2013年第12期3614-3617,共4页
由于EB(extreme binning)使用文件的最小块签名作为文件的特征,它不适合处理主要包括小文件的数据负载,会导致较差的重复数据删除率。为了改进EB,提出了相似索引。它把相似哈希作为文件的特征,是一种适用于以小文件为主的数据负载的重... 由于EB(extreme binning)使用文件的最小块签名作为文件的特征,它不适合处理主要包括小文件的数据负载,会导致较差的重复数据删除率。为了改进EB,提出了相似索引。它把相似哈希作为文件的特征,是一种适用于以小文件为主的数据负载的重复数据删除的二级索引。实验结果表明,相似索引的重复数据删除率比EB高24.8%;相似索引的内存使用量仅仅是EB的0.265%。与EB相比,相似索引需要更少的存储使用量和内存使用量。 展开更多
关键词 重复数据删除 相似哈希 相似索引 块查找磁盘瓶颈问题 二级索引
在线阅读 下载PDF
基于二级索引结构的图压缩算法 被引量:1
7
作者 李高超 李犇 +2 位作者 卢毓海 刘梦雅 刘燕兵 《通信学报》 EI CSCD 北大核心 2018年第6期109-115,共7页
目前,各领域对图数据的分析、应用需求日益增加,且对结构复杂、耦合度高的大规模图数据的管理面临着速度低下和空间开销大的双重挑战。面对图数据管理中查询耗时高和空间占比大的难题,提出一种图数据二级索引压缩算法——GCom Idx。该... 目前,各领域对图数据的分析、应用需求日益增加,且对结构复杂、耦合度高的大规模图数据的管理面临着速度低下和空间开销大的双重挑战。面对图数据管理中查询耗时高和空间占比大的难题,提出一种图数据二级索引压缩算法——GCom Idx。该算法利用有序的键值(Key-Value)结构将相关节点和边尽可能地以相邻的方式存储,并为高效的属性查询和邻居查询分别构造二级索引和hash节点索引。此外,为了节省存储空间,GCom Idx算法采用压缩算法来降低图数据磁盘空间占用率。实验结果表明,GCom Idx算法能够有效降低图数据计算的初始化时间和图数据存储的磁盘空间占用,且查询时间小于通用数据库和其他Key-Value存储方案。 展开更多
关键词 二级索引 图压缩 键值结构 属性查询 邻居查询
在线阅读 下载PDF
基于内存的HBase二级索引设计 被引量:8
8
作者 崔晨 郑林江 +1 位作者 韩凤萍 何牧君 《计算机应用》 CSCD 北大核心 2018年第6期1584-1590,共7页
在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到... 在大数据时代,具有海量数据存储能力的HBase已被广泛应用。HBase只对行键进行了索引优化,对非行键的列未建立索引,这严重影响了复杂条件查询的效率。针对此问题,提出了基于内存的HBase二级索引方案。该方案对需要查询的列建立了映射到行键的索引,并将索引存储在Spark搭建的内存环境中,在查询时先通过索引获取行键,然后利用行键在HBase中快速查找对应的记录。由于列的基数大小和是否涉及范围查询决定了建立索引的类型,故针对三种不同情况构建了不同类型的索引,并利用Spark内存计算、并行化的特点来提高索引的查询效率。实验结果表明,该二级索引具有较好的查询性能,查询时间小于基于Solr的二级索引,可以解决HBase中因非行键的列缺乏索引导致查询效率较低的问题,提高基于HBase存储的大数据分析的查询效率。 展开更多
关键词 HBASE SPARK 二级索引 内存索引 并行化
在线阅读 下载PDF
基于协处理器的HBase分类二级索引设计 被引量:4
9
作者 陈顺举 邹喆 +3 位作者 刘锐 陶涛 汪超 郑林江 《重庆理工大学学报(自然科学)》 CAS 北大核心 2021年第4期142-151,200,共11页
针对HBase仅在行键上进行索引优化而非行键列查询的问题,提出一种基于协处理器的HBase分类二级索引方案。设计基于协处理器的索引管理和并行查询机制:利用Ob-server在内存中建立并维护索引,同时利用Endpoint设计并行查询算法,进而提升... 针对HBase仅在行键上进行索引优化而非行键列查询的问题,提出一种基于协处理器的HBase分类二级索引方案。设计基于协处理器的索引管理和并行查询机制:利用Ob-server在内存中建立并维护索引,同时利用Endpoint设计并行查询算法,进而提升非行键列的查询性能。由于数据特征和查询需求决定了构建索引的类型,进一步设计分类内存索引模型,用以平衡查询性能和索引性能。在出租车GPS数据集上的实验结果表明:相较于基于Solr和Hi-Base的二级索引方案具有更好的整体性能。 展开更多
关键词 HBASE 二级索引 协处理器 内存索引
在线阅读 下载PDF
基于LevelDB的二维数据二级索引实现 被引量:2
10
作者 刘子豪 胡卉芪 +1 位作者 徐瑞 周烜 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第5期159-167,共9页
随着科学研究中产生的空间数据尤其是二维数据量级的增长和NoSQL型数据库技术的发展,越来越多的空间数据被存储到NoSQL数据库中.LevelDB是一款开源的Key-Value型NoSQL数据库,由于它基于LSM架构并拥有较好的写入性能而被广泛应用.但是Key... 随着科学研究中产生的空间数据尤其是二维数据量级的增长和NoSQL型数据库技术的发展,越来越多的空间数据被存储到NoSQL数据库中.LevelDB是一款开源的Key-Value型NoSQL数据库,由于它基于LSM架构并拥有较好的写入性能而被广泛应用.但是Key-Value结构的局限性使其无法有效地索引空间数据,对于这个问题本文提出了一种基于LevelDB和R-tree的二级索引,使其可以支持二维数据的索引和近邻查询.实验结果表明该结构有较好的可用性. 展开更多
关键词 Key-Value数据库 二级索引 R-TREE
在线阅读 下载PDF
基于同态加密的HBase二级密文索引方法研究 被引量:2
11
作者 傅智宙 王利明 +1 位作者 唐鼎 张曙光 《信息网络安全》 CSCD 北大核心 2020年第4期55-64,共10页
大数据时代,数据存储模式发生巨大变革。作为数据处理载体的传统关系型数据库,因其具有单一的存储结构与较差扩展性等特点,已无法满足对海量数据的高效查询和存储需求。HBase存储方案能够满足海量数据的存储需求,并使用LSM树结构加快数... 大数据时代,数据存储模式发生巨大变革。作为数据处理载体的传统关系型数据库,因其具有单一的存储结构与较差扩展性等特点,已无法满足对海量数据的高效查询和存储需求。HBase存储方案能够满足海量数据的存储需求,并使用LSM树结构加快数据查询效率。但随着大数据安全事件不断发生,只针对明文数据设计的LSM树如何在保证数据语义安全的前提下,实现加密数据高效率查询,是亟需解决的问题。文章提出了一种基于同态加密的HBase密文索引方法,结合改进后的同态加密算法与协处理器,构建二级密文索引机制,无需解密密文数据,即可对密文进行索引。在保证索引与数据明文语义安全的前提下,实现了加密数据查询效率的最大化。通过安全性分析与效率评估,证明该方法具有较高安全性与可用性。 展开更多
关键词 同态加密 数据安全 HBase二级索引 密文检索
在线阅读 下载PDF
基于二级时空分桶的伴随轨迹查询 被引量:2
12
作者 王晨旭 汪谨权 杨鑫 《计算机学报》 EI CAS CSCD 北大核心 2024年第1期131-147,共17页
随着移动传感器设备的普及,人们能够采集到的位置数据越来越多,轨迹数据的规模也越来越庞大.从大规模时空数据中查找与指定轨迹最相似的前k条轨迹一直是时空大数据挖掘的重要挑战之一.现有的相似轨迹查询方法大都包括三个阶段:(1)对海... 随着移动传感器设备的普及,人们能够采集到的位置数据越来越多,轨迹数据的规模也越来越庞大.从大规模时空数据中查找与指定轨迹最相似的前k条轨迹一直是时空大数据挖掘的重要挑战之一.现有的相似轨迹查询方法大都包括三个阶段:(1)对海量的离线轨迹数据建立索引;(2)基于索引结构从已知轨迹集中查询与指定轨迹相似的候选轨迹;(3)计算指定轨迹与候选轨迹之间的精确相似度并返回相似度最大的前k条轨迹.但大多数现有方法对轨迹进行聚类索引时不能有效利用时间和空间信息,导致时间相似度不高的轨迹也会被划分到相同的索引项上,最终影响查询的准确性和效率.此外,现有的时空轨迹相似度计算方法存在大量的无效运算,使得相似轨迹的查询效率整体较低.针对当前伴随轨迹查询方法对时间与空间信息利用不充分的问题,本文提出一种新的二级时空分桶索引结构,首先将每条轨迹数据按照时间滑动窗口划分为若干带有时间槽信息的子轨迹,在时间上对轨迹进行一级索引聚类;在此基础上对在相同时间槽内的子轨迹进行二级空间索引聚类,利用哈希算法将具有连续相同位置点的子轨迹映射到同一时空分桶中.与已有索引方法相比,该方法对不同轨迹在索引时具有更好的区分度,查询时的筛选条件更为严格,有效降低了候选轨迹集的规模.针对现有轨迹相似度计算方法效率低下的问题,提出一种基于时差约束的轨迹相似度计算方法.利用轨迹之间的时差排除大量不必要的位置比较运算,将轨迹相似度的计算复杂度控制在线性级别,大大提高了计算效率,同时为过滤伴随轨迹查询过程中的无效计算,对基于时差约束的轨迹相似度计算方法进行变体得到一种上下界过滤方法,最大限度地避免了无效计算.最后,在4个真实的大规模轨迹数据集上对所提方法进行实验验证,实验结果表明所提方法的轨迹查找效率是已知最好方法的9~20倍,证明了算法的有效性. 展开更多
关键词 二级时空索引 轨迹相似度计算 伴随轨迹查询
在线阅读 下载PDF
一种使用索引式备份的范围查询方法 被引量:2
13
作者 薛翔 沈斯杰 陈榕 《小型微型计算机系统》 CSCD 北大核心 2018年第8期1781-1786,共6页
范围查询是数据库支持的重要功能之一.在分布式数据库中,范围查询具有结果不唯一且数据量大的特点,因而中间结果的传输成本较高;同时,在以唯一主键散列存储的数据上查询非主键列上的范围条件,得到的命中数据较为分散,造成传输开销大和... 范围查询是数据库支持的重要功能之一.在分布式数据库中,范围查询具有结果不唯一且数据量大的特点,因而中间结果的传输成本较高;同时,在以唯一主键散列存储的数据上查询非主键列上的范围条件,得到的命中数据较为分散,造成传输开销大和计算复杂度的问题.针对以上问题和基于高可用系统中数据存在多个备份的观察,本文设计了一种使用索引式备份的范围查询方法,通过将备份数据依据索引列重构实现范围查询友好的索引式备份,优化基于非主键列的范围查询任务.使用索引式备份的范围查询具有数据聚集的特点,能够有效减少数据传输成本、提高计算效率.实验结果显示,在TPC-H基准测试中,本方法相对于传统B+树索引方法具有8.4至16.7倍的性能提升,且具有较好的可扩展性. 展开更多
关键词 分布式数据库 范围查询 二级索引 索引式备份
在线阅读 下载PDF
海量配电网调度监测信息的非主行键倒排索引查询技术 被引量:4
14
作者 屈志坚 范明明 +2 位作者 周锐霖 王汉林 朱丹 《电力系统保护与控制》 EI CSCD 北大核心 2018年第23期162-168,共7页
为解决配电网调度监控系统数据体量不断增大导致数据检索速度越来越慢的问题,结合数据同步技术与倒排索引机制,提出了一种二级索引架构。使用数据库的同步组件与索引器生成非主行键索引,在搜索时先获得数据主行键,再根据主行键检索到需... 为解决配电网调度监控系统数据体量不断增大导致数据检索速度越来越慢的问题,结合数据同步技术与倒排索引机制,提出了一种二级索引架构。使用数据库的同步组件与索引器生成非主行键索引,在搜索时先获得数据主行键,再根据主行键检索到需要的数据,完成非主行键检索,再利用倒排索引技术改变数据的信息结构,缩短检索时间。以某铁路局10 kV供电调度监控信息为算例,进行非主行键检索测试。结果表明:完成非主行键检索所用时间为161 ms,满足在配电网调度监控系统中对数据进行快速检索的工程应用需求。 展开更多
关键词 调度监控 快速查询 非主行键 二级索引 倒排索引
在线阅读 下载PDF
基于TB+树云服务性能监控数据索引算法研究 被引量:1
15
作者 靳明星 汤小春 李琴琴 《科学技术与工程》 北大核心 2012年第4期799-803,共5页
云计算为充分发挥计算性能提供了解决方案,为了能更好支持云计算,对其进行监控成为了一个重要的问题。随着监控数据的增加,快速、准确地访问监控数据成为监控处理的约束。通过构建合适的索引,可以较好地改善大数据量查询的效率。给出了... 云计算为充分发挥计算性能提供了解决方案,为了能更好支持云计算,对其进行监控成为了一个重要的问题。随着监控数据的增加,快速、准确地访问监控数据成为监控处理的约束。通过构建合适的索引,可以较好地改善大数据量查询的效率。给出了一个拥有大数据量的虚拟服务监控系统的存储模型,并给出了基于该模型之上的TB+树(Time B+-Tree)二级索引模型。该索引提供了时间点和时间段的两种数据访问方式。经过实验验证,该索引方案获得了较好的访问性能。 展开更多
关键词 虚拟服务 TB+树 二级索引 XML
在线阅读 下载PDF
变电设备状态监测大数据的查询优化方法 被引量:24
16
作者 王德文 李静芳 《电力系统自动化》 EI CSCD 北大核心 2017年第2期165-172,共8页
变电设备状态监测数据体积大、价值密度低,传统数据处理方法不能很好地满足状态监视、评估与诊断等应用快速查询的需要。文中通过对状态监测数据特点和分布式列数据存储方法的分析,给出了变电设备状态监测的大数据处理框架。通过对监测... 变电设备状态监测数据体积大、价值密度低,传统数据处理方法不能很好地满足状态监视、评估与诊断等应用快速查询的需要。文中通过对状态监测数据特点和分布式列数据存储方法的分析,给出了变电设备状态监测的大数据处理框架。通过对监测时间、监测设备编号和设备编号等数据属性的组合,设计了3种状态监测数据复合行键结构,以提高状态监测数据行键查询的灵活性。为了解决在行键未知情况下全表扫描效率低下的问题,提出基于协处理器的二级索引构建方法,实现在非行键约束条件下的快速查询。实验结果表明,基于协处理器的二级索引方法在查询效率上比无索引和IHBase二级索引方式有了明显提高,对状态监测数据写入速度影响较小,能够较好地满足大数据环境下变电设备状态监测大数据快速、灵活查询的需要。 展开更多
关键词 状态监测 大数据 行键 协处理器 二级索引
在线阅读 下载PDF
基于优化过滤策略的XML数据查询处理 被引量:2
17
作者 陈海坤 李建中 骆吉洲 《计算机科学》 CSCD 北大核心 2007年第4期111-113,共3页
如何高效地处理XML查询,是目前研究的热点。由于当前方法存在过多扫描无用节点引起效率下降的问题,本文设计了一种XML数据的二级索引结构,基于该结构给出路径查询处理算法。首先,本文对XML模式中每个节点按路径类型进行分类编码,然后把... 如何高效地处理XML查询,是目前研究的热点。由于当前方法存在过多扫描无用节点引起效率下降的问题,本文设计了一种XML数据的二级索引结构,基于该结构给出路径查询处理算法。首先,本文对XML模式中每个节点按路径类型进行分类编码,然后把每个节点按该编码进行聚类存储。在查询时,就可以先根据模式信息和查询信息得到目标节点的编码,然后只需将二级索引中这些编码对应的部分载入内存,进行过滤操作。这样就不必扫描整个索引,提高CPU和IO效率。本文还对二级索引结构进行扩展,使本文的过滤索引能方便应用在有分支结构的查询上。实验结果表明,本文的XML数据过滤算法效率优于基于Bitvector的过滤算法,并且索引结构所需要的存储空间也小于Bitvector索引。 展开更多
关键词 XML 数据过滤 路径表达式 模式图 位向量 二级索引
在线阅读 下载PDF
针对微博信息分析的HBase存储结构设计 被引量:4
18
作者 陈希林 马丁 《信息网络安全》 2016年第9期267-271,共5页
随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase... 随着互联网的发展,微博对人们生活的影响日益加深。由于微博用户的激增,微博数据量已经非常庞大,且每时每刻都在急速增长。面对这种形势,传统数据库对于海量数据的处理效率已经难以满足需求,于是NoSQL数据库应运而生。文章采用的HBase是目前比较受欢迎的开源NoSQL之一。作为依赖于HDFS分布式存储架构的新型NoSQL数据库,HBase不仅能满足高效的结构化数据存储,并通过Mapreduce实现高效处理,还能存储非结构化数据,为海量数据提供相对灵活的信息存储管理。最重要的是,HBase的集群扩展起来非常方便,只需要增加Slave节点机器即可,比传统数据库的读写分离、分表等扩展操作要简便得多。文章研究了针对微博信息的HBase行键设计,从深度信息、广度信息等不同角度探讨行键的设计,并通过二级索引改善HBase的查询效率。在不更改HBase源代码的前提下,文章解决了信息查询在很大程度上受到行键设计制约的问题,并充分考虑了适用于微博图片、链接等信息的存储方式,满足微博信息的高效管理。 展开更多
关键词 微博 HADOOP NOSQL HBASE 二级索引
在线阅读 下载PDF
分布式环境下时态大数据的连接操作研究 被引量:7
19
作者 张伟 王志杰 《计算机工程》 CAS CSCD 北大核心 2019年第3期20-25,31,共7页
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝... 目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高吞吐量的处理需求。为此,提出一个基于Spark的二级索引内存解决方案。运用全局索引进行分布式分区的剪枝,使用局部时态索引进行分区内查询,提高数据检索效率。针对时态数据设计分区方法,以对全局剪枝进行优化。基于真实和合成数据集的实验结果表明,与基准方案相比,该方案可明显提高时态连接操作的处理效率。 展开更多
关键词 时态大数据 分布式内存计算 时态连接 二级索引 分区方法 Spark框架
在线阅读 下载PDF
一种可实现零内存存取的CAVLC解码算法 被引量:1
20
作者 黄明政 韩一石 《计算机工程》 CAS CSCD 2014年第3期278-282,共5页
在基于上下文的自适应可变长度编码(CAVLC)解码算法中,对非结构化自适应可变长度编码码表进行解码时需要反复查找码表进行码字匹配,从而导致解码速度慢和需要大量内存存取的问题。为此,提出一种可实现零内存存取的CAVLC解码算法。将CAVL... 在基于上下文的自适应可变长度编码(CAVLC)解码算法中,对非结构化自适应可变长度编码码表进行解码时需要反复查找码表进行码字匹配,从而导致解码速度慢和需要大量内存存取的问题。为此,提出一种可实现零内存存取的CAVLC解码算法。将CAVLC码字前缀0的个数作为一级索引,同时通过一级索引获得输入码流的可能长度。将码字后缀作为二级索引并获得码字的值,直接通过码字快速获得解码结果。对于确定的输入码字,只需通过无码表查找代码操作即可得到对应的解码输出。测试结果表明,该算法不仅可以实现零内存存取的CAVLC解码,而且其解码速度比标准算法提高了45%。 展开更多
关键词 基于上下文的自适应可变长度编码 零内存存取 码字前缀 一级索引 码字后缀 二级索引
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部