期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
列存储数据库中压缩位图索引技术 被引量:2
1
作者 王梅 杨思箫 乐嘉锦 《计算机工程》 CAS CSCD 2012年第18期26-29,共4页
为提高压缩码的利用率,提出一种适用于列存储数据库的压缩位图索引技术。定义反转、合并等操作,将所有计算的输入值与输出值格式化为位向量形式。通过活跃度衡量索引中位向量的复杂度,并对压缩位向量进行直接计算,优化where子句和group... 为提高压缩码的利用率,提出一种适用于列存储数据库的压缩位图索引技术。定义反转、合并等操作,将所有计算的输入值与输出值格式化为位向量形式。通过活跃度衡量索引中位向量的复杂度,并对压缩位向量进行直接计算,优化where子句和group by子句在查询执行过程中的数据提取。在SSB数据集上的实验结果证明,该技术能提高29.7%~38.9%的压缩位图索引性能。 展开更多
关键词 列存储数据库 位图索引 活跃度 SSB数据 聚集查询
在线阅读 下载PDF
列存储数据库技术与图书馆共享域建设 被引量:1
2
作者 高建忠 《现代情报》 CSSCI 2011年第12期78-81,共4页
传统图书馆各类应用软件平台的数据库大多为行存储模式的关系型数据库,真正运用以海量存储、高可靠性为特征的具备列(云)存储技术的比较少。本文以分析列存储技术特点为出发点,结合图书馆共享域建设的技术需求,提出与搭建开源数据库平台... 传统图书馆各类应用软件平台的数据库大多为行存储模式的关系型数据库,真正运用以海量存储、高可靠性为特征的具备列(云)存储技术的比较少。本文以分析列存储技术特点为出发点,结合图书馆共享域建设的技术需求,提出与搭建开源数据库平台:Hbase,讨论该平台在未来图书馆共享域建设中可以发挥重要的作用。 展开更多
关键词 列存储数据库 存储 共享域
在线阅读 下载PDF
基于列存储数据库的压缩态数据访问算法 被引量:3
3
作者 黄鹏 李占山 +1 位作者 张永刚 鞠奇 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2009年第5期1013-1019,共7页
基于列存储数据库数据访问的特点,对主流整数压缩格式进行改进,提出了3种整数压缩算法及相应的压缩态数据访问算法.实验结果表明,不解压而直接访问压缩态数据非常高效,从而为数据的压缩态运算提供了有力支持.
关键词 列存储数据库 数据压缩 压缩态数据访问 压缩态SQL运算
在线阅读 下载PDF
HashMap优化及其在列存储数据库查询中的应用 被引量:9
4
作者 母红芬 李征 +1 位作者 霍卫平 金正皓 《计算机科学与探索》 CSCD 北大核心 2016年第9期1250-1261,共12页
HashMap在基本字典操作中具有常数级别的平均算法时间复杂度,广泛应用于大数据的检索。Block_HashMap(BHMap)基于C++HashMap,其优化包括三方面:哈希函数选取,冲突解决和关键字匹配。优化核心在于冲突解决时,以链地址法为基础,提出了一... HashMap在基本字典操作中具有常数级别的平均算法时间复杂度,广泛应用于大数据的检索。Block_HashMap(BHMap)基于C++HashMap,其优化包括三方面:哈希函数选取,冲突解决和关键字匹配。优化核心在于冲突解决时,以链地址法为基础,提出了一种高效利用高速缓存的存储结构Block_List来存储冲突的数据,并且预先缓存哈希值,节省匹配时间。实验证明,在桶数目充足的情况下,BHMap会多消耗少部分内存,但在桶数目有限,数据重复率比较低的情况下,时间性能上相对C++标准模板库中的Map提升10倍以上,比unordered_map快3.5倍以上,且消耗的内存与unordered_map相差不大。在列存储数据库分组和连接查询中,关键字的分桶、解决冲突和匹配操作也都涉及到基于哈希的技术,最终把BHMap应用到列存储数据库的关键查询中。 展开更多
关键词 哈希图 分组 连接 缓存感知 缓存不敏感 列存储数据库 BHMap
在线阅读 下载PDF
一个基于三元组存储的列式OLAP查询执行引擎 被引量:4
5
作者 朱阅岸 张延松 +1 位作者 周烜 王珊 《软件学报》 EI CSCD 北大核心 2014年第4期753-767,共15页
大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特... 大数据与传统的数据仓库技术相结合产生了大数据实时分析处理需要(volume+velocity),它要求大数据背景下的数据仓库不能过多地依赖物化、索引等高存储代价的优化技术,而要提高实时处理能力来应对大数据分析中数据量大、查询分析复杂等特点.这些查询分析操作一般表现为在事实表和维表之间连接操作的基础上对结果集上进行分组聚集等操作.因此,表连接和分组聚集操作是ROLAP(relational OLAP)性能的两个重要决定因素.研究了新硬件平台下针对大规模数据的OLAP查询的性能,设计新的列存储OLAP查询执行引擎CDDTA-MMDB(columnar direct dimensional tuple access-main memory databasequeryexecutionengine,直接维表元组访问的内存数据库查询执行引擎).基于三元组的物化策略,使得CDDTA-MMDB能够减少内存列存储模型上表连接操作访问基表和中间数据结构的次数.首先,CDDTA-MMDB将查询分解为作用在维表和事实表上的子查询,如果只涉及过滤操作,子查询将生成<代理键,布尔值>二元组;否则,子查询生成<代理键,关键字,值>三元组.然后,只需一趟扫描事实表,利用事实表的外键映射函数直接定位相应三元组或者二元组,完成相应的过滤、连接或聚集操作.CDDTA-MMDB充分考虑了内存列存储数据库的设计原则,尽量减少随机内存访问.实验结果表明:CDDTA-MMDB是高效的,与具代表性的列存储数据库相比,比MonetDB 5.5快2.5倍,比C-store的invisible join快5倍;并且,CDDTA-MMDB在多核处理器上具有线性加速比. 展开更多
关键词 数据分析 联机分析处理 内存列存储数据库 表连接算法 物化策略
在线阅读 下载PDF
基于Hadoop生态系统的大数据解决方案综述 被引量:121
6
作者 陈吉荣 乐嘉锦 《计算机工程与科学》 CSCD 北大核心 2013年第10期25-35,共11页
一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:... 一个大数据解决方案需要面对三个关键问题:大数据的存储、大数据的分析和大数据的管理。首先综述了大数据和Hadoop生态系统的定义;然后从商业产品和Hadoop生态系统两个方面来探讨如何面对大数据,重点分析了Hadoop生态系统是如何解决的:分别用HDFS、HBase和OpenTSDB解决存储问题,用Hadoop MapReduce(Hive)和HadoopDB解决分析问题,用Sqoop和Ganglia等解决管理问题。对于每个成员,分别分析了其系统架构、实现原理和特点;对于重点成员,分别分析了其存在的一些问题或缺点,并在总结当前学术和应用的进展基础上,结合我们自身的研究进展,提出了解决方法、解决思路和观点。可以预见,Hadoop生态系统将是中小企业在面对大数据问题时的首选解决方案。 展开更多
关键词 数据 Hadoop生态系统 MAPREDUCE HDFS 列存储数据库
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部