-
题名行列混合存储的数据压缩策略研究
- 1
-
-
作者
魏玲
郭新朋
-
机构
哈尔滨理工大学管理学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第6期1267-1272,共6页
-
基金
国家自然科学基金项目(71272191)资助
黑龙江省哲学社会科学研究规划项目(16GLD02)资助
-
文摘
大数据技术不断深入发展,对于数据压缩技术的要求也在不断提高.为此,构建叠加式行列混合存储结构,提出动态编码选择数据压缩策略.首先,依据数据类型,选取对应处理效果最佳的编码方式;然后,设计基于行列存储的页式存储结构对数据属性缓冲区中的数据进行处理,确定可压缩的属性数据并存储于属性块;最后设计并实现动态编码选择数据压缩算法,对属性块中的数据进行压缩处理,计算数据压缩比.应用大规模数据集SSB中的数据表进行数据压缩处理,实验结果验证了基于行列混合存储的动态编码选择数据压缩策略在数据压缩比、数据压缩时间方面性能优于单一行、列存储下的数据压缩方式,提高了压缩效率.
-
关键词
行列混合存储
页式存储
数据压缩
数据压缩比
-
Keywords
row-column mixed storage
page storage
data compression
data compression ratio
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名行列混合存储数据库系统的研究
被引量:3
- 2
-
-
作者
孙林超
陈群
肖玉泽
白松
-
机构
西北工业大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2013年第2期480-482,486,共4页
-
基金
国家自然科学基金重点资助项目(61033007)
华为创新研究计划资助项目(IRP-2011-02-03)
-
文摘
通过研究列存储技术的特点,提出了一种行列混合存储数据库系统的设计方案。该方案在存储层设立独立的行存储引擎和列存储引擎,采用早物化技术在数据读出之后将列表转换成行表,然后以行的形式完成后续处理。因此,该方法既获得了列存储的读优势又复用了行数据库系统的成熟部件,降低了开发的风险和复杂度。基于PostgreSQL的原型开发与测试证明了该方案的可行性和有效性。
-
关键词
数据库管理系统
行列混合存储
存储引擎
-
Keywords
DBMS
row-column mixed storage
storage engine
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名混合存储下的MapReduce启发式多表连接优化
被引量:3
- 3
-
-
作者
王梅
邢露露
孙莉
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机科学与探索》
CSCD
2014年第11期1334-1344,共11页
-
基金
国家自然科学基金
中央高校基本科研业务费专项资金
东华大学"励志计划"~~
-
文摘
对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了Map Reduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。
-
关键词
MAPREDUCE
行列混合存储
延迟物化
多表连接优化
-
Keywords
MapReduce
row-column storage
deferred materialized
multi-join optimization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于GPU加速的超精简型编码数据库系统
被引量:7
- 4
-
-
作者
骆歆远
陈刚
伍赛
-
机构
浙江大学计算机学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第2期362-376,共15页
-
基金
国家科技支撑计划基金项目(2013BAG06B01)
国家"八六三"高技术研究发展计划基金项目(SS2013AA040601)
国家自然科学基金项目(61472348)
-
文摘
在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值.
-
关键词
数据库系统
行列混合存储
编码
规则挖掘
GPU
CUDA
-
Keywords
database system
hybrid row-column storage
encoding
rule mining
GPU
CUDA
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-