-
题名面向数据差量压缩的高效压缩率估计方法
- 1
-
-
作者
邹翔宇
魏灿
夏文
李诗逸
-
机构
哈尔滨工业大学(深圳)计算机科学与技术学院
广东省安全智能新技术重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第12期70-82,共13页
-
基金
国家自然科学基金面上项目(61972441)
深圳市基础研究优青项目(RCYX20210609104510007)
广东省普通高校青年创新人才项目(2022KQNCXl59)。
-
文摘
差量压缩不仅会消除数据中相同的数据块,还会消除数据中相似数据块之间的重复部分,因此可以实现比数据去重更高的数据压缩率。目前它已经被应用于许多商业产品中。然而,进一步挖掘数据的可压缩性会额外引入大量的开销,包括从存储设备中读取相似的数据块以获知它们的重复部分,这使得差量压缩的速度通常只有数据去重的1/7。但是如此大的开销不能保证总是可以得到更好的压缩率,因为并不是所有的数据都有足够的可压缩性可供挖掘。因此,当考虑在存储系统中使用差量压缩时,需要迅速了解当前的数据是否值得进行差量压缩。提出差量压缩估计框架EDCR,它通过数据块的相似特征值来快速判断它们之间的可压缩性,从而对数据进行差量压缩的价值做出快速而准确的判断。另外,该框架引入采样和补偿方案,进一步提升了压缩率估计的效率和准确性。最终,在多个真实数据集上的测试表明,EDCR的估计错误率可以控制在1.5%以下。同时,相对于实际的差量压缩框架,EDCR估计框架在固态硬盘(SSD)上的运行速度快18~24倍,在机械磁盘(HDD)上的运行速度快16~146倍。
-
关键词
差量压缩
压缩率估计
相似性特征
采样
估计修正
-
Keywords
delta compression
compression ratio estimation
similarity feature
sampling
estimation correction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-