-
题名基于极值点分块的重复数据检测算法
- 1
-
-
作者
谢垂益
卿斯汉
-
机构
韶关学院数学与信息科学学院
中国科学院软件研究所
-
出处
《信息网络安全》
2013年第8期10-12,共3页
-
基金
国家自然科学基金[60970135
61170282]
+1 种基金
韶关市创新资金项目[201210]
韶关学院科研项目[201202]
-
文摘
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。
-
关键词
重复数据检测
基于内容分块
基于极值点分块
指纹
-
Keywords
duplicated data detection
content defined chunking
extremum defined chunking
fingerprint
-
分类号
TP308
[自动化与计算机技术—计算机系统结构]
TP274
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名一种基于滑动分块的重复数据检测算法
被引量:8
- 2
-
-
作者
郑亚光
潘久辉
-
机构
暨南大学信息科学技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第2期38-44,共7页
-
基金
公安部技术研究计划基金资助项目(2014JSYJB048)
武汉大学软件工程国家重点实验室开放基金资助项目(SKLSE2012-09-37)
-
文摘
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计算模式,加快匹配速度。通过回溯匹配失败数据段,检测其中的重复数据段,以提升重复数据的检测精度。实验结果表明,与SBBS算法相比,该算法在重复数据段均匀分布与非均匀分布时的查全率分别提高约4.32%和5.28%。
-
关键词
重复数据检测
匹配失败数据段
SBBS算法
窗口计算
校验和算法
回溯
-
Keywords
duplicate data detection
matching failure data segment
Sliding Blocking Algorithm with Backtracking Sub-block(SBBS)
window calculation
checksum algorithm
backtracking
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名MapReduce模型下增量重复数据检测方法
被引量:3
- 3
-
-
作者
董富森
杨波
马坤
王文华
-
机构
济南大学山东省网络环境智能计算技术重点实验室
-
出处
《济南大学学报(自然科学版)》
CAS
北大核心
2015年第4期241-245,共5页
-
基金
国家自然科学基金(61173078)
-
文摘
针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据处理的能力。实验表明,改进后的增量近邻排序比较算法在保证检则结果准确的前提下,能够有效提高增量数据重复检测的速度,并且算法具有较高的稳定性,更适应海量数据环境中重复数据检测任务。
-
关键词
增量重复数据检测
跳动窗口
MAPREDUCE模型
-
Keywords
incremental duplicated data detection
jumping windows
MapReduce model
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名重复数据检测在多版本数据备份中的应用
被引量:4
- 4
-
-
作者
崔兴华
杜晓黎
赵晓睿
-
机构
中国科学院计算技术研究所研究生院
联想北京研究院互联网计算研究室
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第1期206-208,220,共4页
-
基金
国家“863”计划资助项目(2004AA1Z2250)
-
文摘
分析了当前主要的重复数据检测技术,针对多版本数据的备份/还原过程提出了重复数据检测三级模型,有效地解决了检测粒度和检测开销之间的矛盾,从而减少了多版本数据备份/还原过程中的数据传输量,节省了备份空间。
-
关键词
数据备份
重复数据检测
RSYNC算法
-
Keywords
data backup
duplicated data detection
Rsync
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于数据位图的滑动分块算法
被引量:2
- 5
-
-
作者
邓雪峰
孙瑞志
张永瀚
聂娟
-
机构
中国农业大学农业部农业信息获取技术重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S2期30-38,共9页
-
基金
中央高校基本科研业务费专项资金项目(2013YJ008)
国家科技支撑计划资助项目(2012BAH26B01)
-
文摘
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法.
-
关键词
滑动分块算法
重复数据检测
数据位图
数据差异
数据同步
-
Keywords
sliding blocking algorithm
duplicate data detection
data bitmap
data difference
data synchronization
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名高效的两轮远程文件快速同步算法
被引量:13
- 6
-
-
作者
徐旦
生拥宏
鞠大鹏
吴建平
汪东升
-
机构
北京邮电大学计算机科学与技术学院
清华大学计算机科学与技术系
清华大学信息科学与技术国家实验室
-
出处
《计算机科学与探索》
CSCD
2011年第1期38-49,共12页
-
基金
国家自然科学基金No.60833004
60673145
国家高技术研究发展计划(863)No.2009AA1Z104~~
-
文摘
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗粒度上定位待同步文件的局部变化数据段,第二轮对局部变化数据段采用定长滑动切块技术在细粒度上查找出差异数据,最终通过两轮数据交互实现文件的同步。将tpsync与传统的单轮同步算法rsync进行了对比实验,通过对文本、二进制和数据库三种文件类型相似版本之间的同步实验,结果表明tpsync在平均同步时间和网络传输数据量两个方面均优于rsync。
-
关键词
重复数据检测
文件同步
RSYNC算法
-
Keywords
duplicated data detection
file synchronization
rsync
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-