期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于极值点分块的重复数据检测算法
1
作者 谢垂益 卿斯汉 《信息网络安全》 2013年第8期10-12,共3页
重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限... 重复数据检测技术能够大幅降低数据中心的存储量,节省网络带宽,减少建设和运维成本。为了克服基于内容分块(CDC)方法容易出现超长块的缺点,文章提出了基于极值点分块(EDC)的重复数据检测算法。EDC算法先计算出所有右边界在数据块上下限范围内的滑动窗口中数据的指纹,找出最后一个指纹极值,所对应的滑动窗口结束位置作为数据块的分界点,再计算该数据块的哈希值并判断是否重复块。实验结果表明,EDC算法的重复数据检测率、磁盘利用率分别是CDC算法的1.48倍和1.12倍,改进效果显著。 展开更多
关键词 重复数据检测 基于内容分块 基于极值点分块 指纹
在线阅读 下载PDF
一种基于滑动分块的重复数据检测算法 被引量:8
2
作者 郑亚光 潘久辉 《计算机工程》 CAS CSCD 北大核心 2016年第2期38-44,共7页
当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计... 当被插入或删除的字节接近于匹配失败数据段两侧时,会导致SBBS算法回溯功能局部甚至完全失效。为此,提出一种改进的重复数据检测算法。采用滑动与滚动相结合的窗口移动模式减少窗口计算量,利用Rsync滚动校验和算法与MD5算法优化窗口计算模式,加快匹配速度。通过回溯匹配失败数据段,检测其中的重复数据段,以提升重复数据的检测精度。实验结果表明,与SBBS算法相比,该算法在重复数据段均匀分布与非均匀分布时的查全率分别提高约4.32%和5.28%。 展开更多
关键词 重复数据检测 匹配失败数据 SBBS算法 窗口计算 校验和算法 回溯
在线阅读 下载PDF
MapReduce模型下增量重复数据检测方法 被引量:3
3
作者 董富森 杨波 +1 位作者 马坤 王文华 《济南大学学报(自然科学版)》 CAS 北大核心 2015年第4期241-245,共5页
针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据... 针对重复数据检测过程中增量数据重复值检测问题进行分析,在基本近邻排序算法基础上,提出增量近邻排序比较算法。该算法通过跳动窗口形式比较相邻数据,大大减少了数据比较次数;同时引入MapReduce模型对该算法加以改进以提高其海量数据处理的能力。实验表明,改进后的增量近邻排序比较算法在保证检则结果准确的前提下,能够有效提高增量数据重复检测的速度,并且算法具有较高的稳定性,更适应海量数据环境中重复数据检测任务。 展开更多
关键词 增量重复数据检测 跳动窗口 MAPREDUCE模型
在线阅读 下载PDF
重复数据检测在多版本数据备份中的应用 被引量:4
4
作者 崔兴华 杜晓黎 赵晓睿 《计算机应用研究》 CSCD 北大核心 2009年第1期206-208,220,共4页
分析了当前主要的重复数据检测技术,针对多版本数据的备份/还原过程提出了重复数据检测三级模型,有效地解决了检测粒度和检测开销之间的矛盾,从而减少了多版本数据备份/还原过程中的数据传输量,节省了备份空间。
关键词 数据备份 重复数据检测 RSYNC算法
在线阅读 下载PDF
基于数据位图的滑动分块算法 被引量:2
5
作者 邓雪峰 孙瑞志 +1 位作者 张永瀚 聂娟 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期30-38,共9页
网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成... 网络中相似的数据文件进行同步与存储的过程中,对数据进行分块是检测数据重复的重要步骤之一,在有效地对数据分块的基础上才能更准确地定位数据间的差异部分.就数据分块方法予以分析总结,在滑动分块算法的基础上,重新将数据文件组织成类似位图的排列形式,对数据位图以列向读取数据信息,形成新的数据分块,并计算列向读取数据的分块指纹信息,以列向数据指纹作为补充校正滑动分块算法定位差异数据能力的不足之处,从而获得更精确的数据差异信息.经实验证明,本方法在同源文件的数据重复检测中效果好于相同条件下的滑动分块方法. 展开更多
关键词 滑动分块算法 重复数据检测 数据位图 数据差异 数据同步
在线阅读 下载PDF
高效的两轮远程文件快速同步算法 被引量:13
6
作者 徐旦 生拥宏 +2 位作者 鞠大鹏 吴建平 汪东升 《计算机科学与探索》 CSCD 2011年第1期38-49,共12页
远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗... 远程文件快速同步在文件备份与恢复、Web与ftp网站镜像、分发网络、Web访问中具有广泛的应用。提出了一种高效的基于变长分块和定长滑动块相结合的两轮快速文件同步算法——tpsync。同步算法分两轮进行,第一轮利用基于可变分块技术在粗粒度上定位待同步文件的局部变化数据段,第二轮对局部变化数据段采用定长滑动切块技术在细粒度上查找出差异数据,最终通过两轮数据交互实现文件的同步。将tpsync与传统的单轮同步算法rsync进行了对比实验,通过对文本、二进制和数据库三种文件类型相似版本之间的同步实验,结果表明tpsync在平均同步时间和网络传输数据量两个方面均优于rsync。 展开更多
关键词 重复数据检测 文件同步 RSYNC算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部