期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于重复数据删除的分层存储优化技术研究进展 被引量:1
1
作者 姚子路 付印金 肖侬 《计算机科学》 北大核心 2025年第1期120-130,共11页
随着全球数据量的爆炸式增长以及数据多样性的日益丰富,单一介质层的存储系统逐渐不能满足用户多样化的应用需求。分层存储技术可依据数据的重要性、访问频率、安全性需求等特征将数据分类存放到具有不同访问延迟、存储容量、容错能力... 随着全球数据量的爆炸式增长以及数据多样性的日益丰富,单一介质层的存储系统逐渐不能满足用户多样化的应用需求。分层存储技术可依据数据的重要性、访问频率、安全性需求等特征将数据分类存放到具有不同访问延迟、存储容量、容错能力的存储层中,已经在各个领域得到广泛应用。重复数据删除是一种面向大数据的缩减技术,可高效去除存储系统中的重复数据,最大化存储空间利用率。不同于单存储层场景,将重复数据删除技术运用于分层存储中,不仅能减少跨层数据冗余,进一步节省存储空间、降低存储成本,还能更好地提升数据I/O性能和存储设备的耐久性。在简要分析基于重复数据删除的分层存储技术的原理、流程和分类之后,从存储位置选择、重复内容识别和数据迁移操作3个关键步骤入手,深入总结了诸多优化方法的研究进展,并针对基于重复数据删除的分层存储技术潜在的技术挑战进行了深入探讨。最后展望了基于重复数据删除的分层存储技术的未来发展趋势。 展开更多
关键词 重复数据删除 分层存储 存储位置选择 重复内容识别 数据迁移
在线阅读 下载PDF
重复数据删除关键技术研究进展 被引量:65
2
作者 付印金 肖侬 刘芳 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期12-20,共9页
企业数据量的不断增长和数据传输率要求的不断提高,使得数据中心海量存储空间和高带宽网络传输需求成为当前网络存储领域面临的严峻挑战.利用特定应用数据集内数据高度冗余的特性,重复数据删除技术能够极大地缩减数据存储容量需求,提高... 企业数据量的不断增长和数据传输率要求的不断提高,使得数据中心海量存储空间和高带宽网络传输需求成为当前网络存储领域面临的严峻挑战.利用特定应用数据集内数据高度冗余的特性,重复数据删除技术能够极大地缩减数据存储容量需求,提高网络带宽利用率,降低企业IT运营成本.目前,重复数据删除技术已成为国内外的研究热点.首先介绍重复数据删除技术的概念、分类及其应用;阐述重复数据删除系统的体系结构和基本原理,并与传统存储系统进行对比.然后重点分析和总结重复数据删除各项关键技术的研究现状,包括数据划分方法、I/O优化技术、高可靠数据配置策略以及系统可扩展性.最后对重复数据删除技术的研究现状进行总结,并指出未来可能的研究方向. 展开更多
关键词 重复数据删除 数据缩减率 数据划分 I/O优化 高可靠 可扩展
在线阅读 下载PDF
基于重复数据删除的虚拟桌面存储优化技术 被引量:12
3
作者 付印金 肖侬 +1 位作者 刘芳 鲍先强 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期125-130,共6页
虚拟桌面基础架构依靠数据中心海量的云基础设施,为用户按需提供虚拟桌面部署所需的软硬件资源,但同时面临存储资源利用率低和虚拟机启动慢的困境.针对虚拟桌面存储中具有大量数据冗余的特性,采用重复数据删除技术缩减虚拟桌面基础架构... 虚拟桌面基础架构依靠数据中心海量的云基础设施,为用户按需提供虚拟桌面部署所需的软硬件资源,但同时面临存储资源利用率低和虚拟机启动慢的困境.针对虚拟桌面存储中具有大量数据冗余的特性,采用重复数据删除技术缩减虚拟桌面基础架构的存储空间需求;并利用服务器本地磁盘缓存以及共享存储池内的固态硬盘来优化虚拟机的启动性能.通过原型实现,发现相比于基于内容分块的策略,静态分块策略更适合虚拟桌面存储进行重复数据删除,最优的分块大小为4KB,并能够缩减85%的存储空间容量;通过服务器本地磁盘缓存和基于闪存的固态硬盘进行I/O优化,虚拟机的启动速度能够获得35%的提升. 展开更多
关键词 云计算 虚拟桌面 重复数据删除 存储优化 固态硬盘
在线阅读 下载PDF
一种基于重复数据删除技术的云中云存储系统 被引量:14
4
作者 毛波 叶阁焰 +2 位作者 蓝琰佳 张杨松 吴素贞 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1278-1287,共10页
随着云存储技术的快速发展和应用,越来越多的企业和用户都开始将数据从本地转移到云存储服务提供商进行存储.但是,在享受云存储高质量服务的同时,将数据仅仅存储于单个云存储服务商中会带来一定的风险,例如云存储服务提供商的垄断、数... 随着云存储技术的快速发展和应用,越来越多的企业和用户都开始将数据从本地转移到云存储服务提供商进行存储.但是,在享受云存储高质量服务的同时,将数据仅仅存储于单个云存储服务商中会带来一定的风险,例如云存储服务提供商的垄断、数据可用性和安全性等问题.为了解决这个问题,提出了一种基于重复数据删除技术的云中云存储系统架构,首先消除云存储系统中的冗余数据量,然后基于重复数据删除集中的数据块引用率将数据块以复制和纠删码2种数据布局方式存储在多个云存储服务提供商中.基于复制的数据布局方式易于实现部署,但是存储开销大;基于纠删码的数据布局方式存储开销小,但是需要编码和解码,计算开销大.为了充分挖掘复制和纠删码数据布局的优点并结合重复数据删除技术中数据引用的特点,新方法用复制方式存储高引用数据块,用纠删码方式存储其他数据块,从而使系统整体性能和成本达到较优.通过原型系统的实现和测试验证了相比现有云中云存储策略,新方法在性能和成本上都有大幅度提高. 展开更多
关键词 云中云 重复数据删除 数据布局 复制 纠删码
在线阅读 下载PDF
内容分块算法中预期分块长度对重复数据删除率的影响 被引量:7
5
作者 王龙翔 董小社 +3 位作者 张兴军 王寅峰 公维峰 魏晓林 《西安交通大学学报》 EI CAS CSCD 北大核心 2016年第12期73-78,共6页
针对基于内容分块重复数据删除方法缺少能够定量分析预期分块长度与重复数据删除率之间关系的数学模型,导致难以通过调整预期分块长度优化重复数据删除率的问题,提出了一种基于Logistic函数的数学模型。在大量真实数据测观察基础上,提... 针对基于内容分块重复数据删除方法缺少能够定量分析预期分块长度与重复数据删除率之间关系的数学模型,导致难以通过调整预期分块长度优化重复数据删除率的问题,提出了一种基于Logistic函数的数学模型。在大量真实数据测观察基础上,提出了通过Logistic函数描述非重复数据的"S"形变化趋势,解决了该数据难以从理论上推导、建模的问题,证明了基于内容分块过程服从二项分布,并从理论上推导出了元数据大小模型。基于上述两种数据模型,通过数学运算最终推导得到重复数据删除率模型,并利用收集到的3组真实数据集对模型进行了实验验证。实验结果表明:反映数学模型拟合优度的R2值在0.9以上,说明该模型能够准确地反映出预期分块长度与重复数据删除率之间的数学关系。该模型为进一步研究如何通过调整预期分块长度使重复数据删除率最优化提供了理论基础。 展开更多
关键词 基于内容分块 重复数据删除 Logistic函数
在线阅读 下载PDF
R-dedup:一种重复数据删除指纹计算的优化方法 被引量:6
6
作者 王龙翔 董凯 +4 位作者 王鹏博 董小社 张兴军 朱正东 张利平 《西安交通大学学报》 EI CAS CSCD 北大核心 2021年第1期43-51,共9页
为减缓存储系统中传统重复数据删除方法在高性能固态存储盘中存在的指纹计算性能瓶颈,提出了重复数据删除指纹计算的性能优化方法R-dedup。在基于内容分块算法基础上,将切分后形成的所有数据块进一步切分为更小粒度的48 B等长数据片。基... 为减缓存储系统中传统重复数据删除方法在高性能固态存储盘中存在的指纹计算性能瓶颈,提出了重复数据删除指纹计算的性能优化方法R-dedup。在基于内容分块算法基础上,将切分后形成的所有数据块进一步切分为更小粒度的48 B等长数据片。基于Rabin哈希长度小于原始数据、多个Rabin哈希同时发生碰撞概率极低、数据片的Rabin哈希可以重复利用基于内容分块算法在滑动窗口过程中产生的计算结果的基础,利用数据片的Rabin哈希替代原始数据,并将其作为数据块的SHA-1指纹输入,减少SHA-1函数数据计算量,提高指纹计算性能。选取Linux内核、Imagenet等5组具有代表性的数据集,对R-dedup和标准基于内容分块的重复数据删除方法在数据分块性能、指纹计算性能、索引表检索性能和I/O性能方面分别进行了比较。结果表明:R-dedup的数据分块性能、索引表检索性能、I/O性能与对比方法具有4%左右的误差波动,性能基本一致;R-dedup的指纹计算吞吐率是对比方法的165%~422%,总体吞吐率是对比方法的6%~54%。 展开更多
关键词 存储系统 重复数据删除 固态存储盘 Rabin哈希 性能优化
在线阅读 下载PDF
重复数据删除中的无向图遍历分组预测方法 被引量:5
7
作者 王龙翔 张兴军 +2 位作者 朱国峰 朱跃光 董小社 《西安交通大学学报》 EI CAS CSCD 北大核心 2013年第10期51-56,共6页
针对重复数据删除系统中存储容量受内存限制难以进行扩展的问题,提出了一种基于无向图遍历的重复数据删除分组预测方法。该方法将索引表保存在磁盘中,并在内存中维护索引表缓存,以此提高系统最大可支持的存储容量。对于索引表缓存命中... 针对重复数据删除系统中存储容量受内存限制难以进行扩展的问题,提出了一种基于无向图遍历的重复数据删除分组预测方法。该方法将索引表保存在磁盘中,并在内存中维护索引表缓存,以此提高系统最大可支持的存储容量。对于索引表缓存命中率低、系统性能差的问题,采用了图遍历分组方法予以解决,根据数据块访问序列特征信息建立无向图并进行分析,基于分析结果对索引项进行分组,并以组进行缓存替换,从而提高缓存命中率和系统性能。实验结果表明,基于缓存预取原理和无向图遍历分组,在将缓存设置为索引表大小的10%时,重复数据删除存储系统最大存储容量比原有方法提高了7.5倍,缓存命中率由不进行索引项分组时的47%提高到87.6%。 展开更多
关键词 重复数据删除 分组预测 大规模存储系统
在线阅读 下载PDF
用户感知的重复数据删除算法 被引量:7
8
作者 张沪寅 周景才 +1 位作者 陈毅波 查文亮 《软件学报》 EI CSCD 北大核心 2015年第10期2581-2595,共15页
通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒... 通过大量的实验分析发现:在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5-10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与Open Dedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上. 展开更多
关键词 重复数据删除 云计算 虚拟桌面云 I/O性能瓶颈 数据局部性
在线阅读 下载PDF
重复数据删除技术的存储空间利用率测评研究 被引量:4
9
作者 阳小珊 朱立谷 +3 位作者 张琦琮 郑良 邱全伟 汤占坤 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期187-194,共8页
在大数据时代,为了提高存储空间利用率,重复数据删除技术被广泛应用.然而,重复数据删除技术的重删效果如何评价,它对存储系统的存储空间利用率影响程度如何等问题,目前还没有有效的测评指标和测评方法来解决.为此,对3种典型的重复数据... 在大数据时代,为了提高存储空间利用率,重复数据删除技术被广泛应用.然而,重复数据删除技术的重删效果如何评价,它对存储系统的存储空间利用率影响程度如何等问题,目前还没有有效的测评指标和测评方法来解决.为此,对3种典型的重复数据删除技术进行了分析,研究了存储空间利用率的测评指标和测评方法,然后通过理论分析和真实数据实验对其可行性和有效性进行了验证.分析和实验结果表明:设计的测评指标和测评方法实际可行,能定量的评估存储空间利用率,有利于数据中心存储效率的提高,从而实现绿色存储和节能减排,并能减少企业的资源浪费和提高投资回报率. 展开更多
关键词 重复数据删除技术 存储空间利用率 存储测评 绿色存储 数据
在线阅读 下载PDF
Markov逻辑网在重复数据删除中的应用 被引量:3
10
作者 张玉芳 黄涛 +2 位作者 艾东梅 熊忠阳 唐蓉君 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第8期36-41,共6页
为了解决和突破现阶段重复数据删除方法大多只能针对特定领域,孤立地解决问题的某个方面所带来的不足和局限,提出了基于Markov逻辑网的统计关系学习方法。该方法可以通过计算一个世界的概率分布来为推理服务,从而可将重复数据删除问题... 为了解决和突破现阶段重复数据删除方法大多只能针对特定领域,孤立地解决问题的某个方面所带来的不足和局限,提出了基于Markov逻辑网的统计关系学习方法。该方法可以通过计算一个世界的概率分布来为推理服务,从而可将重复数据删除问题形式化。具体采用了判别式训练的学习算法和MC-SAT推理算法,并详细阐述了如何用少量的谓词公式来描述重复数据删除问题中不同方面的本质特征,将Markov逻辑表示的各方面组合起来形成各种模型。实验结果表明基于Markov逻辑网的重复数据删除方法不但可以涵盖经典的Fellegi-Sunter模型,还可以取得比传统的基于聚类算法和基于相似度计算的方法更好的效果,从而为Markov逻辑网解决实际问题提供了有效途径。 展开更多
关键词 重复数据删除 MARKOV逻辑网 MARKOV网 统计关系学习 机器学习
在线阅读 下载PDF
基于二级索引的重复数据删除系统中性能相关参数的量化分析与研究 被引量:3
11
作者 李超 周晓阳 +1 位作者 王树鹏 云晓春 《计算机研究与发展》 EI CSCD 北大核心 2012年第S2期173-177,共5页
随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大... 随着重复数据删除技术应用的普及,性能已成为影响其应用效果的核心要素.已有研究提出了基于二级索引结构的重复数据删除模型以提升系统读写性能,但没有对模型中一些参数的选择进行量化分析.对基于二级索引结构的重复数据删除模型中块大小等一些性能相关的参数进行了分析研究,设计了相关实验,对这些参数与读写性能的关系进行了量化描述,对本类模型在实际环境中的应用有很好的指导意义,同时为下一步性能优化工作提供了重要的数据基础. 展开更多
关键词 重复数据删除 二级索引结构 参数 性能 量化分析
在线阅读 下载PDF
云存储环境中基于离线密钥传递的加密重复数据删除方法研究 被引量:9
12
作者 张曙光 咸鹤群 +1 位作者 刘红燕 侯瑞涛 《信息网络安全》 CSCD 2017年第7期66-72,共7页
重复数据删除技术在云存储的快速发展中扮演着重要角色。在上传数据之前,对数据加密已成常态。使用不同加密密钥加密相同数据得到不同密文,导致云服务器无法实现加密重复数据删除。文章提出一种能够离线传递加密密钥的安全加密重复数据... 重复数据删除技术在云存储的快速发展中扮演着重要角色。在上传数据之前,对数据加密已成常态。使用不同加密密钥加密相同数据得到不同密文,导致云服务器无法实现加密重复数据删除。文章提出一种能够离线传递加密密钥的安全加密重复数据删除方案。在划分数据类型的基础上,借助椭圆曲线构造数据流行度的查询标签;利用广播加密技术构建安全密钥传递方案,使得相同明文被加密为相同密文,云服务器能够完成非流行数据重复删除;针对流行数据,使用改进后的收敛加密算法,在保证数据存储安全的同时,提高流行数据重复删除的效率。安全分析与仿真实验表明,文章方案拥有较高的安全性与实用性。 展开更多
关键词 重复数据删除 椭圆曲线 广播加密 数据流行度
在线阅读 下载PDF
一种基于重复数据删除的备份系统 被引量:5
13
作者 陆游游 敖莉 舒继武 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期206-210,共5页
重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplication),... 重复数据删除技术有效地提升了备份系统的备份效率,但重复数据的匹配开销也随之增加.针对该问题,设计并实现了一种基于重复数据删除的备份系统THBS,该系统提出了高精简的数据备份方法HAD(hierachical approach of data deduplication),依次从目录、文件、块、字节粒度分层多步,由粗及细地匹配删除重复数据,同时采用bloomfilter和倒排索引技术,以减少不必要的数据匹配与磁盘访问,提高匹配查找速度.通过两组真实数据集的实验发现,THBS在备份过程中节省了63.1%~96.7%的存储空间,比Scp和Rsync分别节约了71.3%~97.6%,41.2%~66.7%的网络带宽,累计备份时间分别为Scp和Rsync的75%~86%和91%~97%. 展开更多
关键词 备份系统 重复数据删除 层次化删冗
在线阅读 下载PDF
一种基于流水线的重复数据删除系统读性能优化方法 被引量:2
14
作者 李超 王树鹏 +2 位作者 云晓春 周晓阳 陈明 《计算机研究与发展》 EI CSCD 北大核心 2013年第1期90-100,共11页
重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统... 重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统中读取流程和性能瓶颈进行了量化分析,提出了一种基于流水线的数据读取模型,然后通过并行计算机制对模型进行了进一步的优化.基于这一模型设计实现了实验系统,通过实验证明:对于网络安全监测日志文本数据和虚拟机镜像文件,应用此模型后,重复数据删除系统读速度的提高可达5倍以上;基于流水线的数据读取模型适用性强,对提高不同消冗率的数据读速度均有明显作用. 展开更多
关键词 重复数据删除 主存储系统 读性能 流水线 优化
在线阅读 下载PDF
一种基于重复数据删除的镜像文件存储方法研究 被引量:5
15
作者 李锋 陆婷婷 郭建华 《计算机科学》 CSCD 北大核心 2016年第S2期495-498,共4页
在云计算环境中,基础设施即服务的日益发展导致虚拟机和虚拟机镜像的急剧增加,例如,Amazon Elastic Compute Cloud(EC2)有6521个公共虚拟机镜像文件,这给云环境的管理带来了极大的挑战,特别是大量镜像文件带来的重复数据的空间存储问题... 在云计算环境中,基础设施即服务的日益发展导致虚拟机和虚拟机镜像的急剧增加,例如,Amazon Elastic Compute Cloud(EC2)有6521个公共虚拟机镜像文件,这给云环境的管理带来了极大的挑战,特别是大量镜像文件带来的重复数据的空间存储问题。为解决这一问题,提出一种基于固定分块的镜像文件重复数据删除的存储方案。当存储一个镜像文件时,先计算该镜像文件的指纹,并与指纹库的指纹比较,若存在则用指针替代,否则采用固定分块对镜像文件分割存储。为此,可以设计镜像文件元数据格式和镜像文件MD5索引表来解决上述问题。实验结果表明,内容相同的镜像文件只是元数据的开销并实现秒传,而相同版本、相同系统、不同软件的镜像组的重删率约达到58%。因此,本方案是非常有效的。 展开更多
关键词 云计算 重复数据删除 镜像文件存储
在线阅读 下载PDF
基于存储环境感知的重复数据删除算法优化 被引量:2
16
作者 周敬利 聂雪军 +3 位作者 秦磊华 刘科 朱建峰 王宇 《计算机科学》 CSCD 北大核心 2011年第2期63-67,共5页
在备份和归档等存储应用中产生的重复数据在存储空间和能耗上造成的浪费问题日益突出,如何删除重复数据已成为当前存储领域中的研究热点。CDC(Content-Defined Chunking)是一种适用于多种应用环境的重复数据删除算法,但缺乏针对具体应... 在备份和归档等存储应用中产生的重复数据在存储空间和能耗上造成的浪费问题日益突出,如何删除重复数据已成为当前存储领域中的研究热点。CDC(Content-Defined Chunking)是一种适用于多种应用环境的重复数据删除算法,但缺乏针对具体应用环境的优化。通过对存储环境进行感知和分析,为CDC算法提出了两个参数选择约束条件:(1)根据存储设备中的数据块存储方式来选择平均分块大小等参数;(2)根据数据的分块边界分布特性来选择分块边界特征值参数。实验表明,与无约束条件的CDC算法相比,这两个约束条件在4个实验数据集上平均可提高16.3%的数据缩减比。 展开更多
关键词 重复数据删除 存储环境感知 CDC 文件系统 分块边界
在线阅读 下载PDF
一种云存储系统中重复数据删除机制 被引量:9
17
作者 毕朝国 徐小龙 《计算机应用研究》 CSCD 北大核心 2014年第10期3052-3055,3060,共5页
基于现有重复数据删除策略,提出了一种基于负载均衡的C/S双端延迟重复数据删除方法。利用基于类型的数据分块方法将数据块分成若干块;利用MD5提取指纹值,与客户端本地的索引表对比指纹,若相同则用指针取代该数据块,具有数据块指纹和数... 基于现有重复数据删除策略,提出了一种基于负载均衡的C/S双端延迟重复数据删除方法。利用基于类型的数据分块方法将数据块分成若干块;利用MD5提取指纹值,与客户端本地的索引表对比指纹,若相同则用指针取代该数据块,具有数据块指纹和数据类型的索引表一同发送至控制器;控制器在收到客户端的请求后,首先根据自己实时监控得到的各服务器的当前状态来选择最佳目标存储节点;服务器端根据数据类型查询不同的索引表以缩小查找范围。对提出的方法的重复数据删除率进行了实验验证,结果表明该机制具有较好的性能表现。 展开更多
关键词 云存储 重复数据删除 数据副本
在线阅读 下载PDF
用电信息采集系统中重复数据删除技术研究 被引量:2
18
作者 陆春艳 向兵 +2 位作者 姜炜超 陈国章 周永真 《电测与仪表》 北大核心 2010年第A08期87-90,共4页
随着时间的推移,用电信息采集系统中的数据爆炸式增长,必然对数据中心造成巨大压力,存储设备将不堪负重,无法满足未来发展的需求。近年来,实现最小40倍于存储空间的重复删除技术已经成为存储领域的研究热点。但是,到目前为止,还没有看... 随着时间的推移,用电信息采集系统中的数据爆炸式增长,必然对数据中心造成巨大压力,存储设备将不堪负重,无法满足未来发展的需求。近年来,实现最小40倍于存储空间的重复删除技术已经成为存储领域的研究热点。但是,到目前为止,还没有看到重复删除技术应用于用电信息采集系统。本文着重从用电信息采集系统中的数据存储和数据备份2个方面研究如何实现重复数据删除技术,以节省存储空间,减少网络传输量,保护业务数据,为智能电网的快速发展提供强有利的支撑。 展开更多
关键词 智能电网 用电信息采集系统 重复数据删除技术
在线阅读 下载PDF
存储系统重复数据删除技术研究综述 被引量:27
19
作者 谢平 《计算机科学》 CSCD 北大核心 2014年第1期22-30,42,共10页
目前企业对数据量不断增长的需求使得数据中心面临严峻的挑战。研究发现,存储系统中高达60%的数据是冗余的,如何缩减存储系统中的冗余数据受到越来越多科研人员的关注。重复数据删除技术利用CPU计算资源,通过数据块指纹对比能够有效地... 目前企业对数据量不断增长的需求使得数据中心面临严峻的挑战。研究发现,存储系统中高达60%的数据是冗余的,如何缩减存储系统中的冗余数据受到越来越多科研人员的关注。重复数据删除技术利用CPU计算资源,通过数据块指纹对比能够有效地减少数据存储空间,已成为工业界和学术界研究的热点。在分析和总结近10年重复数据删除技术文献后,首先通过分析卷级重删系统体系结构,阐述了重删系统的原理、实现机制和评价标准。然后结合数据规模行为对重删系统性能的影响,重点分析和总结了重删系统的各种性能改进技术。最后对各种应用场景的重删系统进行对比分析,给出了4个需要重点研究的方向,包括基于主存储环境的重删方案、基于分布式集群环境的重删方案、快速指纹查询优化技术以及智能数据检测技术。 展开更多
关键词 重复数据删除 重删率 体系结构 数据结构 I O优化
在线阅读 下载PDF
Winnowing指纹串匹配的重复数据删除算法 被引量:6
20
作者 王青松 葛慧 《计算机应用》 CSCD 北大核心 2018年第3期677-681,714,共6页
针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合... 针对可变长度分块(CDC)的重复数据删除算法的分块大小难以控制、指纹计算对比开销大、需要预先设置参数问题,提出Winnowing指纹串匹配的重复数据删除算法(DWFM)。首先,在数据分块前引入分块大小预测模型,较准确地根据应用场景计算出合适的分块大小;然后,在计算指纹时采用ASCII/Unicode编码方式作为数据块指纹;最后,在确定分块边界时,提出指纹串匹配的分块算法,不需要预先设置参数,使得指纹计算和对比开销减少。在多种数据集上的实验结果表明,相比固定长度分块(FSP)和CDC算法,DWFM在数据的重删率上提升10%左右,在指纹计算和对比开销方面减少了18%左右。因此,DWFM的分块大小和边界更加符合数据特性,减少了参数设置对重复数据删除算法性能的影响,在处理不同类型的数据时,可以有效地消除更多的重复数据。 展开更多
关键词 重复数据删除 数据分块 指纹串匹配 WINNOWING 分块预测
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部