为快速准确地计算时间序列数据相似度,引入快速动态时间规划距离(fast dynamic time warping,FDTW),提出了基于FDTW的模糊C均值算法和模糊C中心点聚类算法。FDTW通过对数据序列进行拉伸和压缩匹配时间序列数据,只要形状相同,即使发生时...为快速准确地计算时间序列数据相似度,引入快速动态时间规划距离(fast dynamic time warping,FDTW),提出了基于FDTW的模糊C均值算法和模糊C中心点聚类算法。FDTW通过对数据序列进行拉伸和压缩匹配时间序列数据,只要形状相同,即使发生时间位移也可以准确识别,同时解决了传统DTW计算效率较低的问题。试验结果表明,提出的算法仍能保证聚类的精度。展开更多
重复数据删除集群是解决不断增长的海量数据备份需求的一种有效方法。它的关键问题是数据路由策略,即如何把数据合理分配到集群内的各个节点。目前的数据路由策略利用文件或者数据段的最小数据块签名计算路由目标节点,称作MCS(minimum c...重复数据删除集群是解决不断增长的海量数据备份需求的一种有效方法。它的关键问题是数据路由策略,即如何把数据合理分配到集群内的各个节点。目前的数据路由策略利用文件或者数据段的最小数据块签名计算路由目标节点,称作MCS(minimum chunk signature)数据路由策略。当重复数据删除集群规模较小时,这种方法的存储使用量接近单节点重复数据删除。但是,当集群规模较大时,它的存储使用量远远劣于单节点重复数据删除。为了降低重复数据删除集群的存储使用量,提出一种基于路径的重复数据删除集群的数据路由策略,称作DRSD(data routing strategy based on directories)。实验结果表明,对于各种不同的节点数量,DRSD的重复数据删除率都明显高于MCS,并且接近单节点重复数据删除。当节点数量是64时,DRSD的重复数据删除率比MCS高35%。展开更多
文摘为快速准确地计算时间序列数据相似度,引入快速动态时间规划距离(fast dynamic time warping,FDTW),提出了基于FDTW的模糊C均值算法和模糊C中心点聚类算法。FDTW通过对数据序列进行拉伸和压缩匹配时间序列数据,只要形状相同,即使发生时间位移也可以准确识别,同时解决了传统DTW计算效率较低的问题。试验结果表明,提出的算法仍能保证聚类的精度。
文摘重复数据删除集群是解决不断增长的海量数据备份需求的一种有效方法。它的关键问题是数据路由策略,即如何把数据合理分配到集群内的各个节点。目前的数据路由策略利用文件或者数据段的最小数据块签名计算路由目标节点,称作MCS(minimum chunk signature)数据路由策略。当重复数据删除集群规模较小时,这种方法的存储使用量接近单节点重复数据删除。但是,当集群规模较大时,它的存储使用量远远劣于单节点重复数据删除。为了降低重复数据删除集群的存储使用量,提出一种基于路径的重复数据删除集群的数据路由策略,称作DRSD(data routing strategy based on directories)。实验结果表明,对于各种不同的节点数量,DRSD的重复数据删除率都明显高于MCS,并且接近单节点重复数据删除。当节点数量是64时,DRSD的重复数据删除率比MCS高35%。