-
题名基于哈希增强技术的分布式系统数据分片方案
- 1
-
-
作者
艾志成
曹炳尧
王演祎
-
机构
上海大学特种光纤与光接入网重点实验室
-
出处
《计算机应用研究》
2025年第9期2779-2784,共6页
-
基金
国家重点研发计划资助项目(2021YFB2900800)
上海市科委资助项目(22511100902,22511100502)
“111”计划资助项目(D2003)。
-
文摘
分布式系统数据分片技术旨在优化数据分布以提升计算效率,然而现有方法在分片质量与冗余控制等方面存在局限。为此,提出一种基于混合局部敏感哈希(hybrid LSH)的分片策略与改进的meta-partitioning优化技术。首先,设计混合LSH框架,通过MinHash与自适应LSH的协同机制实现实体描述的高效初步聚类;其次,提出逆块频率边权重计算方法与动态双阶段剪边策略,优化分片覆盖率与冗余控制。在四个基准数据集上的实验表明:相较于现有方法,该方案使平均分片大小平均降低58.3%,最大分片规模平均减少51.1%,PC指标达96.4%(整体提升3.4个百分点),PQ指标达11.6%(较最差基线提升至少6.6个百分点)。研究成果为分布式系统提供了兼顾分片质量与计算效率的解决方案,其量化指标验证了方法在覆盖率与冗余控制方面的双重优势。
-
关键词
数据分片
分片优化
混合局部敏感哈希
meta-partitioning
-
Keywords
data partitioning
partitioning optimization
hybrid locality-sensitive hashing
meta-partitioning
-
分类号
TP301.6
[自动化与计算机技术]
-