-
题名面向查询式实体解析的多属性数据索引技术
被引量:7
- 1
-
-
作者
孙琛琛
申德荣
肖迎元
李玉坤
-
机构
计算机视觉与系统省部共建教育部重点实验室(天津理工大学)
东北大学计算机科学与工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第6期2331-2347,共17页
-
基金
国家自然科学基金(62002262,61672142,61602103,62072086,62072084)
国家重点研发计划(2018YFB1003404)。
-
文摘
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面.
-
关键词
实体解析
多属性数据索引
查询式
数据集成
数据预处理
-
Keywords
entity resolution
multi-attribute data indexing
query based
data integration
data preprocessing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-