期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向查询式实体解析的多属性数据索引技术 被引量:7
1
作者 孙琛琛 申德荣 +1 位作者 肖迎元 李玉坤 《软件学报》 EI CSCD 北大核心 2022年第6期2331-2347,共17页
实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问... 实体解析是数据集成的关键方面,也是大数据分析与挖掘的必要预处理步骤.大数据时代,随着查询驱动的数据应用需求的不断增长,查询式实体解析成为热点问题.为了提升查询-解析效率,研究了面向实体缓存的多属性数据索引技术.涉及两个核心问题:(1)如何设计多属性数据索引?设计了基于R-树的多属性索引结构.为了满足实体缓存在线生成需求,提出了基于空间聚类的在线索引构建方法.提出了基于“过滤-验证”的多维查询方法,利用多属性索引有效地过滤掉不可能命中的记录,然后采用相似性函数或距离函数逐一验证候选记录.(2)如何将不同的字符串属性插入到树形索引中?解决思路是,将字符串映射到数值空间.针对Jaccard相似性和编辑相似性,提出了基于q-gram的映射方法,并提出了基于向量降维的优化和基于z-order的优化,实现高质量的“字符串→数值”映射.最后,在两个数据集上进行实验评估,验证多属性索引的有效性,并测试其各个方面. 展开更多
关键词 实体解析 多属性数据索引 查询式 数据集成 数据预处理
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部