-
题名基于上下文感知实体排序的缺失数据修复方法
被引量:3
- 1
-
-
作者
陈肇强
李佳俊
蒋川
刘海龙
陈群
李战怀
-
机构
西北工业大学计算机学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2015年第9期1755-1766,共12页
-
基金
国家"九七三"重点基础研究发展规划项目基金(2012CB316203)
国家自然科学基金(61332006
+2 种基金
61472321)
西北工业大学基础研究基金(3102014JSJ0013
3102014JSJ0005)资助~~
-
文摘
大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差.传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据.基于互联网的缺失值修复过程一般包括生成查询、检索文档集、抽取实体、实体排序4个步骤,其中候选实体的排序决定了最终用于修复数据库的信息.现有的利用互联网数据来修复缺失数据的研究主要集中在两个方面:一是提升查询和抽取的质量,然后对抽取的候选实体按频率进行排序;另一种是分析目标实体应该具有的特征,然后对候选实体计算特征值,最后用权值叠加进行排序.这两类方法都只是考虑了实体自身的因素,而忽略了实体之间的影响.文中针对候选实体的排序建立了图模型,基于该图模型提出了上下文相关的实体排序算法CER(Contextaware Entity Ranking),该算法能够把候选实体在网页中的上下文特征充分利用起来并用实体间的影响来推断新信息,从而得到更准确的排序结果.基于真实数据集的实验结果表明,相较于频率统计和权值叠加的实体排序算法,CER算法能利用互联网的海量数据对关系数据库中的缺失值进行更加有效的修复.
-
关键词
数据库缺失值修复
互联网
图
实体排序
-
Keywords
data imputation
Web
graph
entity ranking
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-