期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于上下文感知实体排序的缺失数据修复方法 被引量:3
1
作者 陈肇强 李佳俊 +3 位作者 蒋川 刘海龙 陈群 李战怀 《计算机学报》 EI CSCD 北大核心 2015年第9期1755-1766,共12页
大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差.传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据.基于互联网的缺失值修复过程一... 大数据环境下,数据缺失现象十分普遍,导致许多基于数据的决策出现偏差.传统的数据库缺失值修复方法主要是利用本地数据库来修复数值型数据,这些方法并不适用于利用互联网数据来修复数值型和非数值型数据.基于互联网的缺失值修复过程一般包括生成查询、检索文档集、抽取实体、实体排序4个步骤,其中候选实体的排序决定了最终用于修复数据库的信息.现有的利用互联网数据来修复缺失数据的研究主要集中在两个方面:一是提升查询和抽取的质量,然后对抽取的候选实体按频率进行排序;另一种是分析目标实体应该具有的特征,然后对候选实体计算特征值,最后用权值叠加进行排序.这两类方法都只是考虑了实体自身的因素,而忽略了实体之间的影响.文中针对候选实体的排序建立了图模型,基于该图模型提出了上下文相关的实体排序算法CER(Contextaware Entity Ranking),该算法能够把候选实体在网页中的上下文特征充分利用起来并用实体间的影响来推断新信息,从而得到更准确的排序结果.基于真实数据集的实验结果表明,相较于频率统计和权值叠加的实体排序算法,CER算法能利用互联网的海量数据对关系数据库中的缺失值进行更加有效的修复. 展开更多
关键词 数据库缺失值修复 互联网 实体排序
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部