-
题名基于数据源分类可信性的真值发现方法研究
被引量:8
- 1
-
-
作者
马如霞
孟小峰
-
机构
中国人民大学信息学院
首都师范大学教育技术系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第9期1931-1940,共10页
-
基金
国家自然科学基金项目(61379050
91224008)
+2 种基金
国家"八六三"高技术研究发展计划基金项目(2013AA013204)
高等学校博士学科点专项科研基金项目(20130004130001)
中国人民大学科学研究基金项目(11XNL010)
-
文摘
网络的普及和电子商务的发展改变了人们信息获取以及消费的方式.Web已经成为大多数人获取信息的重要来源.与此同时,互联网信息质量问题也逐渐凸显.Web中存在大量过时、错误、虚假、片面的信息.其中,不同网站为相同对象提供冲突信息的问题尤为突出.如何从这些冲突信息中找到正确信息成为亟待解决的问题,这类问题又被称为真值发现问题.通过对现有真值发现问题解决方法的调研,发现现有方法均未考虑数据源分类可信性差异对真值发现的影响.因此,提出基于数据源分类可信性的真值发现问题.提出2种方法探测数据源分类可信性差异,并采用贝叶斯的方法迭代计算数据源分类可信性和属性值准确性.另外,通过考虑数据源覆盖率和对象难度对真值发现的影响,进一步提高真值发现算法的准确性.一个真实数据集的实验结果表明,所提方法可以显著提高真值发现的准确性.
-
关键词
真值发现
数据冲突
数据源分类可信性
信息质量
数据融合
-
Keywords
truth discovery
data conflicting
credibility of data categories on data sources
quality of information
data fusion
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-