摘要
采用开放协同编辑模式的维基百科,其内容的精确性一直受到人们的质疑。除了极少部分被维基百科认定为高质量文章外,维基用户很难判断其余大部分文章的质量。对此,本文将维基百科中页面信息作为样本数据,把页面信息质量评价问题抽象为一个分类问题,构造了基于决策树C4.5的维基百科页面信息质量评价模型。并从页面编辑者情况和页面情况两个方面提出影响维基百科页面信息质量的15个的指标,给出了各指标的定义以及计算公式。最后,训练一个自动的页面信息质量分级评价模型并进行了有效性验证。实验证明,本文提出的维基百科页面信息质量分级评价模型能有效预测页面信息质量等级。
Due to the open collaborative editing mode of Wikipedia, the accuracy of its content has been questioned. Except part of the articles that has been identified as high-quality by Wikipedia, it is difficult for the users to determine the quality of the available information. So we took the pages of Wikipedia as sample data, transformed page information quality evaluation problem into a classification problem, and then developed an evaluation model for the information quality of Wikipedia articles based on C4.5. We also proposed 15 indicators from two aspects, page editor and edited pages, and gave the definition and calculation formula of each indicator. Finally we trained an automatic evaluation model of information quality and verified its validity. The experiments show that the evaluation model of information quality can effectively predict the quality of an article.
出处
《情报学报》
CSSCI
北大核心
2012年第12期1259-1264,共6页
Journal of the China Society for Scientific and Technical Information
基金
资金资助:中央高校基本科研业务费专项(项目批准号:DUT11RW306).
关键词
维基百科
信息质量
质量评价
分类模型
Wikipedia, information quality, quality evaluation, classification model
作者简介
作者简介:裘江南,男,1968年生,副教授,主要研究方向:知识管理,信息组织与检索。E-mail:qiujiangnan@gmail.com。
翁楠,女,1988年生,硕士生,主要研究方向:知识管理,金融管理与金融工程。
徐胜国,男,1988年生,硕士生,主要研究方向:知识管理,信息组织与检索。