-
题名基于词频统计规律的文本数据预处理方法
被引量:12
- 1
-
-
作者
池云仙
赵书良
罗燕
高琳
赵骏鹏
李超
-
机构
河北师范大学数学与信息科学学院
河北师范大学河北省计算数学与应用数学重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2017年第10期276-282,288,共8页
-
基金
国家自然科学基金项目(71271067)
国家社科基金重大项目(13&ZD091)
+1 种基金
河北省高等学校科学技术研究项目(QN2014196)
河北师范大学硕士基金(xj2015003)资助
-
文摘
在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。
-
关键词
大数据
文本挖掘
数据预处理
词频统计
-
Keywords
big data,text mining,data preprocessing,term frequency statistics
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-