-
题名基于χ~2统计量的kNN文本分类算法
被引量:13
- 1
-
-
作者
印鉴
谭焕云
-
机构
中山大学计算机科学系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2007年第6期1094-1097,共4页
-
基金
国家自然科学基金项目(60573097)资助
广东省自然科学基金项目(05200302
+3 种基金
06104916)资助
国家科技(2004BA721A02)资助
广东省科技计划项目(2005B10101032)资助
高等学校博士学科点专项科研基金项目(20050558017)资助.
-
文摘
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
-
关键词
文本分类
特征选择
KNN
^Χ^2统计量
-
Keywords
text categorization
feature selection
kNN
^ Χ^2 statistic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于χ~2统计量的不良文本过滤特征选择方法
被引量:1
- 2
-
-
作者
管江红
-
机构
西藏民族大学信息工程学院
-
出处
《现代电子技术》
北大核心
2019年第21期182-186,共5页
-
文摘
针对现有以χ^2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ^2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。
-
关键词
特征选择
^χ^2统计量
双层分类
不良文本过滤
特征项分布
评估指标
-
Keywords
feature selection
^χ^2 statistics
double-layer classification
harmful text filtering
feature item distribution
evaluation index
-
分类号
TN911.1
[电子电信—通信与信息系统]
34
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于模糊决策树的文本分类规则抽取
被引量:13
- 3
-
-
作者
王煜
王正欧
-
机构
天津大学系统工程研究所
-
出处
《计算机应用》
CSCD
北大核心
2005年第7期1634-1637,共4页
-
基金
国家自然科学基金资助项目(60275020)
-
文摘
提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的χ2统计量,并根据改进的χ2统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种合并分枝的模糊决策树进行分类,大大减少了抽取的规则数量。从而既保证了决策树分类的精度和速度,又可抽取出可理解的模糊分类规则。
-
关键词
相似文本分类
规则抽取
^χ^2统计量
模糊决策树
-
Keywords
similar text categorization
rule extraction
χ~2 statistic
fuzzy decision tree
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-