期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于χ~2统计量的kNN文本分类算法 被引量:13
1
作者 印鉴 谭焕云 《小型微型计算机系统》 CSCD 北大核心 2007年第6期1094-1097,共4页
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一... 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率. 展开更多
关键词 文本分类 特征选择 KNN ^Χ^2统计
在线阅读 下载PDF
基于χ~2统计量的不良文本过滤特征选择方法 被引量:1
2
作者 管江红 《现代电子技术》 北大核心 2019年第21期182-186,共5页
针对现有以χ^2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别... 针对现有以χ^2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ^2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。 展开更多
关键词 特征选择 ^χ^2统计 双层分类 不良文本过滤 特征项分布 评估指标
在线阅读 下载PDF
基于模糊决策树的文本分类规则抽取 被引量:13
3
作者 王煜 王正欧 《计算机应用》 CSCD 北大核心 2005年第7期1634-1637,共4页
提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的χ2统计量,并根据改进的χ2统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种... 提出一种合并分枝的模糊决策树文本分类方法对相似文本类进行分类,并可抽取出分类精度较高的模糊分类规则。首先研究改进了的χ2统计量,并根据改进的χ2统计量对文本的特征词条进行聚合,有效地降低了文本向量空间的维数。然后使用一种合并分枝的模糊决策树进行分类,大大减少了抽取的规则数量。从而既保证了决策树分类的精度和速度,又可抽取出可理解的模糊分类规则。 展开更多
关键词 相似文本分类 规则抽取 ^χ^2统计 模糊决策树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部