期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
文本分类中信息增益特征选择方法的研究 被引量:28
1
作者 郭亚维 刘晓霞 《计算机工程与应用》 CSCD 2012年第27期119-122,127,共5页
分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平... 分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平衡特征出现和不出现时的信息量,降低在不平衡语料集上负相关特征的比例,提高分类效果。通过实验证明了改进的信息增益特征选择方法的有效性和可行性。 展开更多
关键词 文本分 信息增益 特征选择 类内分散度 间集中度 比例因子
在线阅读 下载PDF
一种基于信息增益的新垃圾邮件特征选择算法 被引量:2
2
作者 李猛 刘元宁 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第2期379-382,共4页
基于传统信息增益特征选择算法,通过提出类内分散度与类间集中度的概念,结合传统信息增益算法,解决了信息增益算法因忽略特征项的分布而导致的性能下降问题,提高了信息增益算法的效率.使用改进的特征选择算法进行垃圾邮件过滤实验,在不... 基于传统信息增益特征选择算法,通过提出类内分散度与类间集中度的概念,结合传统信息增益算法,解决了信息增益算法因忽略特征项的分布而导致的性能下降问题,提高了信息增益算法的效率.使用改进的特征选择算法进行垃圾邮件过滤实验,在不同的分类器下,与传统的特征选择算法进行对比,实验结果表明,改进的特征选择算法性能较优. 展开更多
关键词 信息增益 类内分散度 间集中度 垃圾邮件 特征选择
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部