期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
用于连续属性离散化的RSE-Chi2方法 被引量:2
1
作者 束志恒 陈德钊 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2005年第6期849-852,共4页
为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描... 为解决基于卡方统计量离散化方法在处理未知数据特性时的参数难确定问题,提出了一种基于粗糙集方法的自动离散化方法.该方法根据粗糙集理论对知识不确定性和属性重要性的分析,利用粗糙集方法处理数据不需要先验知识的特点,以基于最小描述长度原理的决策系统信息熵作为离散化过程的评价函数,并由属性断点平均重要性确定多连续属性的离散化顺序,构建了自动的离散化方法RSEChi2.实例测试表明,该方法性能良好,能根据样本数据本身的特性,自动协调拟合和预报精度,不需要先验设定显著性水平和不一致率等参数,离散化结果更为精简,所建决策树分类模型具有较好的预报性能. 展开更多
关键词 粗糙集 卡方统计量 信息熵 属性重要性 离散化
在线阅读 下载PDF
文本分类中基于CHI改进的特征选择方法 被引量:5
2
作者 宋呈祥 陈秀宏 牛强 《微电子学与计算机》 CSCD 北大核心 2018年第9期74-78,共5页
针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不... 针对传统卡方统计量(CHI)方法在全局范围内做特征选择时忽略词的频度、词的分布等问题,提出了一种改进的文本特征选择方法.该方法通过定义特征词频度分布相关性系数,选择局部出现的强相关性特征,同时考虑特征词类间分布差异性来提升不均衡数据集的分类指标.结果表明,改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定. 展开更多
关键词 文本分类 卡方统计量 特征选择 不均衡数据集
在线阅读 下载PDF
一种改进TF-IDF的中文邮件识别算法研究 被引量:9
3
作者 吴小晴 万国金 +2 位作者 李程文 林梦思 曹书强 《现代电子技术》 北大核心 2020年第12期83-86,共4页
传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃... 传统的TF-IDF算法没有很好地分配分词的权重,对一些能代表邮件类别出现频率较大的词语计算的IDF值反而较小,IDF值小说明单词的区分能力弱而不符合实际情况。为了提升垃圾邮件识别的准确率,提出一种改进TF-IDF算法和类中心向量的中文垃圾邮件识别方法。通过改进传统的TF-IDF计算方式,在传统的TF-IDF算法里面加入卡方统计量CHI和位置影响因子能够很好地改善一些重要词汇的权重问题,并结合逆向最大匹配算法的邮件文本分词和类中心向量算法的特征选择进行垃圾邮件分类。实验结果表明,所提算法相较于传统的TF-IDF算法对垃圾邮件识别的准确率提升了约3.6%,具有一定的实际应用价值。 展开更多
关键词 TF-IDF算法 邮件识别 卡方统计量 权重分配 邮件分类 仿真分析
在线阅读 下载PDF
“独立性检验”的教材研读与思考 被引量:4
4
作者 杨兴军 宋玉祥 《中国数学教育(高中版)》 2015年第3期5-7,共3页
"独立性检验"极富教学价值.对它的研读旨在消除困惑、提高认识、服务教学.研读内容包括:对分类变量及列联表的认识,独立性的统计意义的理解,卡方统计量的统计解释,犯错误概率如何理解,"独立性检验"与反证法的区别,其他统计量的构... "独立性检验"极富教学价值.对它的研读旨在消除困惑、提高认识、服务教学.研读内容包括:对分类变量及列联表的认识,独立性的统计意义的理解,卡方统计量的统计解释,犯错误概率如何理解,"独立性检验"与反证法的区别,其他统计量的构造及其与K2的关系等.同时引发进一步思考. 展开更多
关键词 分类变 卡方统计量 独立性检验 教材研读
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部