期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种新的基于统计的自动文本分类方法 被引量:48
1
作者 刘斌 黄铁军 +1 位作者 程军 高文 《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上... 自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。 展开更多
关键词 统计 自动文本分类 多层次特征提取 距离加权KNN算法 样本重要性分析 汉字识别
在线阅读 下载PDF
基于论文标题和摘要的短文本分类研究 被引量:6
2
作者 薛峰 胡越 +1 位作者 夏帅 许剑东 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2018年第10期1343-1349,共7页
基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术... 基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术论文这一短文本分类问题的最佳分类方案组合和参数组合;此外,提出一种基于分类置信度的二次过滤结构的文本分类方法,进一步提高了分类精度,采用大量的交叉实验验证了该文的思想和方法。 展开更多
关键词 文本分类 文本预处理 特征选择 权重计算 算法
在线阅读 下载PDF
一种基于类别强信息特征和贝叶斯算法的中文文本分类器 被引量:5
3
作者 陈艳秋 孙培立 《计算机应用与软件》 CSCD 北大核心 2014年第8期330-333,共4页
为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相... 为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。 展开更多
关键词 中文文本分类 特征选择 特征权重 分类算法
在线阅读 下载PDF
新型快速中文文本分类器的设计与实现 被引量:5
4
作者 陈艳秋 熊耀华 《计算机工程与应用》 CSCD 北大核心 2009年第22期53-55,共3页
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值... 为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。 展开更多
关键词 中文文本分类 特征选择 特征权重 分类算法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部