检索结果-维普期刊中文期刊服务平台

一种新的基于统计的自动文本分类方法被引量：48: 1; 作者刘斌黄铁军 +1 位作者程军高文《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页; 自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上... 展开更多; 关键词统计自动文本分类多层次特征提取距离加权KNN算法样本重要性分析汉字识别; 在线阅读下载PDF 职称材料

基于论文标题和摘要的短文本分类研究被引量：6: 2; 作者薛峰胡越 +1 位作者夏帅许剑东《合肥工业大学学报（自然科学版）》 CAS 北大核心 2018年第10期1343-1349,共7页; 基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术... 展开更多; 关键词文本分类文本预处理特征选择权重计算算法; 在线阅读下载PDF 职称材料

一种基于类别强信息特征和贝叶斯算法的中文文本分类器被引量：5: 3; 作者陈艳秋孙培立《计算机应用与软件》 CSCD 北大核心 2014年第8期330-333,共4页; 为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相... 展开更多; 关键词中文文本分类特征选择特征权重分类算法; 在线阅读下载PDF 职称材料

新型快速中文文本分类器的设计与实现被引量：5: 4; 作者陈艳秋熊耀华《计算机工程与应用》 CSCD 北大核心 2009年第22期53-55,共3页; 为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值... 展开更多; 关键词中文文本分类特征选择特征权重分类算法; 在线阅读下载PDF 职称材料

题名一种新的基于统计的自动文本分类方法被引量：48: 1; 作者刘斌黄铁军程军高文; 机构中国科学院计算技术研究所中国科学院研究生院中国科学院文献情报中心; 出处《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页; 基金国家科学数字图书馆重大专项 (CSDL2 0 0 2 - 18); 文摘自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。; 关键词统计自动文本分类多层次特征提取距离加权KNN算法样本重要性分析汉字识别; Keywords automatic text classification multi level feature selection Kernel based Distance weighted KNN algorithm sample weightiness analysis; 分类号 TP391.43 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于论文标题和摘要的短文本分类研究被引量：6: 2; 作者薛峰胡越夏帅许剑东; 机构合肥工业大学计算机与信息学院; 出处《合肥工业大学学报（自然科学版）》 CAS 北大核心 2018年第10期1343-1349,共7页; 基金国家自然科学基金资助项目(61472115); 文摘基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术论文这一短文本分类问题的最佳分类方案组合和参数组合;此外,提出一种基于分类置信度的二次过滤结构的文本分类方法,进一步提高了分类精度,采用大量的交叉实验验证了该文的思想和方法。; 关键词文本分类文本预处理特征选择权重计算算法; Keywords text classification text preprocessing feature selection weighting calculation algorithm; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种基于类别强信息特征和贝叶斯算法的中文文本分类器被引量：5: 3; 作者陈艳秋孙培立; 机构大连东软信息技术学院计算机科学与技术系大连海洋大学经济管理学院; 出处《计算机应用与软件》 CSCD 北大核心 2014年第8期330-333,共4页; 文摘为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。; 关键词中文文本分类特征选择特征权重分类算法; Keywords chinese text categorisation feature selection feature weighting classification algorithm; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

题名新型快速中文文本分类器的设计与实现被引量：5: 4; 作者陈艳秋熊耀华; 机构东北大学东软信息技术学院计算机科学与技术系; 出处《计算机工程与应用》 CSCD 北大核心 2009年第22期53-55,共3页; 文摘为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。; 关键词中文文本分类特征选择特征权重分类算法; Keywords chinese text categorization feature selection feature weighting classification algorithm; 分类号 TP18 [自动化与计算机技术—控制理论与控制工程]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	一种新的基于统计的自动文本分类方法	刘斌黄铁军程军高文	《中文信息学报》 CSCD 北大核心	2002	48	在线阅读下载PDF 职称材料
2	基于论文标题和摘要的短文本分类研究	薛峰胡越夏帅许剑东	《合肥工业大学学报（自然科学版）》 CAS 北大核心	2018	6	在线阅读下载PDF 职称材料
3	一种基于类别强信息特征和贝叶斯算法的中文文本分类器	陈艳秋孙培立	《计算机应用与软件》 CSCD 北大核心	2014	5	在线阅读下载PDF 职称材料
4	新型快速中文文本分类器的设计与实现	陈艳秋熊耀华	《计算机工程与应用》 CSCD 北大核心	2009	5	在线阅读下载PDF 职称材料