期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种新的基于统计的自动文本分类方法
被引量:
48
1
作者
刘斌
黄铁军
+1 位作者
程军
高文
《中文信息学报》
CSCD
北大核心
2002年第6期18-24,共7页
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上...
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
展开更多
关键词
统计
自动文本分类
多层次特征提取
距离加权KNN算法
样本重要性分析
汉字识别
在线阅读
下载PDF
职称材料
基于论文标题和摘要的短文本分类研究
被引量:
6
2
作者
薛峰
胡越
+1 位作者
夏帅
许剑东
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2018年第10期1343-1349,共7页
基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术...
基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术论文这一短文本分类问题的最佳分类方案组合和参数组合;此外,提出一种基于分类置信度的二次过滤结构的文本分类方法,进一步提高了分类精度,采用大量的交叉实验验证了该文的思想和方法。
展开更多
关键词
文本分类
文本预处理
特征选择
权重计算
算法
在线阅读
下载PDF
职称材料
一种基于类别强信息特征和贝叶斯算法的中文文本分类器
被引量:
5
3
作者
陈艳秋
孙培立
《计算机应用与软件》
CSCD
北大核心
2014年第8期330-333,共4页
为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相...
为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。
展开更多
关键词
中文文本分类
特征选择
特征权重
分类算法
在线阅读
下载PDF
职称材料
新型快速中文文本分类器的设计与实现
被引量:
5
4
作者
陈艳秋
熊耀华
《计算机工程与应用》
CSCD
北大核心
2009年第22期53-55,共3页
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值...
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。
展开更多
关键词
中文文本分类
特征选择
特征权重
分类算法
在线阅读
下载PDF
职称材料
题名
一种新的基于统计的自动文本分类方法
被引量:
48
1
作者
刘斌
黄铁军
程军
高文
机构
中国科学院计算技术研究所
中国科学院研究生院
中国科学院文献情报中心
出处
《中文信息学报》
CSCD
北大核心
2002年第6期18-24,共7页
基金
国家科学数字图书馆重大专项 (CSDL2 0 0 2 - 18)
文摘
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
关键词
统计
自动文本分类
多层次特征提取
距离加权KNN算法
样本重要性分析
汉字识别
Keywords
automatic
text
classification
multi level
feature
selection
Kernel based Distance weighted KNN
algorithm
sample weightiness analysis
分类号
TP391.43 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于论文标题和摘要的短文本分类研究
被引量:
6
2
作者
薛峰
胡越
夏帅
许剑东
机构
合肥工业大学计算机与信息学院
出处
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2018年第10期1343-1349,共7页
基金
国家自然科学基金资助项目(61472115)
文摘
基于机器学习的文本分类技术能够自动对给定的文本分门别类,具有广泛的应用前景,因此得到了学者们广泛的关注。文章在基于论文标题和摘要等数据的基础上,采用不同的分类方法对学术论文的学科分类进行了深入的对比研究,旨在找出适合学术论文这一短文本分类问题的最佳分类方案组合和参数组合;此外,提出一种基于分类置信度的二次过滤结构的文本分类方法,进一步提高了分类精度,采用大量的交叉实验验证了该文的思想和方法。
关键词
文本分类
文本预处理
特征选择
权重计算
算法
Keywords
text
classification
text
preprocessing
feature
selection
weighting
calculation
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
一种基于类别强信息特征和贝叶斯算法的中文文本分类器
被引量:
5
3
作者
陈艳秋
孙培立
机构
大连东软信息技术学院计算机科学与技术系
大连海洋大学经济管理学院
出处
《计算机应用与软件》
CSCD
北大核心
2014年第8期330-333,共4页
文摘
为了提高中文文本分类的效率与精度,设计一种新型的分类器。该分类器采用基于语料库的正向扫描统计分词。在词频统计阶段,采取训练阶段的按类别统计和测试阶段的按文章不同区域统计的方法;为了更好地选择特征词,提出了频度、集中度、相关度三个强信息特征标准;在特征权重计算上,提出了将词频和综合特征选择函数相结合的权重计算方法;最后,结合朴素贝叶斯原理进行分类。实验证明该分类器简单有效。
关键词
中文文本分类
特征选择
特征权重
分类算法
Keywords
chinese text categorisation feature selection feature weighting classification algorithm
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
新型快速中文文本分类器的设计与实现
被引量:
5
4
作者
陈艳秋
熊耀华
机构
东北大学东软信息技术学院计算机科学与技术系
出处
《计算机工程与应用》
CSCD
北大核心
2009年第22期53-55,共3页
文摘
为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。
关键词
中文文本分类
特征选择
特征权重
分类算法
Keywords
chinese
text
categorization
feature
selection
feature
weighting
classification
algorithm
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种新的基于统计的自动文本分类方法
刘斌
黄铁军
程军
高文
《中文信息学报》
CSCD
北大核心
2002
48
在线阅读
下载PDF
职称材料
2
基于论文标题和摘要的短文本分类研究
薛峰
胡越
夏帅
许剑东
《合肥工业大学学报(自然科学版)》
CAS
北大核心
2018
6
在线阅读
下载PDF
职称材料
3
一种基于类别强信息特征和贝叶斯算法的中文文本分类器
陈艳秋
孙培立
《计算机应用与软件》
CSCD
北大核心
2014
5
在线阅读
下载PDF
职称材料
4
新型快速中文文本分类器的设计与实现
陈艳秋
熊耀华
《计算机工程与应用》
CSCD
北大核心
2009
5
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部