期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
文本分类中特征选择方法的比较与改进 被引量:25
1
作者 单丽莉 刘秉权 孙承杰 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第S1期319-324,共6页
为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数... 为了在面向旅游领域的文本分类系统中选择有效的分类特征,提高分类性能,本文根据系统采用的训练集、训练过程及分类算法等因素重新对各常用的特征选择方法进行了综合实验评测,比较了五种常用的特征选择方法,对于评测结果最好的三种函数:期望交叉熵、信息增益和互信息,通过理论分析和科学实验,分别提出了不同的改进方法.实验结果表明改进的期望交叉熵方法在本应用中能够最有效地提高系统的分类性能. 展开更多
关键词 文本分类 特征选择 期望交叉熵
在线阅读 下载PDF
基于特征选择的实体关系抽取 被引量:9
2
作者 毛小丽 何中市 +1 位作者 邢欣来 刘莉 《计算机应用研究》 CSCD 北大核心 2012年第2期530-532,共3页
提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地... 提出了一种实体关系抽取方案,该方案针对实体关系抽取中特征空间维数过高问题,引入了文本分类中的特征选择算法,如信息增益、期望交叉熵和x2统计,实现了特征空间降维。实验结果表明,各特征选择算法均能在尽量保证抽取性能的同时有效地降低向量空间维数,提高分类效率,其中x2统计取得的效果最好。 展开更多
关键词 关系抽取 特征选择 信息增益 期望交叉熵 x2统计
在线阅读 下载PDF
文本分类中一种基于选择的二次特征降维方法 被引量:8
3
作者 刘海峰 王元元 +1 位作者 姚泽清 陈琦 《情报学报》 CSSCI 北大核心 2009年第1期23-27,共5页
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类... 特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。 展开更多
关键词 文本分类 特征选择 互信息 期望交叉熵
在线阅读 下载PDF
基于改进Nave Bayes的垃圾邮件过滤模型研究 被引量:10
4
作者 王涛 裘国永 何聚厚 《计算机工程与应用》 CSCD 北大核心 2007年第13期186-190,共5页
分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词... 分析了目前在垃圾邮件过滤中广泛应用的NaveBayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足。提出了改进的NaveBayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度。实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高。 展开更多
关键词 垃圾邮件过滤 朴素贝叶斯 期望交叉熵 特征选取
在线阅读 下载PDF
用于中文文本分类的基于类别区分词的特征选择方法 被引量:8
5
作者 周奇年 张振浩 徐登彩 《计算机应用与软件》 CSCD 北大核心 2013年第3期193-195,共3页
特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验... 特征选择是中文文本分类过程中的一个重要过程,特征项选择的优劣直接影响文本分类的准确率。在分析几种特征选择方法的基础上,提出一种类别区分词的特征选择方法。实验结果表明,类别区分词的特征选择方法的分类效率高于传统方法,从而验证了该方法的有效性。 展开更多
关键词 文本分类 特征选择 类别区分词 信息增益 互信息 期望交叉熵
在线阅读 下载PDF
基于索引项权重的文本特征选择方法 被引量:4
6
作者 王海鹃 韩立新 甄志龙 《计算机工程与设计》 CSCD 北大核心 2010年第5期1149-1151,共3页
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证... 为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。 展开更多
关键词 文本分类 特征选择 索引项权重 信息增益 期望交叉熵 文本证据权
在线阅读 下载PDF
基于改进CHI和带权ECE结合的特征选择方法 被引量:4
7
作者 蔡镇 高健 秦晓军 《计算机应用研究》 CSCD 北大核心 2019年第10期2962-2964,共3页
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补... 针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征选择方法。经对比实验验证,pCHIωECE方法的查准率、F1值均优于CHI、ECE及pCHI、ωECE方法,且该方法的降维稳定性更好。 展开更多
关键词 卡方统计 期望交叉熵 特征选择 文本分类
在线阅读 下载PDF
融合词语共现距离和类别信息的短文本特征提取方法 被引量:3
8
作者 马慧芳 邢玉莹 +1 位作者 王双 张旭鹏 《计算机工程与科学》 CSCD 北大核心 2018年第9期1689-1695,共7页
针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这... 针对传统特征加权方法未充分考虑词语之间的语义信息和类别分布信息的不足,提出了一种融合词语共现距离和类别信息的短文本特征提取方法。一方面,将同一短文本中两个词语之间的间隔词数作为共现距离,计算它们之间的相关度。通过计算这两个词语共同出现的频率,得到每个词的关联权重;另一方面,利用改进的期望交叉熵计算某个词在某个类别中的权重值,将两者整合,得到某个类别中所有词的权重值。对所有类别中的词按权重值的大小进行降序排序,选取前K个词作为新的特征词项集合。实验表明,该方法能够有效提高短文本特征提取的效果。 展开更多
关键词 短文本 共现距离 期望交叉熵 特征提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部