期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
统计模式识别中的维数削减与低损降维 被引量:44
1
作者 宋枫溪 高秀梅 +1 位作者 刘树海 杨静宇 《计算机学报》 EI CSCD 北大核心 2005年第11期1915-1922,共8页
较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器———贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选... 较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器———贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选择方法———低损降维.在标准数据集Reuters-21578上进行的仿真实验结果表明,与互信息、χ2统计量以及文档频率这三种主流文本特征选择方法相比,低损降维的降维效果与互信息、χ2统计量相当,而优于文档频率. 展开更多
关键词 维数削减 特征选择 特征抽取 低损降维 文本分类
在线阅读 下载PDF
文本分类中基于综合度量的特征选择方法 被引量:7
2
作者 杨杰明 刘元宁 +1 位作者 曲朝阳 刘志颖 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2013年第5期887-893,共7页
针对传统特征选择算法的不足,提出一种新的特征选择算法.该算法能综合度量一个特征在类内和类间的重要性,并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验.实验结果表明,该算法进一步降低了特征向量空间的维... 针对传统特征选择算法的不足,提出一种新的特征选择算法.该算法能综合度量一个特征在类内和类间的重要性,并在3个不同的数据集上利用2个分类器与5个现有的特征选择方法进行了对比实验.实验结果表明,该算法进一步降低了特征向量空间的维度,并有效提高了分类器的分类性能. 展开更多
关键词 特征选择 文本分类 降维
在线阅读 下载PDF
文本分类中的特征选取 被引量:40
3
作者 刘丽珍 宋瀚涛 《计算机工程》 CAS CSCD 北大核心 2004年第4期14-15,175,共3页
研究了文本分类学习中的特征选取,主要集中在大幅度降维的评估函数,因为高维的特征集对分类学习未必全是重要的和有用的。还介绍了分类的一些方法及其特点。
关键词 文本分类 特征选取 降维
在线阅读 下载PDF
文本分类实现技术 被引量:15
4
作者 王灏 黄厚宽 田盛丰 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期173-179,共7页
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文... 文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展. 展开更多
关键词 文本分类 特征提取 维数约简 向量空间模型 相似度 组合模型
在线阅读 下载PDF
自动文本分类特征选择方法研究 被引量:45
5
作者 张海龙 王莲芝 《计算机工程与设计》 CSCD 北大核心 2006年第20期3840-3841,共2页
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据... 文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。 展开更多
关键词 文本分类 特征选择 信息增益 互信息 X^2统计量法 文档频率 低损降维 频率差
在线阅读 下载PDF
结合新型文档频和二进制可辨矩阵的特征选择 被引量:3
6
作者 马春华 朱颢东 钟勇 《计算机应用》 CSCD 北大核心 2009年第8期2268-2271,共4页
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个... 特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。 展开更多
关键词 特征选择 文本分类 文档频 二进制可辨矩阵 粗糙集 属性约简
在线阅读 下载PDF
LSI__LDA:一种混合特征降维方法 被引量:4
7
作者 史庆伟 从世源 唐晓亮 《计算机应用研究》 CSCD 北大核心 2017年第8期2269-2273,共5页
LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特... LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%。实验表明提出的LSI__LDA模型在文本分类中有更好的分类性能。 展开更多
关键词 文本分类 特征降维 潜在语义索引 潜在狄利克雷分配
在线阅读 下载PDF
基于贝叶斯粗糙集的文本特征选择方法 被引量:3
8
作者 朱颢东 钟勇 《河南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2009年第4期31-35,共5页
特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合... 特征选择是文本分类的一个核心研究课题.首先给出了一个基于最小词频的文档频,然后简单分析了经典粗糙集和变精度粗糙集的不足,紧接着把贝叶斯粗糙集引入进来并提出了一个属性约简算法,最后把该属性约简算法同基于最小词频的文档频结合起来,提出了一个综合的特征选择方法.该综合方法首先利用基于最小词频的文档频提取初始特征,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,该算法是有效的. 展开更多
关键词 特征空间 文本分类 文档频 贝叶斯粗糙集 属性约简
在线阅读 下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
9
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 短文本聚类 向量空间模型 数据降维 特征权值
在线阅读 下载PDF
结合类内集中度和最小集合覆盖的特征选择
10
作者 张文鹏 李红婵 王兴 《计算机工程与应用》 CSCD 北大核心 2011年第28期124-127,共4页
特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选... 特征选择是文本分类中的核心研究课题之一。简单分析了词频和文档频,在此基础上提出了类内集中度,把集合覆盖的思想引入粗糙集并提出了一个基于最小集合覆盖的属性约简算法,把该属性约简算法同类内集中度结合起来,提出了一个新的特征选择方法。该方法利用类内集中度进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,利用所提约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。 展开更多
关键词 特征选择 文本分类 词频 文档频 粗糙集 属性约简
在线阅读 下载PDF
结合差别对象对集的综合性特征选择方法
11
作者 朱颢东 周姝 钟勇 《计算机工程与设计》 CSCD 北大核心 2010年第3期622-625,共4页
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法。该特征... 特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法。该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余。仿真结果表明该特征选择方法性能较好。 展开更多
关键词 特征选择 文本分类 文档频 差别对象对集 属性约简
在线阅读 下载PDF
DICV文本分类研究框架
12
作者 李纲 夏晨曦 《情报学报》 CSSCI 北大核心 2007年第6期803-807,共5页
文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响。比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相... 文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响。比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相同的方法,使它们在相同的条件下运行。本文提出了文本分类的DICV研究框架,该框架包括核心数据(core data)、文本索引(text indexing)、分类算法(classification algorithm)和可视化界面(visualization interface)4个模块。该框架设计的重点在于:①提炼一个统一的文本分类模型,为每个步骤的算法提供一个接口,实现了这个接口的算法就可以通过简单的配置应用于框架中,这使得研究者可以方便地选择各种文本索引、特征降维和分类算法,或添加新的文本集和算法,来完成其需要的文本分类实验。②自动记录文本分类实验各个步骤使用的算法、参数和结果,这使得系统能够将研究者的选择和实验步骤的中间结果记录下来,供研究者在后续研究中使用,可避免不必要的重复性工作,提高文本分类研究的效率。 展开更多
关键词 文本分类 文本索引 特征降维
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部