期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种基于向量空间模型的多层次文本分类方法 被引量:75
1
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
在线阅读 下载PDF
基于信息增益的文本特征选择方法 被引量:32
2
作者 任永功 杨荣杰 +1 位作者 尹明飞 马名威 《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权... 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 文本分类 信息增益值 冗余特征 不平衡数据集
在线阅读 下载PDF
基于互信息最大化的特征选择算法及应用 被引量:35
3
作者 唐亮 段建国 +1 位作者 许洪波 梁玲 《计算机工程与应用》 CSCD 北大核心 2008年第13期130-133,共4页
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互... 该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。 展开更多
关键词 文本分类 特征选择 交叉熵 信息增益 互信息最大化
在线阅读 下载PDF
集合CHI与IG的特征选择方法 被引量:22
4
作者 王光 邱云飞 史庆伟 《计算机应用研究》 CSCD 北大核心 2012年第7期2454-2456,共3页
通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一特定类,并且使特征词在这一类中出现的次数尽可能地多;最后集合CHI与IG两种算法得到一种集合特征选择方法... 通过分析特征词与类别间的相关性,在原有卡方特征选择和信息增益特征选择的基础上提出了两个参数,使得选出的特征词集中分布在某一特定类,并且使特征词在这一类中出现的次数尽可能地多;最后集合CHI与IG两种算法得到一种集合特征选择方法(CCIF)。通过实验对比传统的卡方特征选择、信息增益和CCIF方法,CCIF方法使得算法的微平均查准率得到了明显的提高。 展开更多
关键词 文本分类 特征选择 卡方统计 信息增益
在线阅读 下载PDF
基于知识语义权重特征的朴素贝叶斯情感分类算法 被引量:11
5
作者 冀俊忠 张玲玲 +1 位作者 吴晨生 吴金源 《北京工业大学学报》 CAS CSCD 北大核心 2014年第12期1884-1890,共7页
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相... 针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法. 展开更多
关键词 语义权重特征 朴素贝叶斯 文本情感分类 信息增益
在线阅读 下载PDF
文本分类中改进型CHI特征选择方法的研究 被引量:39
6
作者 裴英博 刘晓霞 《计算机工程与应用》 CSCD 北大核心 2011年第4期128-130,194,共4页
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上... 分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。 展开更多
关键词 文本分类 特征选择 CHI统计 权值调整 分散度 集中度 频度
在线阅读 下载PDF
基于互信息的文本特征选择方法研究与改进 被引量:23
7
作者 刘健 张维明 《计算机工程与应用》 CSCD 北大核心 2008年第10期135-137,共3页
通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息... 通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息增益、卡方统计方法比较,具有较明显的优势。 展开更多
关键词 互信息 信息增益 CHI 文本分类 特征选择
在线阅读 下载PDF
文本分类中信息增益特征选择算法的改进 被引量:14
8
作者 郭颂 马飞 《计算机应用与软件》 CSCD 北大核心 2013年第8期139-142,共4页
特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异... 特征选择算法对文本分类系统的精确度有很大影响,传统的信息增益特征选择算法通常会导致在指定类别中很少出现而在其他类别中频繁出现的特征被选择出来。为克服这一缺陷,在对传统算法和相关改进算法深入分析的基础上,引入特征分布差异因子、类内和类间加权因子的改进思路,提出一种基于特征分布加权的信息增益改进算法,并分别采用朴素贝叶斯和支持向量机两种分类算法进行实验。实验结果表明,该算法优于其他改进算法。 展开更多
关键词 文本分类 特征选择 信息增益 特征分布加权
在线阅读 下载PDF
文本分类中信息增益特征选择方法的研究 被引量:28
9
作者 郭亚维 刘晓霞 《计算机工程与应用》 CSCD 2012年第27期119-122,127,共5页
分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平... 分析了传统信息增益(IG)特征选择方法忽略了特征项在类间、类内分布信息的缺点,引入类内分散度、类间集中度等因素,区分与类强相关的特征;针对传统信息增益(IG)特征选择方法没有很好组合正相关特征和负相关特征的问题,引入比例因子来平衡特征出现和不出现时的信息量,降低在不平衡语料集上负相关特征的比例,提高分类效果。通过实验证明了改进的信息增益特征选择方法的有效性和可行性。 展开更多
关键词 文本分类 信息增益 特征选择 类内分散度 类间集中度 比例因子
在线阅读 下载PDF
基于索引项权重的文本特征选择方法 被引量:4
10
作者 王海鹃 韩立新 甄志龙 《计算机工程与设计》 CSCD 北大核心 2010年第5期1149-1151,共3页
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证... 为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。 展开更多
关键词 文本分类 特征选择 索引项权重 信息增益 期望交叉熵 文本证据权
在线阅读 下载PDF
基于词频分布信息的优化IG特征选择方法 被引量:9
11
作者 刘海峰 刘守生 宋阿羚 《计算机工程与应用》 CSCD 北大核心 2017年第4期113-117,122,共6页
文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词... 文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。 展开更多
关键词 信息增益 特征选择 类内分布 类间分布 文本分类
在线阅读 下载PDF
基于二进制烟花算法的特征选择方法 被引量:6
12
作者 路永和 陈泳珊 《情报学报》 CSSCI CSCD 北大核心 2017年第3期249-259,共11页
文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设... 文本分类中的特征选择方法对分类性能有重要的影响。烟花算法是一种解决优化问题的群体智能优化方法,而特征选择的本质是离散空间的优化组合问题。本文采用二进制编码方式,将烟花算法应用到特征选择上,通过改进二进制烟花算法及其参数设置,从而达到提高分类性能的目的。实验数据使用中英文两种语料库,其中英文数据使用路透社的21578经典文本分类语料库(Reuters21578)的R8单标签语料集;中文数据使用复旦语料库,每种语料库随机抽取训练文本和测试文本各为1800篇。分别使用KNN、SVM分类器在预选维数为300维、600维、900维、1200维、2000维、3000维、4000维、5000维、10000维中进行实验。结果表明:采用二进制烟花算法对特征词选择进行优化后,其效果优于传统的特征选择方法,且具有良好的稳定性。 展开更多
关键词 词文本分类 特征选择 二进制烟花算法 信息增益 卡方统计量
在线阅读 下载PDF
中文文本分类中基于和声搜索算法的特征选择方法 被引量:5
13
作者 路永和 张宇楠 《情报学报》 CSSCI 北大核心 2015年第11期1203-1213,共11页
特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因... 特征选择是中文文本分类过程的重要预处理环节,特征选择效果直接影响文本的分类准确率。传统的特征选择方法有CHI、IG等,在其他分类预处理环节和分类算法确定的条件下,通过这些传统特征选择方法很难大幅度提高文本分类的准确率。因此,本文在传统特征选择方法的基础上提出一种新的特征选择方法,该方法利用传统的特征选择方法对原始特征进行预选,在此基础上使用和声搜索算法以二进制编码形式对预选特征进行优选,选择与否分别编码为1和0。与此同时,以分类准确率作为个体的适应度,在和声库的初始化中设定一个前半解分量为1、后半解分量为0的初始解向量,以此提高初始和声库中解的适应度。使用搜狗语料库、复旦语料库、中山大学资讯管理学院智能信息处理实验室提供的语料库,每个语料库提取的训练文本和测试文本分别为1800篇和900篇。分别使用KNN、朴素贝叶斯、SVM分类器在预选维数为300维、600维、1200维中进行实验。结果表明,对比传统的特征选择方法,采用二进制和声搜索算法进行特征优选后,其分类准确率均得到提高。 展开更多
关键词 文本分类 特征选择 二进制和声搜索 算法信息 增益卡方统计量
在线阅读 下载PDF
一种基于信息增益的特征选择方法 被引量:12
14
作者 黄志艳 《山东农业大学学报(自然科学版)》 CSCD 北大核心 2013年第2期252-256,共5页
本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类... 本文提出了一种基于信息增益改进的信息增益特征选择选择方法。首先对数据集按类进行特征选择,减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对照不同算法的测评函数值,表明本文选取的特征子集具有更好的分类能力。 展开更多
关键词 特征选择 文本分类 信息增益
在线阅读 下载PDF
一种基于PCA的文本特征混合选择方法 被引量:9
15
作者 张扬武 李国和 +2 位作者 王立梅 宗恒 赵晶明 《计算机应用与软件》 北大核心 2019年第10期23-29,80,共8页
由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段... 由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段利用主成分分析方法将第一阶段输出的仍保持高维特性的高维特征空间映射到低维新特征空间。实验结果表明,与单一的传统方法比较,混合特征选择方法实现了二次降维,不但减少了计算开销,还提高了分类性能。 展开更多
关键词 降维 文本分类 主成分分析 信息增益率 特征选择
在线阅读 下载PDF
基于泊松分布的加权朴素贝叶斯文本分类算法 被引量:13
16
作者 赵博文 王灵矫 郭华 《计算机工程》 CAS CSCD 北大核心 2020年第4期91-96,共6页
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特... 朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法. 展开更多
关键词 文本分类 朴素贝叶斯算法 泊松分布 信息增益率 特征词权重
在线阅读 下载PDF
中文文本体裁的自动分类机制 被引量:5
17
作者 方鸷飞 林鸿飞 +1 位作者 杨志豪 赵晶 《中文信息学报》 CSCD 北大核心 2006年第2期24-32,共9页
文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一... 文本按体裁自动分类属于按文本的形式分类的范畴,所以它与按内容自动分类问题有许多的不同之处,本文提出了一种关于中文文本体裁自动分类的新机制。在体裁分类过程中首要的问题是分类特征的选取,体裁分类特征项分为两种方式加以描述,一是集合形式,如基于分类词典和语料统计的政论性词汇和情感词汇等,二是规则形式,如公文标识信息和条文句等。基于根据特征之间的关联性和差异性,采用样本分布决策的方法抽取相应的特征项。最后利用支撑向量机算法进行自动分类。该机制已经在五类体裁的语料上得到实现,并获得了较好的效果。 展开更多
关键词 计算机应用 中文信息处理 体裁分类 特征项选取 样本分布决策 支撑向量机
在线阅读 下载PDF
改进信息增益的维吾尔文特征选择方法 被引量:3
18
作者 韩军兵 哈力旦.阿布都热依木 +1 位作者 古力努尔.艾尔肯 何燕 《计算机工程与应用》 CSCD 北大核心 2017年第23期34-38,共5页
特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以... 特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。 展开更多
关键词 文本分类 信息增益 类词频 倒逆转文档频率 特征选择
在线阅读 下载PDF
基于改进三体训练法的半监督专利文本分类方法 被引量:10
19
作者 胡云青 邱清盈 +1 位作者 余秀 武建伟 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2020年第2期331-339,共9页
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性.针对传统专利自动分... 针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性.针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用.实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力. 展开更多
关键词 专利文本分类 特征选择 信息增益 半监督 三体训练算法
在线阅读 下载PDF
一种改进的集中度和分散度文本特征选择算法 被引量:1
20
作者 沈友文 赵新建 徐俊 《计算机应用与软件》 CSCD 2011年第9期96-98,125,共4页
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL... 特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用。SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力。 展开更多
关键词 互信息 特征选择 文本分类 特征权重 支持向量机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部