期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于互信息最大化的特征选择算法及应用 被引量:35
1
作者 唐亮 段建国 +1 位作者 许洪波 梁玲 《计算机工程与应用》 CSCD 北大核心 2008年第13期130-133,共4页
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互... 该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。 展开更多
关键词 文本分类 特征选择 交叉熵 信息增益 互信息最大化
在线阅读 下载PDF
领域术语自动抽取及其在文本分类中的应用 被引量:31
2
作者 刘桃 刘秉权 +1 位作者 徐志明 王晓龙 《电子学报》 EI CAS CSCD 北大核心 2007年第2期328-332,共5页
本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能... 本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度. 展开更多
关键词 领域术语 信息熵 正规化 文本分类 特征选择
在线阅读 下载PDF
基于词频的优化互信息文本特征选择方法 被引量:13
3
作者 刘海峰 姚泽清 苏展 《计算机工程》 CAS CSCD 2014年第7期179-182,共4页
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分... 互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。 展开更多
关键词 文本分类 特征选择 互信息 特征频率 特征降维 类内分布
在线阅读 下载PDF
基于文档频率的特征选择方法 被引量:27
4
作者 杨凯峰 张毅坤 李燕 《计算机工程》 CAS CSCD 北大核心 2010年第17期33-35,38,共4页
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向... 传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。 展开更多
关键词 文本分类 特征选择 文档频率 词频率 支持向量机
在线阅读 下载PDF
一种改进的互信息特征选取预处理算法 被引量:12
5
作者 卢新国 林亚平 陈治平 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第1期104-107,共4页
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息... 讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度. 展开更多
关键词 互信息 改进互信息 特征选取 文本分类
在线阅读 下载PDF
文本分类中一种基于选择的二次特征降维方法 被引量:8
6
作者 刘海峰 王元元 +1 位作者 姚泽清 陈琦 《情报学报》 CSSCI 北大核心 2009年第1期23-27,共5页
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类... 特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。 展开更多
关键词 文本分类 特征选择 互信息 期望交叉熵
在线阅读 下载PDF
基于互信息的文本特征选择方法研究与改进 被引量:23
7
作者 刘健 张维明 《计算机工程与应用》 CSCD 北大核心 2008年第10期135-137,共3页
通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息... 通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息增益、卡方统计方法比较,具有较明显的优势。 展开更多
关键词 互信息 信息增益 CHI 文本分类 特征选择
在线阅读 下载PDF
自动文本分类特征选择方法研究 被引量:45
8
作者 张海龙 王莲芝 《计算机工程与设计》 CSCD 北大核心 2006年第20期3840-3841,共2页
文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据... 文本分类是指根据文本的内容将大量的文本归到一个或多个类别的过程,文本表示技术是文本分类的核心技术之一,而特征选择又是文本表示技术的关键技术之一,对分类效果至关重要。文本特征选择是最大程度地识别和去除冗余信息,提高训练数据集质量的过程。对文本分类的特征选择方法,包括信息增益、互信息、2统计量、文档频率、低损降维和频率差法等做了详细介绍、分析、比较研究。 展开更多
关键词 文本分类 特征选择 信息增益 互信息 X^2统计量法 文档频率 低损降维 频率差
在线阅读 下载PDF
文本分类中改进型CHI特征选择方法的研究 被引量:39
9
作者 裴英博 刘晓霞 《计算机工程与应用》 CSCD 北大核心 2011年第4期128-130,194,共4页
分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上... 分析了影响传统CHI统计方法分类精度的因素,去除了特征项与类别负相关的情况。同时将改进后的方法用于特征词的权重调整,使其分类效果有了明显提高;将分散度、集中度、频度等因素引入到改进后的方法中,提高了其在类分布不均匀语料集上的分类精确度。最后通过实验证明了该方法的有效性和可行性。 展开更多
关键词 文本分类 特征选择 CHI统计 权值调整 分散度 集中度 频度
在线阅读 下载PDF
一种基于改进互信息和信息熵的文本特征选择方法 被引量:14
10
作者 成卫青 唐旋 《南京邮电大学学报(自然科学版)》 北大核心 2013年第5期63-68,共6页
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低。文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有... 互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低。文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词。实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的。 展开更多
关键词 特征选择 文本分类 评价函数 互信息 信息熵
在线阅读 下载PDF
文本分类中互信息特征选择方法的研究与算法改进 被引量:15
11
作者 辛竹 周亚建 《计算机应用》 CSCD 北大核心 2013年第A02期116-118,152,共4页
在深入研究传统互信息特征选择方法的基础上,详细分析了该算法分类精确度不高的原因。针对传统互信息算法中的负相关现象以及倾向于选择低频特征词的问题,提出一种基于互信息的特征优化选择方法。该方法在综合考虑频度、集中度、分散度... 在深入研究传统互信息特征选择方法的基础上,详细分析了该算法分类精确度不高的原因。针对传统互信息算法中的负相关现象以及倾向于选择低频特征词的问题,提出一种基于互信息的特征优化选择方法。该方法在综合考虑频度、集中度、分散度等因素的基础上,通过引入三个调整参数,有效地保证了负相关特征在文本分类中不可忽视的作用,并且提高了高频词汇的选择比重。实验表明,改进的方法可以有效地提高文本分类精度,并且具有更好的稳定性。 展开更多
关键词 文本分类 互信息 特征选择 负相关 频度
在线阅读 下载PDF
优化的互信息特征选择方法 被引量:11
12
作者 朱颢东 陈宁 李红婵 《计算机工程与应用》 CSCD 北大核心 2010年第26期122-124,共3页
在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信... 在文本分类中,互信息是一种被广泛应用的特征选择方法,但是该方法仅考虑了特征的文档频而没有考虑特征的词频,导致它经常倾向于选择出现频率较低的特征。为此,提出了一个新的文档频并把它引入到互信息方法中,从而获得了一种优化的互信息方法。该优化的互信息方法不但考虑了特征的文档频而且还考虑了特征出现的词频。实验结果表明该优化的互信息方法性能良好。 展开更多
关键词 文本分类 互信息 特征选择 词频 文档频
在线阅读 下载PDF
基于模糊软集合理论的文本分类方法 被引量:8
13
作者 洪智勇 秦克云 《计算机工程》 CAS CSCD 北大核心 2010年第13期90-92,共3页
为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题... 为提高文本分类精度,提出一种基于模糊软集合理论的文本分类方法。该方法把文本训练集表示成模糊软集合表格形式,通过约简、构造软集合对照表方法找出待分类文本所属类别,并针对文本特征提取过程中由于相近特征而导致分类精度下降问题给出一种基于正则化互信息特征选择算法,有效地解决了上述问题。与传统的KNN和SVM分类算法相比,模糊软集合方法在文本分类的精度和准度上都有所提高。 展开更多
关键词 文本分类 软集合 模糊软集合 特征选择 互信息
在线阅读 下载PDF
基于二次熵的互信息特征选取方法的研究 被引量:2
14
作者 刘丽珍 宋瀚涛 陆玉昌 《计算机科学》 CSCD 北大核心 2004年第12期135-136,168,共3页
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信... 随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。 展开更多
关键词 特征选取 文本分类 特征集 互信息 高维 网页 特征空间 取出 类方 处理
在线阅读 下载PDF
基于类内频率的文本分类特征选择方法 被引量:5
15
作者 崔彩霞 王素格 《计算机工程与设计》 CSCD 北大核心 2007年第17期4249-4251,4265,共4页
随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机... 随着计算机技术和WWW的飞速发展,文本分类已经成为信息检索的关键技术之一,而特征选择对分类效果起着至关重要的作用。对文本分类的4种常用特征选择方法进行了介绍和分析,提出了一种基于类内频率的特征选择方法。选用kNN法和支持向量机作为分类器,利用以上5种文本特征选择方法在平衡语料和非平衡语料上进行了测试。实验结果表明,该方法能够有效选出真正对分类有意义的特征,分类效果较好,尤其适合支持向量机分类器。 展开更多
关键词 文本分类 特征选择 文档频率 信息增益 互信息
在线阅读 下载PDF
基于多特征融合的汉语情感分类研究 被引量:6
16
作者 钟将 邓时滔 《计算机应用研究》 CSCD 北大核心 2012年第1期98-100,共3页
中文情感分类一般分成基于情感词典和基于特征分类两种方法进行研究,但没有考虑过将两种方法得到的特征进行融合来提高分类效果。基于特征分类的方法忽视了特征词在情感词典的褒贬性以及词倾向性的强弱。用基于特征分类方法得到的文本... 中文情感分类一般分成基于情感词典和基于特征分类两种方法进行研究,但没有考虑过将两种方法得到的特征进行融合来提高分类效果。基于特征分类的方法忽视了特征词在情感词典的褒贬性以及词倾向性的强弱。用基于特征分类方法得到的文本特征建立朴素贝叶斯模型,根据特征词在情感词典中的褒贬性及其通过点对互信息方法得到的词性强弱调整情感词的正负后验概率权重,实现两种特征的融合,提高分类效果并降低了特征维数。 展开更多
关键词 文本情感分类 情感词典 点对互信息 特征选择 朴素贝叶斯
在线阅读 下载PDF
基于领域特征词加权的文本相似度计算 被引量:2
17
作者 欧阳宁 罗艳 《计算机工程与设计》 CSCD 北大核心 2012年第11期4338-4342,共5页
为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的... 为了改善一个词可能在多个类别中有较大的互信息而模糊了词的类别信息的问题,提出了一种改进的特征选择方法。该方法利用特征词在不同类别之间的表征差异建立领域特征词(即最能表现一个领域的信息的一系列词)从而可以对用互信息建立的特征集进行再次选择,这样既减少了特征的维数又使特征表示更有效。同时,还设计了一个文本相似度计算系统,系统中改进了传统的tf-idf。实验结果表明,改进的特征选择方法和设计的系统具有良好的性能效果。 展开更多
关键词 互信息 文本分类 特征选择 领域特征词 文本相似度
在线阅读 下载PDF
邮件过滤中特征选择算法的研究及改进 被引量:8
18
作者 卢扬竹 张新有 祁玉 《计算机应用》 CSCD 北大核心 2009年第10期2812-2815,共4页
对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究。在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词... 对基于内容的垃圾邮件过滤技术尤其是特征选择算法进行了研究。在此基础上,对其中的互信息算法进行了分析,并将其与邮件过滤的特点结合起来进行,在频度、集中度及分散度三个指标上进行改进,在原互信息算法已考虑分散度的基础上,引入词频来表征频度,以类别贡献比来衡量特征对分类的贡献,即表征集中度,并给出了改进后的互信息计算公式及算法。最后使用真实邮件训练集进行了邮件分类的实验,实验结果证明对互信息算法的改进能有效提高邮件分类性能。 展开更多
关键词 垃圾邮件 文本分类 特征选择 互信息
在线阅读 下载PDF
基于二次TF* IDF的互信息文本特征选择算法研究 被引量:8
19
作者 王园 龚尚福 《计算机应用与软件》 CSCD 2011年第4期129-131,共3页
在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表... 在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表明该算法在文本分类效率和正确率上比原有方法有一定的提高。 展开更多
关键词 特征选择 文本分类 互信息 TF* IDF
在线阅读 下载PDF
基于TF-CA-CI算法的互信息特征选择改进研究 被引量:3
20
作者 柴加加 张德贤 耿瑞焕 《计算机应用与软件》 CSCD 北大核心 2013年第3期255-257,270,共4页
文本特征选择的互信息算法通常倾向于选择稀有的特征词。针对这一局限性,将词频度、类间耦合度、类内内聚度应用到互信息方法上,提出基于TF-CA-CI算法的互信息改进研究。实验结果表明,改进的方法可以有效地控制互信息在低维数特征选择... 文本特征选择的互信息算法通常倾向于选择稀有的特征词。针对这一局限性,将词频度、类间耦合度、类内内聚度应用到互信息方法上,提出基于TF-CA-CI算法的互信息改进研究。实验结果表明,改进的方法可以有效地控制互信息在低维数特征选择过程中出现的随机性,能够取得较好的分类效果,从而实现了改进方法的有效性和可行性。 展开更多
关键词 特征选择 文本分类 互信息 词频度
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部