期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
基于KNN的Web文本分类方法的研究 被引量:8
1
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 KNN算法 特征提取 web文本 文本分类
在线阅读 下载PDF
Web文档中词语权重计算方法的改进 被引量:14
2
作者 初建崇 刘培玉 王卫玲 《计算机工程与应用》 CSCD 北大核心 2007年第19期192-194,198,共4页
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,... 以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。 展开更多
关键词 向量空间模型 web文本分类 权重调整 互信息
在线阅读 下载PDF
Web网页文本特征选择方法研究 被引量:4
3
作者 李会 王立峰 《计算机工程与设计》 CSCD 北大核心 2010年第16期3724-3727,共4页
提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低... 提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。 展开更多
关键词 特征选择 文本分类 噪音文本 web 决定性特征
在线阅读 下载PDF
智能Web浏览器及其关键技术 被引量:4
4
作者 应晓敏 窦文华 《计算机科学》 CSCD 北大核心 2001年第9期29-33,共5页
With the exponential growth of the Wold Wide Web ,there is also a growing demand in intelligent Web browser(IWB),which can provide users with personal services like guiding users while searching the Web,filtering the ... With the exponential growth of the Wold Wide Web ,there is also a growing demand in intelligent Web browser(IWB),which can provide users with personal services like guiding users while searching the Web,filtering the information that users aren't interested in,notifying users when there are valuable changes in the Web sites or pages that users care,and so on. In this paper,we introduce some former researches ,present the architecture of the IWB,describe its main functions ,and discuss key techniques in the resarch of IWB. 展开更多
关键词 WWW web 智能浏览器 电子邮件
在线阅读 下载PDF
基于Tabu的Deep Web特征选择算法 被引量:1
5
作者 谭春亮 甘丹 +1 位作者 陈丽娜 蒋运承 《计算机工程与设计》 CSCD 北大核心 2008年第13期3358-3361,3473,共5页
Deep Web分类的小样本、高维特征的特点限制了分类算法的选择,影响分类器的设计和准确度,降低了分类器的"泛化"能力,出现分类器"过拟合",所以需要进行特征选择,降低特征的维数,避免"维数灾难"。目前,没有... Deep Web分类的小样本、高维特征的特点限制了分类算法的选择,影响分类器的设计和准确度,降低了分类器的"泛化"能力,出现分类器"过拟合",所以需要进行特征选择,降低特征的维数,避免"维数灾难"。目前,没有Deep Web特征选择自动算法的相关研究。通过对Deep Web分类的特征选择进行研究,提出了基于类别可分性判据和Tabu搜索的特征选择算法,可以在2的时间复杂度内得到次优的特征子集,减小了分类器设计的难度,提高了分类器分类准确率。根据特征选择前后的特征集,利用KNN分类算法进行Deep Web分类,结果表明提高了分类器的分类准确率,降低了分类算法的时间复杂度。 展开更多
关键词 特征选择 TABU搜索算法 深层网络 信息检索 分类算法 分类器
在线阅读 下载PDF
基于Web文本挖掘的论坛监控系统的设计 被引量:2
6
作者 邓娜娜 朱艺恺 胡文俊 《计算机应用与软件》 CSCD 2009年第12期161-163,共3页
当前BBS论坛日益成为人们通过网络进行信息交换的中心,被越来越多的用户使用。为了营造一个健康的网络环境,从网页抓取、信息抽取到主要的文本挖掘技术中文分词、特征表示和提取、文本分类和聚类等方面进行了详细的介绍,同时阐述了其工... 当前BBS论坛日益成为人们通过网络进行信息交换的中心,被越来越多的用户使用。为了营造一个健康的网络环境,从网页抓取、信息抽取到主要的文本挖掘技术中文分词、特征表示和提取、文本分类和聚类等方面进行了详细的介绍,同时阐述了其工作原理。此系统不仅可以防止恶意言论的传播,还大大节约了人力,极大地提高了工作效率。 展开更多
关键词 网页抓取 信息抽取 中文分词 特征抽取 文本分类 文本聚类
在线阅读 下载PDF
KNN特征增强与互信息特征选择的两阶段多维分类方法 被引量:1
7
作者 李二超 张宝新 贾彬彬 《计算机工程与应用》 北大核心 2025年第15期167-177,共11页
现有多维分类的特征增强方法虽丰富了特征空间,但对特征内在质量缺乏有效评估,易引入冗余,影响分类性能。提出基于KNN特征增强与互信息特征选择的两阶段多维分类方法KMFM。第一阶段通过KNN特征增强扩展特征空间,第二阶段基于互信息评估... 现有多维分类的特征增强方法虽丰富了特征空间,但对特征内在质量缺乏有效评估,易引入冗余,影响分类性能。提出基于KNN特征增强与互信息特征选择的两阶段多维分类方法KMFM。第一阶段通过KNN特征增强扩展特征空间,第二阶段基于互信息评估并筛选相关性最强的特征子集,且通过计算类别空间组合熵考虑类别变量间的依赖关系。在10个基准数据集上的实验结果表明,KMFM在汉明分值、精确匹配和亚精确匹配指标上相比现有方法取得显著提升。在90种配置中,KMFM实现77.8%的最佳表现;与只采用特征增强的KRAM相比,性能提升显著;与只进行互信息特征选择MIFS相比,分类性能在9个指标上全面优越,充分说明了该算法的有效性和泛用性。 展开更多
关键词 多维分类 特征增强 特征选择 互信息 类依赖
在线阅读 下载PDF
一种基于向量空间模型的多层次文本分类方法 被引量:75
8
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
在线阅读 下载PDF
基于互信息最大化的特征选择算法及应用 被引量:35
9
作者 唐亮 段建国 +1 位作者 许洪波 梁玲 《计算机工程与应用》 CSCD 北大核心 2008年第13期130-133,共4页
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互... 该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。 展开更多
关键词 文本分类 特征选择 交叉熵 信息增益 互信息最大化
在线阅读 下载PDF
文本分类中特征选择的约束研究 被引量:26
10
作者 徐燕 李锦涛 +2 位作者 王斌 孙春明 张森 《计算机研究与发展》 EI CSCD 北大核心 2008年第4期596-602,共7页
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评... 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. 展开更多
关键词 特征选择 文本分类 信息检索 信息增益 互信息
在线阅读 下载PDF
基于信息增益的文本特征选择方法 被引量:32
11
作者 任永功 杨荣杰 +1 位作者 尹明飞 马名威 《计算机科学》 CSCD 北大核心 2012年第11期127-130,共4页
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权... 在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文本特征选择方法(TDpIG)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。通过对比实验表明,选取的特征具有更好的分类性能。 展开更多
关键词 特征选择 文本分类 信息增益值 冗余特征 不平衡数据集
在线阅读 下载PDF
领域术语自动抽取及其在文本分类中的应用 被引量:31
12
作者 刘桃 刘秉权 +1 位作者 徐志明 王晓龙 《电子学报》 EI CAS CSCD 北大核心 2007年第2期328-332,共5页
本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能... 本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度. 展开更多
关键词 领域术语 信息熵 正规化 文本分类 特征选择
在线阅读 下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
13
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
在线阅读 下载PDF
一种改进的互信息特征选取预处理算法 被引量:12
14
作者 卢新国 林亚平 陈治平 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第1期104-107,共4页
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息... 讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度. 展开更多
关键词 互信息 改进互信息 特征选取 文本分类
在线阅读 下载PDF
基于词频的优化互信息文本特征选择方法 被引量:13
15
作者 刘海峰 姚泽清 苏展 《计算机工程》 CAS CSCD 2014年第7期179-182,共4页
互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分... 互信息(MI)是一种常用的文本特征选择方法,经典MI方法未考虑同一个特征项在不同类别内频数的差异性,也未考虑同一个特征在同一类别内的不同文本之间分布上的差异性。针对上述不足,以特征项的频数为依据,分别从特征项的类内分布、类间分布上的差异以及类内不同文本之间分布上的差异等角度,通过引入特征项的类内频数因子、类内位置分布因子以及类间分布因子,提出一种改进的MI文本特征选择方法,使得特征项的频数信息在MI模型中得到有效利用,合理改善互信息模型在文本特征选择方面的不足。文本分类实验结果表明,改进MI文本特征选择方法的平均准确率、召回率分别提高约5.2%及4.6%,平均综合评价指标值提高约4.9%,有效提高了模型的文本分类效率。 展开更多
关键词 文本分类 特征选择 互信息 特征频率 特征降维 类内分布
在线阅读 下载PDF
文本分类中一种基于选择的二次特征降维方法 被引量:8
16
作者 刘海峰 王元元 +1 位作者 姚泽清 陈琦 《情报学报》 CSSCI 北大核心 2009年第1期23-27,共5页
特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类... 特征选择和特征抽取是文本分类中特征降维的主要方法。目前各种特征选择方法主要致力于度量特征与文本类别的相关性,却很少考虑特征之间的冗余性问题,从而影响特征降维的效果。本文提出一种基于选择的两步特征选择方法,既考虑一些类别信息较强的特征的选取,又减少一些类别判定方面的冗余特征,在尽量减少信息损失的前提下达到有效缩减特征维数的目的。对中文文本的分类实验结果表明,本文提出的特征降维方法在文本分类的准确率方面效果较好。 展开更多
关键词 文本分类 特征选择 互信息 期望交叉熵
在线阅读 下载PDF
一个无需词典支持和切词处理的中文文档分类系统 被引量:23
17
作者 周水庚 关佶红 +1 位作者 胡运发 周傲英 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期839-844,共6页
报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统... 报道了一个无需词典支持和切词处理的中文文档分类系统 .其特点是利用 N - gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖 ,实现了中文文档分类的领域无关性和时间无关性 ;采用开放的体系结构使文档分类系统易于功能扩充和性能完善 .测试结果表明该系统具有令人满意的分类性能 . 展开更多
关键词 中文文档分类系统 词典支持 切词处理 中文信息处理 INTERNET
在线阅读 下载PDF
一种改进的基于条件互信息的特征选择算法 被引量:23
18
作者 王卫玲 刘培玉 初建崇 《计算机应用》 CSCD 北大核心 2007年第2期433-435,共3页
目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视,这导致了特征之间预测能力的相互削弱,无法选出最有效的特征。提出了一种新的用于文本分类的特征选择算... 目前在文本分类领域较常用到的特征选择算法中,仅仅考虑了特征与类别之间的关联性,而对特征与特征之间的关联性没有予以足够的重视,这导致了特征之间预测能力的相互削弱,无法选出最有效的特征。提出了一种新的用于文本分类的特征选择算法(CMIM),它可以帮助选出区分能力强、弱相关的特征。经实验验证,CMIM比传统的特征选择算法具有更好的性能。 展开更多
关键词 特征选择 文本分类 条件互信息
在线阅读 下载PDF
基于互信息的文本特征选择方法研究与改进 被引量:23
19
作者 刘健 张维明 《计算机工程与应用》 CSCD 北大核心 2008年第10期135-137,共3页
通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息... 通过对互信息(MI)文本特征选择方法与信息增益、卡方统计方法的实验研究比较,发现了影响MI方法性能的主要因素是特征选择过程中的随机性,通过加入扰动因子的方法对MI方法进行了改进,消除了随机性的影响,实验表明,改进后的MI方法与信息增益、卡方统计方法比较,具有较明显的优势。 展开更多
关键词 互信息 信息增益 CHI 文本分类 特征选择
在线阅读 下载PDF
一种改进的互信息特征选择算法 被引量:7
20
作者 谭金波 黄峰 +1 位作者 杨晓江 李艺 《情报学报》 CSSCI 北大核心 2006年第6期651-656,共6页
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、x^2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表... 本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、x^2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表明,改进型互信息算法要好于其他算法。单字词的去除使分类效果得到提高,说明词特征更能够比较完整地表达语义信息。 展开更多
关键词 层次分类 特征选择 互信息 改进
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部