期刊文献+
共找到167篇文章
< 1 2 9 >
每页显示 20 50 100
Lazy learner text categorization algorithm based on embedded feature selection 被引量:1
1
作者 Yan Peng Zheng Xuefeng +1 位作者 Zhu Jianyong Xiao Yunhong 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2009年第3期651-659,共9页
To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although havin... To avoid the curse of dimensionality, text categorization (TC) algorithms based on machine learning (ML) have to use an feature selection (FS) method to reduce the dimensionality of feature space. Although having been widely used, FS process will generally cause information losing and then have much side-effect on the whole performance of TC algorithms. On the basis of the sparsity characteristic of text vectors, a new TC algorithm based on lazy feature selection (LFS) is presented. As a new type of embedded feature selection approach, the LFS method can greatly reduce the dimension of features without any information losing, which can improve both efficiency and performance of algorithms greatly. The experiments show the new algorithm can simultaneously achieve much higher both performance and efficiency than some of other classical TC algorithms. 展开更多
关键词 machine learning text categorization embedded feature selection lazy learner cosine similarity.
在线阅读 下载PDF
基于IMI-WNB算法的垃圾邮件过滤技术研究 被引量:3
2
作者 刘洁 王铮 王辉 《计算机工程》 CAS CSCD 北大核心 2020年第12期299-304,312,共7页
互信息和朴素贝叶斯算法应用于垃圾邮件过滤时,存在特征冗余和独立性假设不成立的问题。为此,提出一种改进互信息的加权朴素贝叶斯算法。针对互信息效率较低的问题,通过引入词频因子与类间差异因子,提出一种改进的互信息特征选择算法,... 互信息和朴素贝叶斯算法应用于垃圾邮件过滤时,存在特征冗余和独立性假设不成立的问题。为此,提出一种改进互信息的加权朴素贝叶斯算法。针对互信息效率较低的问题,通过引入词频因子与类间差异因子,提出一种改进的互信息特征选择算法,从而实现更高效的特征降维。针对朴素贝叶斯分类算法的独立性假设问题,在朴素贝叶斯分类时使用改进互信息值进行特征加权,消除部分朴素贝叶斯条件独立性假设对邮件分类的不利影响。实验结果表明,相比传统朴素贝叶斯算法,该算法提高了垃圾邮件过滤的精确度、召回率与稳定性。 展开更多
关键词 互信息 垃圾邮件过滤 加权朴素贝叶斯算法 特征选择 词频
在线阅读 下载PDF
文本分类中基于基尼指数的特征选择算法研究 被引量:38
3
作者 尚文倩 黄厚宽 +3 位作者 刘玉玲 林永民 瞿有利 董红斌 《计算机研究与发展》 EI CSCD 北大核心 2006年第10期1688-1694,共7页
随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的... 随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类技术变得越来越重要,自动文本分类已成为处理和组织大量文档数据的关键技术.对于采用矢量空间模型(VSM)的大多数分类器来说,文本预处理成为分类的瓶颈,高维的特征空间对于大多数分类器来说是难以忍受的,因此采用适当的文本特征选择算法降低原始文本特征空间的维数成为文本分类的首要任务.目前也有很多的文本特征选择算法,介绍了另一种新的基于基尼指数的文本特征选择算法,使用基尼指数原理进行了文本特征选择的研究,构造了基于基尼指数的适合于文本特征选择的特征选择评估函数.实验表明,基于基尼指数的文本特征选择能进一步提高分类性能,而且计算复杂度小. 展开更多
关键词 文本分类 文本特征选择 基尼指数 文本预处理
在线阅读 下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:56
4
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 TF-IDF 信息增益 互信息量
在线阅读 下载PDF
基于区分类别能力的高性能特征选择方法 被引量:83
5
作者 徐燕 李锦涛 +1 位作者 王斌 孙春明 《软件学报》 EI CSCD 北大核心 2008年第1期82-89,共8页
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之... 特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准. 展开更多
关键词 特征选择 文本分类 信息检索
在线阅读 下载PDF
文本挖掘技术研究进展 被引量:60
6
作者 袁军鹏 朱东华 +2 位作者 李毅 李连宏 黄进 《计算机应用研究》 CSCD 北大核心 2006年第2期1-4,共4页
文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视... 文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程,已经成为数据挖掘中一个日益流行而重要的研究领域。首先给出了文本挖掘的定义和框架,对文本挖掘中预处理、文本摘要、文本分类、聚类、关联分析及可视化技术进行了详尽的分析,并归纳了最新的研究进展。最后指出了文本挖掘在知识发现中的重要意义,展望了文本挖掘在信息技术中的发展前景。 展开更多
关键词 文本挖掘 中文分词 特征选取 文本摘要 文本分类 文本聚类 关联分析 数据可视化
在线阅读 下载PDF
统计模式识别中的维数削减与低损降维 被引量:44
7
作者 宋枫溪 高秀梅 +1 位作者 刘树海 杨静宇 《计算机学报》 EI CSCD 北大核心 2005年第11期1915-1922,共8页
较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器———贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选... 较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器———贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选择方法———低损降维.在标准数据集Reuters-21578上进行的仿真实验结果表明,与互信息、χ2统计量以及文档频率这三种主流文本特征选择方法相比,低损降维的降维效果与互信息、χ2统计量相当,而优于文档频率. 展开更多
关键词 维数削减 特征选择 特征抽取 低损降维 文本分类
在线阅读 下载PDF
一种基于特征重要度的文本分类特征加权方法 被引量:25
8
作者 刘赫 刘大有 +1 位作者 裴志利 高滢 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1693-1703,共11页
针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表... 针对文本分类中的特征加权问题,提出了一种基于特征重要度的特征加权方法.该方法基于实数粗糙集理论,通过定义特征重要度,将特征对分类的决策信息引入到特征权重中.然后,在标准文本数据集Reuters-21578 Top10和WebKB上进行了实验.结果表明,该方法能改善样本空间的分布状态,使同类样本更加紧凑,异类样本更加松散,从而简化从样本到类别的映射关系.最后,使用Nave Bayes,kNN和SVM分类器在上述数据集上对该方法进行了实验.结果表明,该方法能提高分类的准确率、召回率和F1值. 展开更多
关键词 文本分类 特征加权 特征重要度 粗糙集 决策表
在线阅读 下载PDF
文本分类中特征选择的约束研究 被引量:26
9
作者 徐燕 李锦涛 +2 位作者 王斌 孙春明 张森 《计算机研究与发展》 EI CSCD 北大核心 2008年第4期596-602,共7页
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评... 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. 展开更多
关键词 特征选择 文本分类 信息检索 信息增益 互信息
在线阅读 下载PDF
中文文本分类中特征抽取方法的比较研究 被引量:230
10
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2004年第1期26-32,共7页
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ... 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 文本自动分类 特征抽取 支持向量机 KNN
在线阅读 下载PDF
基于类别特征域的文本分类特征选择方法 被引量:21
11
作者 赵世奇 张宇 +3 位作者 刘挺 陈毅恒 黄永光 李生 《中文信息学报》 CSCD 北大核心 2005年第6期21-27,共7页
特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,... 特征选择是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。本文介绍了一种基于类别特征域的特征选择方法。该方法首先利用“组合特征抽取”[1]的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。实验表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,并能显著提高文本分类系统的性能。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别特征域
在线阅读 下载PDF
基于类信息的文本特征选择与加权算法研究 被引量:8
12
作者 吕震宇 林永民 +2 位作者 赵爽 陈景年 朱卫东 《计算机工程与应用》 CSCD 北大核心 2008年第20期145-147,158,共4页
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特... 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。 展开更多
关键词 文本分类 特征选择 特征加权 基尼指数
在线阅读 下载PDF
基于类别分布的特征选择框架 被引量:18
13
作者 靖红芳 王斌 +1 位作者 杨雅辉 徐燕 《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1586-1593,共8页
目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵... 目前已有很多种特征选择方法,但就目前所知,没有一种方法能够在非平衡语料上取得很好的效果.依据特征在类别间的分布特点提出了基于类别分布的特征选择框架.该框架能够利用特征的分布信息选出具有较强区分能力的特征,同时允许给类别灵活地分配权重,分配较大的权重给稀有类别则提高稀有类别的分类效果,所以它适用于非平衡语料,也具有很好的扩展性.另外,OCFS和基于类别分布差异的特征过滤可以看作该框架的特例.实现该框架得到了具体的特征选择方法,Retuers-21578语料及复旦大学语料等两个非平衡语料上的实验表明,它们的Macro和Micro F1效果都优于IG,CHI和OCFS. 展开更多
关键词 特征选择 非平衡语料 特征降维 文本分类 数据挖掘
在线阅读 下载PDF
文本特征加权方法TF·IDF的分析与改进 被引量:10
14
作者 林永民 吕震宇 +1 位作者 赵爽 朱卫东 《计算机工程与设计》 CSCD 北大核心 2008年第11期2923-2925,2929,共4页
TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针... TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。 展开更多
关键词 文本分类 特征选择 特征加权 向量空间模型
在线阅读 下载PDF
文本分类中结合评估函数的TEF-WA权值调整技术 被引量:26
15
作者 唐焕玲 孙建涛 陆玉昌 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期47-53,共7页
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整... 文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的. 展开更多
关键词 向量空间模型(VSM) 特征选择 权重调整 特征评估函数 文本分类
在线阅读 下载PDF
文本分类中基于位置和类别信息的一种特征降维方法 被引量:9
16
作者 刘海峰 王元元 +1 位作者 张学仁 姚泽清 《计算机应用研究》 CSCD 北大核心 2008年第8期2292-2294,共3页
从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高... 从文本特征项所处的位置角度提出了特征项基于位置的降维方法;同时结合特征的类别分布进行了二次特征降维。这种基于位置和类别相结合的特征降维方法在最大程度减少信息损失的条件下,实现了特征维数的有效压缩。实验表明,该方法有较高的文本分类效率。 展开更多
关键词 文本分类 特征选择 特征降维 位置加权 类别分布
在线阅读 下载PDF
文本挖掘研究进展 被引量:15
17
作者 湛燕 陈昊 +1 位作者 袁方 王丽娟 《河北大学学报(自然科学版)》 CAS 2003年第2期221-226,共6页
数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究... 数据挖掘是将人工智能技术和数据库技术紧密结合 ,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式 ,以满足人们不同应用的需要 .由于存储信息最多的自然形式就是文本 ,因此文本挖掘具有重要的意义 .结合笔者研究工作 ,主要介绍了文本挖掘的研究内容 ,挖掘过程 ,挖掘算法及应用前景 . 展开更多
关键词 文本挖掘 特征选取 文本分类 文本聚类
在线阅读 下载PDF
一种组合型中文文本分类特征选择方法 被引量:9
18
作者 刘海峰 王元元 刘守生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第4期208-211,共4页
根据基于频数分布和基于互信息的特征选择模式的特点,将传统的tf-idf因子以及基于互信息的特征选择方法分别进行了改进,并在此基础上提出了一种新的组合型特征选择方法。试验结果表明,该算法提高了文本分类的准确率。
关键词 特征选择 文本分类 特征权重 互信息
在线阅读 下载PDF
中文文本分类相关算法的研究与实现 被引量:13
19
作者 徐沛娟 李雄飞 +1 位作者 惠玥 张桂林 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2009年第4期790-794,共5页
通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中.讨论了特征项的选择及权重的设定,并引进2χ统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时... 通过对分词歧义处理情况的分析,提出一种基于上下文的双向扫描分词算法,对分词词典进行改进,将词组短语的固定搭配引入词典中.讨论了特征项的选择及权重的设定,并引进2χ统计量参与项的权值计算,解决了目前通用TF-IDF加权法的不足,同时提出了项打分分类算法,提高了特征项对于文本分类的有效性.实验结果表明,改进后的权重计算方法性能更优越. 展开更多
关键词 文本分类 上下文双向扫描 向量空间模型 权重 特征选择
在线阅读 下载PDF
中文文本分类中的特征选择研究 被引量:166
20
作者 周茜 赵明生 扈旻 《中文信息学报》 CSCD 北大核心 2004年第3期17-23,共7页
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同... 本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别区分词
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部