期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于KNN的Web文本分类方法的研究 被引量:8
1
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机应用与软件》 CSCD 北大核心 2007年第10期210-211,共2页
为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的... 为了更有效地组织Internet上丰富的信息资源,通过分析Web文本的特点,提出了基于KNN的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 knn算法 特征提取 web文本 文本分类
在线阅读 下载PDF
Web网页文本特征选择方法研究 被引量:4
2
作者 李会 王立峰 《计算机工程与设计》 CSCD 北大核心 2010年第16期3724-3727,共4页
提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低... 提出了一种用于文本分类的特征选择方法。计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择。实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要。 展开更多
关键词 特征选择 文本分类 噪音文本 web 决定性特征
在线阅读 下载PDF
基于SVM的中文网页分类方法的研究 被引量:22
3
作者 牛强 王志晓 +1 位作者 陈岱 夏士雄 《计算机工程与设计》 CSCD 北大核心 2007年第8期1893-1895,共3页
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取... 中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。 展开更多
关键词 支持向量机 特征提取 核函数 网页 文本分类
在线阅读 下载PDF
一种新的基于统计的自动文本分类方法 被引量:48
4
作者 刘斌 黄铁军 +1 位作者 程军 高文 《中文信息学报》 CSCD 北大核心 2002年第6期18-24,共7页
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上... 自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。 展开更多
关键词 统计 自动文本分类 多层次特征提取 距离加权knn算法 样本重要性分析 汉字识别
在线阅读 下载PDF
基于文档频率的特征选择方法 被引量:27
5
作者 杨凯峰 张毅坤 李燕 《计算机工程》 CAS CSCD 北大核心 2010年第17期33-35,38,共4页
传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向... 传统的文档频率(DF)方法在进行特征选择时仅考虑特征词在类别中出现的DF,没有考虑特征词在每篇文档中出现的词频率(TF)问题。针对该问题,基于特征词在每篇文档中出现的TF,结合特征词在类别中出现的DF提出特征选择的新算法,并使用支持向量机方法训练分类器。实验结果表明,在进行特征选择时,考虑高词频特征词对类别的贡献,可提高传统DF方法的分类性能。 展开更多
关键词 文本分类 特征选择 文档频率 词频率 支持向量机
在线阅读 下载PDF
基于散度差准则的文本特征降维研究 被引量:5
6
作者 刘海峰 王元元 +1 位作者 张学仁 刘守生 《计算机应用研究》 CSCD 北大核心 2008年第7期1971-1973,共3页
研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分... 研究了一种基于散度差准则的文本特征抽取方法。首先讨论了文本分类中特征降维的主要方法及其特点,然后分析了一种基于散度差的准则用于特征降维的原理和方法,从理论上对该方法的相关步骤进行了数学论证。在中文文本分类实验中,对KNN分类器进行了基于密度的改进,消除了由于文本分布倾斜对分类器产生的影响。实验结果表明,这种方法在文本分类的准确性方面效果较为理想。 展开更多
关键词 文本分类 特征选择 特征抽取 特征降维 散度差 knn分类器
在线阅读 下载PDF
面向文本分类的特征词选取方法研究与改进 被引量:7
7
作者 李国和 岳翔 +3 位作者 吴卫江 洪云峰 刘智渊 程远 《中文信息学报》 CSCD 北大核心 2015年第4期120-125,共6页
中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以... 中文特征词的选取是中文信息预处理内容之一,对文档分类有重要影响。中文分词处理后,采用特征词构建的向量模型表示文档时,导致特征词的稀疏性和高维性,从而影响文档分类的性能和精度。在分析、总结多种经典文本特征选取方法基础上,以文档频为主,实现文档集中的特征词频及其分布为修正的特征词选取方法(DC)。采用宏F值和微F值为评价指标,通过实验对比证明,该方法的特征选取效果好于经典文本特征选取方法。 展开更多
关键词 文本文档 特征词 特征选取 文本分类
在线阅读 下载PDF
基于MRMR的文本分类特征选择方法 被引量:9
8
作者 李军怀 付静飞 +2 位作者 蒋文杰 费蓉 王怀军 《计算机科学》 CSCD 北大核心 2016年第10期225-228,共4页
特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_... 特征选择是文本分类技术中重要的处理步骤,特征词选择的优劣直接关系到后续文本分类结果的准确率。使用传统特征选择方法如互信息(MI)、信息增益(IG)、χ2统计量(CHI)等提取的特征词仍存在冗余。针对这一问题,通过结合词频-逆文档率(TF_IDF)和最大相关最小冗余标准(MRMR),提出了一种基于MRMR的特征词二次选取方法 TFIDF_MRMR。实验结果表明,该方法可以较好地减少特征词之间的冗余,提高文本分类的准确率。 展开更多
关键词 特征选择 最大相关最小冗余 词频-逆文档率 文本分类
在线阅读 下载PDF
基于二次熵的互信息特征选取方法的研究 被引量:2
9
作者 刘丽珍 宋瀚涛 陆玉昌 《计算机科学》 CSCD 北大核心 2004年第12期135-136,168,共3页
随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信... 随着全球网络的普及应用,大量没有统一结构和管理的在线资源急需进行处理,高效的网页自动分类方法是从网上海量信息中提取所需信息的关键技术,特征选取又是文本分类挖掘的重要基础,本文以广义信息论为理论基础.提出了基于二次熵的互信息特征选取方法,独立评估特征集中的每个特征,分析特征和类别的关系,从高维的特征空间中选取出对文本分类有效的特征,降低了文本特征空间的维数,提高了文本分类的性能。 展开更多
关键词 特征选取 文本分类 特征集 互信息 高维 网页 特征空间 取出 类方 处理
在线阅读 下载PDF
面向维吾尔文不平衡数据分类的特征选择方法 被引量:3
10
作者 董瑞 周喜 《计算机工程与设计》 CSCD 北大核心 2013年第1期349-352,共4页
为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分... 为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类。在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法。 展开更多
关键词 不平衡数据 文本分类 维吾尔文 特征选择 逆文档频数 卡方 信息增益
在线阅读 下载PDF
基于数据融合的组合特征提取方法的研究 被引量:1
11
作者 谈佳宁 朱玉全 +1 位作者 陈耿 翟国 《计算机工程与设计》 CSCD 北大核心 2009年第10期2529-2532,共4页
针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于... 针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类。在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度。实验结果表明,用数据融合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率。 展开更多
关键词 特征提取 数据集偏斜 数据融合 支持向量机 web文本分类
在线阅读 下载PDF
无需词典支持和切词处理的中文文档分类 被引量:1
12
作者 周水庚 关佶红 胡运发 《高技术通讯》 EI CAS CSCD 2001年第3期31-35,共5页
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
关键词 中文文档分类 N-gram信息 属性选择 贝叶斯分类 knn
在线阅读 下载PDF
一种免疫克隆特征选择算法在文本分类中的应用 被引量:2
13
作者 陈绯 郑华 《计算机工程与科学》 CSCD 北大核心 2009年第9期119-121,共3页
如何选择最能够表达文本主题的特征词,从而减少特征空间维数,是文本分类的一个关键问题。针对此问题本文提出了一种基于向量空间模型(VSM)的免疫克隆特征选择算法。实验表明,该方法能有效提高文本分类正确率,比文档频率方法和遗传算法... 如何选择最能够表达文本主题的特征词,从而减少特征空间维数,是文本分类的一个关键问题。针对此问题本文提出了一种基于向量空间模型(VSM)的免疫克隆特征选择算法。实验表明,该方法能有效提高文本分类正确率,比文档频率方法和遗传算法具有更明显的优势。 展开更多
关键词 文本分类 特征选择 文档频率 遗传算法 免疫克隆算法
在线阅读 下载PDF
基于随机词汇迭代模型的POI分类检索 被引量:1
14
作者 段炼 《计算机应用研究》 CSCD 北大核心 2014年第10期3024-3027,共4页
从特征选择、局部区域划分和词汇语义相似性计算入手,利用随机词汇迭代模型(random terms iterative model,RTIM)进行海量兴趣点(point of interest,POI)文本分类。通过词汇频度、集中度和离散度方法筛选出特征词汇;依据文本与各POI类... 从特征选择、局部区域划分和词汇语义相似性计算入手,利用随机词汇迭代模型(random terms iterative model,RTIM)进行海量兴趣点(point of interest,POI)文本分类。通过词汇频度、集中度和离散度方法筛选出特征词汇;依据文本与各POI类别间的相似度进行局部区域划分;在每个局部区域内基于词汇在文本中的排列顺序构建词频向量,基于词频向量中词频的随机删除和重构,获取特征映射矩阵;通过特征映射矩阵将文本转为特征向量,并采用SVM分类器进行POI文本分类。实验证明,该方法有效提升了POI文本分类准确性和覆盖率。 展开更多
关键词 兴趣点分类 网络文本分类 特征选择 局部特征语义 兴趣点更新 空间信息更新
在线阅读 下载PDF
基于语义扩展的数字文献自动分类方法研究 被引量:5
15
作者 巴志超 朱世伟 +1 位作者 于俊凤 魏墨济 《现代情报》 CSSCI 北大核心 2015年第9期70-74,共5页
针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心... 针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用Max Ent、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。 展开更多
关键词 数字文献 短文本分类 特征选择 语义扩展 分类性能
在线阅读 下载PDF
基于二次TF* IDF的互信息文本特征选择算法研究 被引量:8
16
作者 王园 龚尚福 《计算机应用与软件》 CSCD 2011年第4期129-131,共3页
在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表... 在分析传统互信息法缺陷的基础上,提出一种基于二次TF*IDF的互信息特征选择算法,对仅在一个类别中出现的特征词的重要程度给予再次的衡量,解决了互信息值相等而无法进行有效特征选择的问题。利用贝叶斯分类器对该方法进行验证的结果表明该算法在文本分类效率和正确率上比原有方法有一定的提高。 展开更多
关键词 特征选择 文本分类 互信息 TF* IDF
在线阅读 下载PDF
基于领域相关词汇提取的特征选择方法 被引量:4
17
作者 孙麟 牛军钰 《小型微型计算机系统》 CSCD 北大核心 2007年第5期895-899,共5页
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适... 传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名. 展开更多
关键词 文本分类 文档表示 特征选择 领域相关
在线阅读 下载PDF
一种基于本体论的文本特征选取方法 被引量:1
18
作者 林东文 白清源 +2 位作者 谢丽聪 谢伙生 张莹 《计算机科学》 CSCD 北大核心 2008年第3期152-154,共3页
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法。通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容。实验结果... 针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法。通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容。实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的。 展开更多
关键词 本体 文本特征 文本分类 特征选取
在线阅读 下载PDF
改进信息增益的维吾尔文特征选择方法 被引量:3
19
作者 韩军兵 哈力旦.阿布都热依木 +1 位作者 古力努尔.艾尔肯 何燕 《计算机工程与应用》 CSCD 北大核心 2017年第23期34-38,共5页
特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以... 特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。 展开更多
关键词 文本分类 信息增益 类词频 倒逆转文档频率 特征选择
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部