期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于WordNet概念向量空间模型的文本分类 被引量:16
1
作者 张剑 李春平 《计算机工程与应用》 CSCD 北大核心 2006年第4期174-178,共5页
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表... 文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 展开更多
关键词 文本自动分类 wordnet 概念向量 向量空间模型
在线阅读 下载PDF
基于多约简Fisher-VSM和SVM的文本情感分类 被引量:1
2
作者 邢玉娟 谭萍 曹晓丽 《计算机应用与软件》 CSCD 2016年第9期301-305,共5页
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从... 为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。 展开更多
关键词 文本情感分类 Fisher判别比 向量空间模型 支持向量机
在线阅读 下载PDF
基于概念层次的英文文本自动分类研究 被引量:3
3
作者 厉宇航 罗振声 程慕胜 《计算机工程与应用》 CSCD 北大核心 2004年第11期75-77,共3页
该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法... 该文意在设计并且实现一个针对英文文本的自动归类以及检索系统,重点在于提高分类方法的准确率。自动文本分类系统中,一般来说文本内容是以N维特征空间的形式存储的,所以特征提取的方法和准确率极大地影响到分类结果的正确率。传统方法是基于词形的,并不考察词语的意义,忽略了同一意义下词形的多样性、不确定性以及词义之间的关系,尤其是上下位关系。该文提出的方法,在向量空间模型(VSM)的基础上,以“概念”为基础,同时考虑词义的上位关系,使得训练过程中可以从词语中提炼出更加概括性的信息,从而达到提高分类精度的目的。 展开更多
关键词 自动文本分类 概念层次 vsm wordnet
在线阅读 下载PDF
基于概念扩充的文本过滤模型 被引量:9
4
作者 尤文建 李绍滋 李堂秋 《计算机工程与应用》 CSCD 北大核心 2003年第25期74-77,共4页
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用... 该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。 展开更多
关键词 概念扩充 向量空间 用户模板 文本表示 wordnet
在线阅读 下载PDF
基于循环迭代算法改进的TFIDF方法及应用 被引量:2
5
作者 王行恒 曹军 +2 位作者 邓学 刘垚 高适 《计算机应用与软件》 CSCD 北大核心 2012年第11期305-308,共4页
文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的... 文本聚类是指自动地将文本集合分组为不同的类别,应用非常广泛。研究发现,传统的TFIDF文本分类方法存在很多的不足,针对这些不足提出改进。通过使用循环迭代算法根据特征词在类内和类间的分布情况不断优化特征词的选取,获得不断改进的分类。采用支持向量机分类器对文本分类。通过对大批量的数据集测试,该算法显示出较好的特征选择效果,能够有效地提高分类精度。 展开更多
关键词 TFIDF 文本聚类 文本分类 vsm 支持向量机 SVM 迭代算法
在线阅读 下载PDF
一种英文自动摘要方法 被引量:2
6
作者 张燕 赵广社 郭培胜 《计算机工程与应用》 CSCD 北大核心 2009年第7期135-137,共3页
随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Tex... 随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Text Summarization)。该方法采用WordNet对向量空间模型的特征词进行概念统计,计算每个概念词的TF-ISF值作为其权值,最后计算每个句子的LexRank权值并提取出权值最高的几个句子作为摘要。实验结果表明,TLETS方法能很好地得到摘要结果。 展开更多
关键词 单文本 摘要 wordnet 向量空间模型 概念统计
在线阅读 下载PDF
基于句类特征的作者写作风格分类研究 被引量:20
7
作者 张运良 朱礼军 +1 位作者 乔晓东 张全 《计算机工程与应用》 CSCD 北大核心 2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it... 不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。 展开更多
关键词 文本分类 作者写作风格 句类 向量空间模型 概念层次网络(HNC)理论 自然语言理解
在线阅读 下载PDF
概念推理网及其在文本分类中的应用 被引量:57
8
作者 李晓黎 刘继敏 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1032-1038,共7页
在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类... 在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类的文档可以激活相应的网络 ,同时传播推理以决定其类别的归属 ,试验表明 :该方法具有较高的分类正确率与召回率 . 展开更多
关键词 文本分类 向量空间模型 概念推理网 机器学习
在线阅读 下载PDF
基于大规模文本的蛋白质交互关系自动提取 被引量:6
9
作者 封二英 牛耘 魏欧 《计算机应用》 CSCD 北大核心 2012年第A01期147-150,共4页
针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法。首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本... 针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法。首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类。比较了四种对向量的特征进行加权和特征选择的方案。实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担。 展开更多
关键词 蛋白质交互 大规模文本 向量空间模型 支持向量机 文本分类
在线阅读 下载PDF
基于正交分解的文本分类模型 被引量:3
10
作者 熊忠阳 李智星 +1 位作者 张玉芳 江帆 《计算机工程》 CAS CSCD 北大核心 2009年第14期227-229,共3页
针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量... 针对文本分类领域中向量空间模型维数过高和空间扭曲的问题,提出一种基于正交分解的新模型。借用物理学中力的正交分解,将高维的文本向量映射到低维的以类别为坐标轴的空间中,解决了高维的向量和扭曲的空间这2个问题。实验表明,与向量空间模型相比,新模型下分类速度有较大提高,精度也有所增加。 展开更多
关键词 文本分类 正交分解 向量空间模型
在线阅读 下载PDF
基于情感角色模型的文本情感分类方法 被引量:3
11
作者 胡杨 戴丹 +3 位作者 刘骊 冯旭鹏 刘利军 黄青松 《计算机应用》 CSCD 北大核心 2015年第5期1310-1313,1319,共5页
针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评... 针对传统情感分类方法因情感项指向不明引发的误判和隐藏观点遗漏等问题,提出一种基于评价对象情感角色模型的文本情感分类方法。该方法首先识别文本中的潜在评价对象,通过局部语义分析对潜在评价对象所在语句进行情感标注,确定潜在评价对象所在语句的正负极性,并定义其情感角色;然后,改进特征权值计算方法,将情感角色对应的倾向值融入模型特征空间中;最后,通过特征聚合对特征空间实现模型降维。实验结果表明,所提方法与提取强主观性情感项作为特征的情感分类方法相比,分类准确率约提高3.2%,可有效改善文本情感分类效果。 展开更多
关键词 文本情感分类 向量空间模型 局部语义分析 情感角色 特征聚合
在线阅读 下载PDF
基于类别空间模型的文本分类系统的设计与实现 被引量:11
12
作者 黄冉 郭嵩山 《计算机应用研究》 CSCD 北大核心 2005年第8期60-63,共4页
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。
关键词 文本分类 向量空间模型 类别空间模型
在线阅读 下载PDF
基于LDA主题模型的软件缺陷分派方法 被引量:11
13
作者 黄小亮 郁抒思 关佶红 《计算机工程》 CAS CSCD 北大核心 2011年第21期46-48,共3页
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维... 传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。 展开更多
关键词 软件缺陷分派 隐含狄利克雷分配模型 马尔可夫链蒙特卡洛方法 吉布斯采样 文本分类 向量空间模型
在线阅读 下载PDF
基于句类向量空间模型的自动文本分类研究 被引量:6
14
作者 张运良 张全 《计算机工程》 CAS CSCD 北大核心 2007年第22期45-47,共3页
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,... 向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 展开更多
关键词 文本分类 句类 向量空间模型 HNC理论
在线阅读 下载PDF
基于概念簇的文本向量构建方法 被引量:2
15
作者 冯扬 罗森林 +2 位作者 潘丽敏 刘莉莉 陈开江 《通信学报》 EI CSCD 北大核心 2010年第S1期44-47,共4页
为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类... 为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类的效果,证明了基于概念簇的文本向量构建方法能提高文本向量对文本概念逼近的准确程度,同时也提高了不同类型文本之间的区分度。 展开更多
关键词 中文信息处理 文本向量 概念簇 文本分类
在线阅读 下载PDF
基于概念向量空间模型的电子邮件分类
16
作者 曾超 吕钊 顾君忠 《计算机应用》 CSCD 北大核心 2008年第12期3248-3250,共3页
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量... 提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。 展开更多
关键词 电子邮件分类 wordnet 概念向量 向量空间模型
在线阅读 下载PDF
基于概念空间的文本分类研究 被引量:3
17
作者 黄海英 林士敏 严小卫 《计算机科学》 CSCD 北大核心 2003年第3期46-49,共4页
Following the expanding of VSM and LSI, a text classification based on Concept Space is proposed in thispaper. Information gaining is applied to acquire concepts based on large training set. Concept Space is built by ... Following the expanding of VSM and LSI, a text classification based on Concept Space is proposed in thispaper. Information gaining is applied to acquire concepts based on large training set. Concept Space is built by acquir-ing latent semantic indexing data, building a latent semantic space by LSI, and then adding the class-basis vector. Thecalculating method of the word-similarity, the text-similarity, the similarity of the text vector and the class-basis vec-tor in Concept Space are presented. Experiment results show the Concept Space method is superior to Vector SpaceModel. This paper also discusses the future work the problem of concept space learning. 展开更多
关键词 概念空间 文本分类 INTERNET 知识库 信息增益
在线阅读 下载PDF
基于概念特征的语义文本分类 被引量:4
18
作者 林伟 孟凡荣 王志晓 《计算机工程与应用》 CSCD 北大核心 2011年第28期139-142,共4页
文本分类是组织和处理海量文本信息的关键方法。目前的文本分类模型多用关键词特征向量描述文本资源,造成向量的高维性和稀疏性。引入文本资源的概念特征,将文本资源描述由关键词级提升至概念级,提高文本资源描述的准确性,并提出了基于... 文本分类是组织和处理海量文本信息的关键方法。目前的文本分类模型多用关键词特征向量描述文本资源,造成向量的高维性和稀疏性。引入文本资源的概念特征,将文本资源描述由关键词级提升至概念级,提高文本资源描述的准确性,并提出了基于概念特征的语义文本分类模型。仿真实验的结果表明,该模型能有效克服资源特征向量空间的高维性和稀疏性,确保向量空间的正交性,在语义文本分类的效率和正确性上都有良好的表现。 展开更多
关键词 语义文本分类 概念特征 本体 支持向量机
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部