期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
用于Web文本分类的快速KNN算法 被引量:33
1
作者 王煜 白石 王正欧 《情报学报》 CSSCI 北大核心 2007年第1期60-64,共5页
KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算... KNN算法是一种简单、有效、非参数的web文本分类方法。传统KNN方法的明显缺陷是样本相似度的计算量很大,使其在具有大量高维样本的web文本分类中缺乏实用性。本文提出一种快速查找精确的k个最近邻的FKNN(Fast-k-Nearest-Neighbor)算法。FKNN算法首先选择一个样本作为基准点,并将所有样本按照距基准样本的距离进行排序并建立索引表,然后根据索引表和有序队列查找k个最近邻,减小了查找范围,极大降低了相似度计算量。 展开更多
关键词 knn 文本分类 相似度
在线阅读 下载PDF
一种基于中心文档的KNN中文文本分类算法 被引量:17
2
作者 鲁婷 王浩 姚宏亮 《计算机工程与应用》 CSCD 北大核心 2011年第2期127-130,共4页
在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项... 在浩瀚的数据资源中,为了实现对特定主题的搜索或提取,文本自动分类技术已经成为目前研究的热点。KNN是一种重要的文本自动分类方法,KNN能够处理大规模数据,且具有较高的稳定性,但面临分类速度较慢的问题。以KNN方法为基础,引入特征项间的语义关系,并根据语义关系进行聚类生成中心文档,减少了KNN要搜索的文档数,提高了分类速度。仿真实验表明,该算法在不损失分类精度的情况下,显著提高了分类的速度。 展开更多
关键词 中文文本分类 k最邻近 中心文档 语义相似度 聚类
在线阅读 下载PDF
基于LSA降维的KNN文本分类算法 被引量:7
3
作者 李良俊 张斌 杨明 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2007年第2期33-36,共4页
针对文本自动分类问题,提出了一种基于LSA降维的KNN改进算法.通过对文本特征向量运用LSA理论进行降维处理,可以有效提高KNN算法的运行效率,提高分类精度.实验证明,改进的KNN算法具有很好的性能.
关键词 潜在语义分析 knn 文本分类 降维
在线阅读 下载PDF
一种基于改进KNN的哈萨克语文本分类 被引量:4
4
作者 古丽娜孜 孙铁利 +2 位作者 胡西旦 伊力亚尔 库瓦特拜克 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2014年第2期63-68,共6页
将文本分类理论应用于哈萨克语中,给出了哈萨克语文本预处理过程.介绍一种改进的KNN算法,并结合自己构建的哈萨克语料集实现基于改进KNN算法的哈萨克语的文本分类.仿真实验数据表明,该方法在哈萨克语的文本分类上获得了较好的效果.
关键词 哈萨克语本分类 词干提取 向量空间模型 相似度 knn
在线阅读 下载PDF
一种改进的KNN文本分类 被引量:27
5
作者 钟将 刘荣辉 《计算机工程与应用》 CSCD 2012年第2期142-144,共3页
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表... 在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。 展开更多
关键词 特征降维 潜在语义分析 K-最近邻法 文本分类
在线阅读 下载PDF
用于文本分类的快速KNN算法 被引量:5
6
作者 刘海博 郗亚辉 王煜 《河北大学学报(自然科学版)》 CAS 北大核心 2008年第3期322-326,共5页
KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neigh... KNN(k Nearest Neighbor)算法是一种简单、有效、非参数的文本分类方法.传统的KNN方法有着样本相似度计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性.提出了一种快速查找精确的k个最近邻的TKNN(Tree-k-Nearest-Neighbor)算法,该算法建立一棵用于查找的树,加速k个最近邻的查找.首先以整个样本集合中心为基准,按照距离中心的距离将所有样本进行排序,并等分L组,作为根结点的孩子,每个孩子以同样方式处理,直到每组样本数量在[k,2k]间为止.根据这棵树查找k个最近邻,减小了查找范围,极大地降低了相似度计算量. 展开更多
关键词 knn 文本分类 相似度
在线阅读 下载PDF
两种相似度计算方法对KNN分类效果的影响研究 被引量:5
7
作者 黄莉 李湘东 《情报杂志》 CSSCI 北大核心 2012年第7期177-181,176,共6页
KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的... KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响。多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间。 展开更多
关键词 文本自动分类 分类效果 最邻近算法 相似度 余弦值 Jensen-Shannon 散度
在线阅读 下载PDF
结合语义和文本特征位串的高效KNN算法 被引量:1
8
作者 林啟锋 蒙祖强 +1 位作者 陈秋莲 陈智敏 《计算机工程与设计》 CSCD 北大核心 2013年第7期2417-2421,2469,共6页
为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串... 为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。 展开更多
关键词 概念聚合 语义关联 文本特征位串 K最近邻算法 文本分类
在线阅读 下载PDF
基于语义与最大匹配度的短文本分类研究 被引量:18
9
作者 孙建旺 吕学强 张雷瀚 《计算机工程与设计》 CSCD 北大核心 2013年第10期3613-3618,共6页
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出... 为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法。以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类。实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高。 展开更多
关键词 短文本分类 义原相似度 词语相似度 语义 最大匹配度 knn算法
在线阅读 下载PDF
主题舆情分析中的语义Web文本分类研究 被引量:6
10
作者 王兰成 徐震 《情报学报》 CSSCI 北大核心 2012年第4期340-344,共5页
文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表... 文本分类是网络主题舆情分析中的关键技术,传统Web文本分类将文本关键词的相似度作为分类依据,丢失许多重要的语义信息,导致分类结果不够准确且计算量大.本文提出一种基于语义相似度的Web文本分类方法,利用特定的领域本体将用关键词表示的文本特征向量表示为与之匹配的语义概念特征向量,给出Web文本相似度的计算公式并实现基于语义相似度的KNN算法.结果表明,该方法从语义概念层次上表示和处理Web文本,降低了文本特征空间维度,减少计算量并提高了分类精确度. 展开更多
关键词 本体 语义相似度 文本分类 K最近邻
在线阅读 下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:27
11
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 Word2vec模型 语义词向量 语义相似度 文本分类
在线阅读 下载PDF
基于本体及相似度的文本聚类研究 被引量:9
12
作者 王刚 邱玉辉 《计算机应用研究》 CSCD 北大核心 2010年第7期2494-2497,共4页
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设... 为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。 展开更多
关键词 本体 相似度 文本聚类 语义
在线阅读 下载PDF
一种基于本体相似度计算的文本聚类算法研究 被引量:10
13
作者 王刚 钟国祥 《计算机科学》 CSCD 北大核心 2010年第9期222-224,228,共4页
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Basedon Ontology)。该算法把文档用本体来刻画,以便描述概念的内涵及概... 为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类缺少涉及概念的内涵及概念间的联系,提出了一种基于本体相似度计算的文本聚类算法TCBO(Text Clustering Basedon Ontology)。该算法把文档用本体来刻画,以便描述概念的内涵及概念间的联系。设计和改进了文本相似度计算算法,应用本体的语义相似度来度量文档间相近程度,设计了具体的根据相似度进行文本聚类的算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量。 展开更多
关键词 本体 相似度 文本聚类 语义
在线阅读 下载PDF
结合词性的短文本相似度算法及其在文本分类中的应用 被引量:11
14
作者 黄贤英 李沁东 刘英涛 《电讯技术》 北大核心 2017年第1期78-82,共5页
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对... 针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。 展开更多
关键词 短文本分类 短文本相似度 词性 hownet语义 分类准确率
在线阅读 下载PDF
基于文本聚类和概念相似度的语义Web服务发现 被引量:7
15
作者 刘一松 杨玉成 《计算机科学》 CSCD 北大核心 2013年第11期211-214,共4页
语义Web服务在进行服务发现时,需要按顺序依次匹配注册库中的服务,这将大量时间浪费在不相干的服务上,从而造成服务发现效率低下。针对该问题,提出了一种新的基于文本聚类和概念相似度的语义Web服务发现方法。该方法主要分为两个阶段,... 语义Web服务在进行服务发现时,需要按顺序依次匹配注册库中的服务,这将大量时间浪费在不相干的服务上,从而造成服务发现效率低下。针对该问题,提出了一种新的基于文本聚类和概念相似度的语义Web服务发现方法。该方法主要分为两个阶段,第一阶段根据服务源文件中的描述性文本信息将类别一致的服务聚类到一起,在此过程中利用了向量空间模型对文本进行表示和处理,并在前人的基础上提出了一种多重混合聚类算法MHC;第二阶段进行服务间的功能属性匹配,结合本体概念层次树中有向边的深度、强度以及概念的继承度等因素计算概念间的语义相似度。最后,实验结果表明,提出的方法在兼顾匹配准确率的基础上,大大提高了匹配效率。 展开更多
关键词 语义WEB服务 服务发现 文本聚类 本体 语义相似度
在线阅读 下载PDF
一种基于本体语义的灾害主题爬虫策略 被引量:4
16
作者 马雷雷 李宏伟 +2 位作者 连世伟 梁汝鹏 陈虎 《计算机工程》 CAS CSCD 北大核心 2016年第11期50-56,共7页
为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权... 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。 展开更多
关键词 主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部