期刊文献+
共找到48篇文章
< 1 2 3 >
每页显示 20 50 100
基于MDL和LSC的语义优选方法
1
作者 李东明 张丽娟 +1 位作者 赵伟 石晶 《计算机工程》 CAS CSCD 北大核心 2011年第17期15-18,共4页
为实现谓语动词对论元的自动选择,提出基于最小描述长度(MDL)和潜在语义聚类(LSC)的语义优选方法。基于MDL原则计算与动词搭配的名词的δsc值,根据LSC模型的EM算法求取动、名词的搭配概率P(v,n),并针对每一对动、名词计算δsc和P(v,n)之... 为实现谓语动词对论元的自动选择,提出基于最小描述长度(MDL)和潜在语义聚类(LSC)的语义优选方法。基于MDL原则计算与动词搭配的名词的δsc值,根据LSC模型的EM算法求取动、名词的搭配概率P(v,n),并针对每一对动、名词计算δsc和P(v,n)之和,将其作为衡量两者语义关联度的标准。实验结果表明,该方法的F1值达到85.26%,优于单独使用MDL或LSC方法。 展开更多
关键词 语义优选 最小描述长度 潜在语义聚类 无指导学习 期望极大化
在线阅读 下载PDF
一种基于LDA的潜在语义区划分及Web文档聚类算法 被引量:19
2
作者 刘振鹿 王大玲 +2 位作者 冯时 张一飞 方东昊 《中文信息学报》 CSCD 北大核心 2011年第1期60-65,70,共7页
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关... 该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 展开更多
关键词 LDA 潜在语义 语义分布 文档聚类
在线阅读 下载PDF
基于LDA的社会化标签综合聚类方法 被引量:14
3
作者 李慧宗 胡学钢 +2 位作者 杨恒宇 林耀进 何伟 《情报学报》 CSSCI 北大核心 2015年第2期146-155,共10页
社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资... 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。 展开更多
关键词 社会化标注系统 标签聚类 潜在语义 主题模型
在线阅读 下载PDF
基于局部语义聚类的语义重叠社区发现算法 被引量:37
4
作者 辛宇 杨静 +1 位作者 汤楚蘅 葛斯乔 《计算机研究与发展》 EI CSCD 北大核心 2015年第7期1510-1521,共12页
语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法... 语义社会网络是一种包含信息节点及社会关系构成的新型复杂网络,因此以节点邻接关系为挖掘对象的传统社会网络社区发现算法无法有效处理语义社会网络重叠社区发现问题.针对这一问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法:1)以LDA(latent Dirichlet allocation)模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;2)以节点间语义坐标的相对熵作为节点语义相似度的度量,建立节点相似度矩阵;3)根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法(local semantic clusterm,LSC);4)提出可度量语义社区发现结果的语义模块度模型,并通过实验分析,验证了算法及语义模块度模型的有效性及可行性. 展开更多
关键词 语义社会网络 重叠社区发现 LDA模型 相对熵 Gibbs取样 局部语义聚类
在线阅读 下载PDF
基于概率潜在语义分析的词汇情感倾向判别 被引量:15
5
作者 宋晓雷 王素格 +1 位作者 李红霞 李德玉 《中文信息学报》 CSCD 北大核心 2011年第2期89-93,共5页
该文利用概率潜在语义分析,给出了两种用于判别词汇情感倾向的方法。一是使用概率潜在语义分析获得目标词和基准词之间的相似度矩阵,再利用投票法决定其情感倾向;二是利用概率潜在语义分析获取目标词的语义聚类,然后借鉴基于同义词的词... 该文利用概率潜在语义分析,给出了两种用于判别词汇情感倾向的方法。一是使用概率潜在语义分析获得目标词和基准词之间的相似度矩阵,再利用投票法决定其情感倾向;二是利用概率潜在语义分析获取目标词的语义聚类,然后借鉴基于同义词的词汇情感倾向判别方法对目标词的情感倾向做出判别。两种方法的优点是均可在没有外部资源的条件下,实现词汇情感倾向的判别。 展开更多
关键词 概率潜在语义分析 数据稀疏 语义聚类 情感倾向
在线阅读 下载PDF
改进的概率潜在语义分析下的文本聚类算法 被引量:14
6
作者 张玉芳 朱俊 熊忠阳 《计算机应用》 CSCD 北大核心 2011年第3期674-676,693,共4页
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法... 概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。 展开更多
关键词 文本聚类 概率潜在语义分析 参数初始化 潜在语义分析
在线阅读 下载PDF
基于MapReduce的并行PLSA算法及在文本挖掘中的应用 被引量:7
7
作者 李宁 罗文娟 +2 位作者 庄福振 何清 史忠植 《中文信息学报》 CSCD 北大核心 2015年第2期79-86,共8页
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来... PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 展开更多
关键词 概率主题模型 MAPREDUCE 并行 语义分析
在线阅读 下载PDF
概念空间中上下位关系的意义识别研究 被引量:14
8
作者 刘磊 曹存根 +1 位作者 张春霞 田国刚 《计算机学报》 EI CSCD 北大核心 2009年第8期1651-1661,共11页
针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.单个概念的意义识别问题被转换为概念空间中上下位关系的意义识别.首先利用并列语境解决语境稀疏问题,获取上下位关系意义的语境.... 针对上下位关系在分类层级结构建立阶段遇到的多义性问题,给出一种概念空间中上下位关系意义识别的方法.单个概念的意义识别问题被转换为概念空间中上下位关系的意义识别.首先利用并列语境解决语境稀疏问题,获取上下位关系意义的语境.然后利用《同义词词林》对每个语境进行词义修正,以三种特征计算特征词权重,构建"关系-词"的高维向量空间,然后通过潜在语义分析降维,获取上下位关系意义的潜在语义,最后组平均聚类后得到关系的意义划分.在实验中,给出了聚类阈值自动调整函数,分析了词林和潜在语义分析的作用,实验结果证实了方法的有效性. 展开更多
关键词 知识获取 上下位关系 潜在语义分析 关系获取 概念空间 意义聚类
在线阅读 下载PDF
基于潜在语义分析的构件聚类改进方法 被引量:9
9
作者 任姚鹏 陈立潮 +1 位作者 张英俊 谢斌红 《计算机工程》 CAS CSCD 北大核心 2011年第4期67-69,共3页
针对基于向量空间模型的构件聚类方法存在高维稀疏、无法解决同义词等问题,采用基于潜在语义分析模型对构件进行聚类分析。从用户关注点出发,通过引入等级策略提出一种基于潜在语义分析的构件聚类改进算法。实验结果表明,该方法能够提... 针对基于向量空间模型的构件聚类方法存在高维稀疏、无法解决同义词等问题,采用基于潜在语义分析模型对构件进行聚类分析。从用户关注点出发,通过引入等级策略提出一种基于潜在语义分析的构件聚类改进算法。实验结果表明,该方法能够提高构件聚类质量,使构件聚类结果更符合用户需求和更加人性化,提高构件检索效率和准确性。 展开更多
关键词 刻面分类 潜在语义分析 等级策略 构件聚类
在线阅读 下载PDF
基于概率潜语义分析模型的高光谱影像层次聚类分析 被引量:5
10
作者 易文斌 慎利 +1 位作者 齐银凤 唐宏 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2011年第9期2471-2475,共5页
将概率潜语义分析模型(PLSA)应用于高光谱影像聚类,提出一种基于语义信息的影像聚类方法。首先,利用ISODATA算法获取影像的初次聚类结果,从而形成PLSA模型中的视觉词;其次,利用影像分割算法对高光谱影像进行分割,并将分割体作为PLSA模... 将概率潜语义分析模型(PLSA)应用于高光谱影像聚类,提出一种基于语义信息的影像聚类方法。首先,利用ISODATA算法获取影像的初次聚类结果,从而形成PLSA模型中的视觉词;其次,利用影像分割算法对高光谱影像进行分割,并将分割体作为PLSA模型的文档;再次,利用多种最佳聚类类别数估计方法确定PLSA模型的潜语义主题的个数;进而估计PLSA模型的参数,获得概率主题内视觉词的概率分布和每个分割体中各概率主题的混合比例;最后利用统计模式识别方法获取每个影像文档中各个视觉词对应的潜语义主题的类型,从而实现影像的层次聚类分析。相关实验结果表明,本文的层次聚类结果较K-MEANS算法、ISODATA算法聚类结果的面向对象特性更明显,其与真实地物的空间分布更接近。 展开更多
关键词 概率潜语义分析模型 高光谱影像 层次聚类 语义信息
在线阅读 下载PDF
融合主题和视觉语义的图像自动标注方法 被引量:7
11
作者 赵鹏 王文彬 朱伟伟 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2013年第11期1709-1714,共6页
为了减小图像语义检索过程中"语义鸿沟"的影响,提出融合主题和视觉语义的图像自动标注方法.该方法先在训练集的文本空间中用概率潜在语义分析(PLSA)模型拟合出主题集合;然后根据图像的高维视觉特征建立主题集合中每个主题的... 为了减小图像语义检索过程中"语义鸿沟"的影响,提出融合主题和视觉语义的图像自动标注方法.该方法先在训练集的文本空间中用概率潜在语义分析(PLSA)模型拟合出主题集合;然后根据图像的高维视觉特征建立主题集合中每个主题的高斯混合模型(GMM),以准确描述其视觉语义信息,减小了"语义鸿沟",提高了图像自动标注的准确性.在Corel数据集上进行了对比实验的结果表明,文中方法在标注的平均标准率和平均标全率上都表现良好,证明了其有效性. 展开更多
关键词 高斯混合模型 概率潜在语义分析 图像自动标注 语义鸿沟 特征聚类
在线阅读 下载PDF
一种面向领域的Web服务语义聚类方法 被引量:5
12
作者 赵一 李昭 +2 位作者 陈鹏 何泾沙 何克清 《小型微型计算机系统》 CSCD 北大核心 2019年第1期81-88,共8页
目前,互联网中发布的Web服务大都通过自然语言进行描述,这种非结构化的描述方式为机器进行自动分析与处理带来了极大的困难.如何提高服务发现的效率和精确率,已成为服务计算领域的研究热点之一.服务聚类是服务发现的重要支撑技术,通过... 目前,互联网中发布的Web服务大都通过自然语言进行描述,这种非结构化的描述方式为机器进行自动分析与处理带来了极大的困难.如何提高服务发现的效率和精确率,已成为服务计算领域的研究热点之一.服务聚类是服务发现的重要支撑技术,通过将语义相似的服务加以聚类和组织,有助于改进服务发现的效果.当前的服务聚类技术主要采用LDA(潜式狄里克雷分布)和K-means等模型在同一领域下进行工作,利用这些方法进行服务聚类时还存在一定的局限性,例如,未充分利用词汇间的语义关系进行降维,从而导致服务发现的效果不够理想.针对该问题,本文使用神经网络模型(word2vec模型)获得服务描述中的同义词表并生成领域特征词集,来最大限度的降低服务特征向量维度;在此基础上,提出S-LDA(Semantic Latent Dirichlet Allocation)模型对同一领域的服务进行聚类,由此构建了一个面向领域的Web服务聚类框架(Domain Semantic aided Web Service Clustering,DSWSC).在ProgrammableWeb网站上发布的服务数据集开展的实验表明,与LDA和K-means等方法相比,本文方法在熵、聚类纯度和F指标上均取得了明显效果,有助于提高服务搜索的准确率. 展开更多
关键词 语义潜式狄里克雷分布 Word2vec web服务聚类
在线阅读 下载PDF
跨语言查询扩展优化 被引量:9
13
作者 魏露 李书琴 +1 位作者 李伟男 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第8期2785-2788,2803,共5页
为提高跨语言查询扩展检索精度,在原有跨语言查询扩展基础上,引入降低噪声和孤立点的k-medoid聚类算法,提出避免语义信息丢失或过拟合的择优模型。构建若干个不同维度值的d维模型,结合奇异值分解和非负矩阵分解法计算文本之间的相似度,... 为提高跨语言查询扩展检索精度,在原有跨语言查询扩展基础上,引入降低噪声和孤立点的k-medoid聚类算法,提出避免语义信息丢失或过拟合的择优模型。构建若干个不同维度值的d维模型,结合奇异值分解和非负矩阵分解法计算文本之间的相似度,选取相似度最大的模型建立双语空间,经过跨语言扩展与权值调整,实现查询扩展优化。实验对比结果表明,该方案有效提高了检索精度,为跨语言查询提供了可参考的模型与算法。 展开更多
关键词 潜在语义 跨语言 查询扩展 k-中心点聚类 非负矩阵分解 择优模型
在线阅读 下载PDF
基于共现潜在语义向量空间模型的语义核构建 被引量:10
14
作者 牛奉高 张亚宇 《情报学报》 CSSCI CSCD 北大核心 2017年第8期834-842,共9页
实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本... 实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。 展开更多
关键词 共现潜在语义向量空间模型 语义核 共现潜在语义向量空间模型语义核 文本聚类
在线阅读 下载PDF
基于成对约束的主动半监督文本聚类 被引量:4
15
作者 钟将 刘龙海 梁传伟 《计算机工程》 CAS CSCD 北大核心 2011年第13期183-186,共4页
在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法。利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。... 在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法。利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率。 展开更多
关键词 文本聚类 半监督聚类 潜在语义索引 成对约束
在线阅读 下载PDF
基于潜在语义分析的Deep Web查询接口聚类研究 被引量:3
16
作者 强保华 李巍 +2 位作者 邹显春 汪天天 吴春明 《计算机科学》 CSCD 北大核心 2013年第11期228-230,247,共4页
集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语... 集成查询接口的生成是Deep Web数据集成的重要组成环节。如何对不同领域的查询接口进行有效的聚类是生成集成查询接口时需要解决的核心问题之一。针对传统的向量空间模型在Deep Web查询接口聚类时单纯依赖关键词匹配的缺点,引入潜在语义分析(LSA)的方法来发掘查询接口之间的语义关系,并给出了基于潜在语义分析的Deep Web查询接口聚类算法,最后采用UIUC的Web集成资源库提供的数据进行了实验。结果表明,潜在语义分析的方法提高了同一领域查询接口之间的相似度,明显改善了Deep Web查询接口聚类的质量。 展开更多
关键词 潜在语义分析 奇异值分解 DEEP Web 查询接口聚类
在线阅读 下载PDF
TCBLSA:一种中文文本聚类新方法 被引量:15
17
作者 王国勇 徐建锁 《计算机工程》 CAS CSCD 北大核心 2004年第5期21-22,37,共3页
根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异... 根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法。该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的“噪声”因素,从而更加突出了词和文本之间的语义关系。通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度。 展开更多
关键词 文本聚类 隐含语义分析 奇异值分解 向量空间模型
在线阅读 下载PDF
基于混合概率潜在语义分析模型的Web聚类 被引量:2
18
作者 王治和 王凌云 +1 位作者 党辉 潘丽娜 《计算机应用》 CSCD 北大核心 2012年第11期3018-3022,共5页
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H-PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLS... 在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H-PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型,通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H-PLSA模型和页面聚类的H-PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k-medoids算法。设计并构建了H-PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。 展开更多
关键词 WEB聚类 概率潜在语义分析 潜在主题 k-medoids算法
在线阅读 下载PDF
基于兴趣的社交网络用户聚类及可视化 被引量:3
19
作者 汤颖 钟南江 +2 位作者 孙康高 秦大康 周伟华 《计算机科学》 CSCD 北大核心 2017年第B11期385-390,427,共7页
随着社交网络的流行,从各种各样的社交网络数据中提取出有效信息并进行清晰直观的可视化分析,从而为用户提供有价值的潜在知识,显得尤为重要。聚类分析是数据挖掘中的重要分析手段,传统的面向社交网络数据的用户聚类分析大都仅考虑网络... 随着社交网络的流行,从各种各样的社交网络数据中提取出有效信息并进行清晰直观的可视化分析,从而为用户提供有价值的潜在知识,显得尤为重要。聚类分析是数据挖掘中的重要分析手段,传统的面向社交网络数据的用户聚类分析大都仅考虑网络的拓扑链接结构,未考虑用户的兴趣相似度。文中基于贝叶斯概率模型来计算用户兴趣相似度并进行聚类,进一步设计交互可视化方式来展示上述聚类结果。具体地,针对社交网络中的用户评分数据建立潜在语义模型来提取表示每个用户兴趣特点的特征向量;基于用户的特征向量对用户进行聚类,得到具有不同特征的人群,并通过实验和热度图选择合适的人群聚类数;最后提出了基于层次气泡图的可视化展现和分析方案,将用户、电影类型、电影等多维信息在图形中交互展示,支持用户从全局概览到局部细节的推进式探索,从多角度可视化人群特征。对豆瓣网用户和电影评分数据进行了实验和分析,结果验证了所提方法的有效性。 展开更多
关键词 社交网络 聚类 数据可视化 潜在语义模型
在线阅读 下载PDF
基于LSA降维的RPCL文本聚类算法 被引量:5
20
作者 高茂庭 王正欧 《计算机工程与应用》 CSCD 北大核心 2006年第23期138-140,共3页
文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数... 文本聚类中,存在诸如文本特征空间维数巨大、聚类的数目不能事先确定等问题。隐含语义分析方法可以对文本特征空间作降维处理并有效地凸现出文本和词条之间的语义关系;次胜者受罚竞争学习规则可以进行有效的聚类并自动确定适当的聚类数目。将这两种方法结合进行文本聚类可以在一定程度上解决维数和聚类数的问题,实验表明,这种方法能够收到较好的聚类效果,同时,实验还验证了向量余弦距离比欧氏距离方法更适合于文本相似度的计算。 展开更多
关键词 文本聚类 次胜者受罚竞争学习 隐含语义分析 聚类分析
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部