期刊文献+
共找到89篇文章
< 1 2 5 >
每页显示 20 50 100
LSI__LDA:一种混合特征降维方法 被引量:4
1
作者 史庆伟 从世源 唐晓亮 《计算机应用研究》 CSCD 北大核心 2017年第8期2269-2273,共5页
LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特... LDA没有考虑到数据输入,在原始输入空间上对所有词进行主题标签,因对非作用词同样分配主题,致使主题分布不精确。针对其不足,提出了一种结合LSI和LDA的特征降维方法,预先采用LSI将原始词空间映射到语义空间,再根据语义关系筛选出原始特征集中关键的特征,最后通过LDA模型在更小、更切题的文档子集上采样建模。对复旦大学中文语料进行文本分类,新方法的分类精度较单独使用LDA模型的效果提高了1.50%。实验表明提出的LSI__LDA模型在文本分类中有更好的分类性能。 展开更多
关键词 文本分类 特征降维 潜在语义索引 潜在狄利克雷分配
在线阅读 下载PDF
融合LSI和支持向量聚类的网页文本分类算法 被引量:1
2
作者 史长琼 黄辉 +2 位作者 王大卫 姜腊林 扶宗文 《计算机应用研究》 CSCD 北大核心 2009年第12期4523-4525,共3页
特征选择和分类算法是网页文本聚类中最关键的技术。提出对网页文本提取特征值后,利用潜在语义索引对网页文本降维,采用支持向量聚类(SVC)算法对降维后的特征向量进行聚类,以此进行文本分类。实验结果显示具有较好的效果。
关键词 特征提取 潜在语义索引 网页文本 语义聚类 支持向量聚类
在线阅读 下载PDF
基于LSI和自组织神经网络的高效文本聚类方法 被引量:7
3
作者 徐建锁 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2004年第11期1026-1030,共5页
根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的... 根据隐含语义索引(LSI)理论和动态自组织映射神经网络理论,提出了一种文本聚类的新方法.应用动态自组织映射神经网络来实现文本聚类,不必预先给定聚类个数,可以在任意合适的位置生成一个新的类,具有聚类灵活和精度高等特点,对于高维的文本特征向量来说,聚类速度很低;该方法应用LSI理论来建立文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,克服了自组织神经网络的聚类缺陷,提高了文本聚类的精度和速度. 展开更多
关键词 文本聚类 隐含语义索引 奇异值分解 自组织神经网络 向量空间模型
在线阅读 下载PDF
文本处理中基于随机映射的加速LSI方法 被引量:1
4
作者 钱晓东 王正欧 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2005年第4期372-376,共5页
首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结... 首先针对在文本处理的高维矢量环境中Kohonen自组织映射神经网络的计算瓶颈问题和输入矢量空间中存在的问题进行分析,然后对随机映射(RM)和隐含语义索引(LSI)方法分别进行理论分析,提出用于文本处理的基于随机映射的加速LSI方法.试验结果表明,加速LSI方法可以在凸现原有语义联系的基础上,低代价、有效、可控地解决上述问题,极大地降低文本处理环境中Kohonen自组织神经网络的规模和计算代价. 展开更多
关键词 文本处理 隐含语义索引 自组织神经网络 随机映射
在线阅读 下载PDF
基于LSI的图像语义检索 被引量:1
5
作者 沈玉利 郭雷 任建峰 《计算机工程与应用》 CSCD 北大核心 2005年第22期64-65,69,共3页
图像语义检索是实现图像快速、直观、准确查询的有效办法,针对目前直接采用图像低层特征无法满足图像语义查询的问题,该文提出了一种利用LSI技术,实现图像语义的检索方法。
关键词 隐含语义索引 图像语义 图像检索 奇异值分解
在线阅读 下载PDF
基于LSI和SVM分类法的定题邮件过滤研究 被引量:1
6
作者 杨清 李方敏 《计算机工程与应用》 CSCD 北大核心 2006年第35期168-171,共4页
潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,... 潜在语义索引(LSI)是一种有效的信息查询方法,同时也被成功地应用到了文本分类中。LSI能解决同义和多义的问题,通过降低原始文档-术语矩阵的噪声来凸现出词条和文档之间的语义关系。为了识别和过滤有害的、不期望的定题的信息或Email,在双语言环境下(包括中文和英文),提出了一个基于改进的LSI方法的定题邮件类信息过滤系统,该系统采用潜在语义模型来表示被过滤的信息类,通过奇异值分解和正例监护学习方法,选择支持向量机(SVM)来识别和分类预定义的定题信息。实验结果表明:基于LSI的特征选择的SVM分类算法是一种更有效的信息识别和文本分类方法,不但具有较好的分类性能,同时也能大大减小计算的复杂性。 展开更多
关键词 支持向量机 潜在语义索引 信息查询 监护学习 文本分类
在线阅读 下载PDF
基于LSI和SVM相结合的文本分类研究 被引量:1
7
作者 刘洋 张秋余 《计算机工程与设计》 CSCD 北大核心 2007年第23期5762-5764,共3页
传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,... 传统的向量空间模型使用关键词来表示文本,但没有考虑关键词的一词多义和多词一义问题。为了解决该问题,提出了一种潜在语义索引和支持向量机相结合的文本分类方法,使用替在语义索引方法获得原始特征向量的潜在语义结构。实验结果表明,该方法同单独使用支持向量机的方法相比,分类准确率有小幅度的下降,但特征向量获得了大幅度的降维。 展开更多
关键词 潜在语义索引 奇异值分解 支持向量机 文本分类 机器学习
在线阅读 下载PDF
P2P系统分布式LSI的构建和更新
8
作者 张三峰 吴国新 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2006年第1期39-42,共4页
从P2P系统自组织和动态性特点出发,提出分布式环境下隐语义索引(LSI)构建和更新的P2P网络模型,设计适合P2P系统文档矩阵的降维表示(RDR)合并算法,结合信号和噪声子空间模型从理论上分析RDR合并算法的有效性及算法需要满足的前提条件;使... 从P2P系统自组织和动态性特点出发,提出分布式环境下隐语义索引(LSI)构建和更新的P2P网络模型,设计适合P2P系统文档矩阵的降维表示(RDR)合并算法,结合信号和噪声子空间模型从理论上分析RDR合并算法的有效性及算法需要满足的前提条件;使用M atlab6.5针对标准文集测试RDR合并算法对查询精度的影响.理论分析和数字实验证明,该算法能够解决P2P系统中分布式LSI的构建和更新问题,能在可容忍的查询精度影响范围内,以较低的网络开销和计算量分布式地构建、更新隐语义索引. 展开更多
关键词 奇异值分解 更新算法 隐语义索引 peer—to—peer
在线阅读 下载PDF
基于LSI的代码-文档可追溯关联挖掘研究 被引量:1
9
作者 杨雪敏 张毅坤 +2 位作者 崔颖安 张保卫 夏辉 《计算机工程》 CAS CSCD 北大核心 2011年第8期34-36,共3页
软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于... 软件过程产品间可追溯关联挖掘对软件维护及需求跟踪等众多领域至关重要。基于此,提出一种基于潜在语义索引提取程序代码和中文文档关联信息的方法,该方法是对向量空间模型的改进,通过分析文本间隐含的语义结构来确定关联度,而不依赖于词项的匹配。实验结果表明,该方法不依赖于代码和文档预先定义的同义词库和知识库,并能一定程度上提高查全率和查准率。 展开更多
关键词 软件维护 可追溯关联挖掘 隐含语义索引 信息检索 跨语言信息检索
在线阅读 下载PDF
VSM与LSI中的正交假设 被引量:1
10
作者 李孟臣 《现代情报》 北大核心 2005年第8期223-224,F0003,共3页
向量空间模型(VSM)长期以来被用于文本检索,然而潜伏在其中的正交假设却迟迟未能得到解决。国内有些学者认为潜在语义索引模型(LSI)解决了这个问题。然而,本文作者通过对LSI的分析,认为正交假设在LSI中仍然存在。
关键词 向量空间模型 潜在语义索引模型 正交假设
在线阅读 下载PDF
基于LSI和SVM的文本分类研究 被引量:8
11
作者 刘美茹 《计算机工程》 CAS CSCD 北大核心 2007年第15期217-219,共3页
文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类... 文本分类技术是文本数据挖掘的基础和核心,是基于自然语言处理技术和机器学习算法的一个具体应用。特征选择和分类算法是文本分类中两个最关键的技术,该文提出了利用潜在语义索引进行特征提取和降维,并结合支持向量机(SVM)算法进行多类分类,实验结果显示与向量空间模型(VSM)结合SVM方法和LSI结合K近邻(KNN)方法相比,取得了更好的效果,在文本类别数较少、类别划分比较清晰的情况下可以达到实用效果。 展开更多
关键词 特征提取 潜在语义索引 支持向量机
在线阅读 下载PDF
基于非负矩阵分解的隐含语义图像检索 被引量:7
12
作者 梁栋 杨杰 +1 位作者 卢进军 常宇畴 《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第5期787-790,共4页
提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空... 提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的隐含语义索引(Latent Semantic Indexing,LSI)模型用于图像检索.应用NMF训练算法构造了一个语义空间,将查询图像和原型图像都投影到该空间以获得语义特征,在此空间中进行相似性的度量并将距离最近的图像返回给用户.与已有两种检索模型的实验结果对比表明,所提出模型是有效的. 展开更多
关键词 图像检索 隐含语义索引 非负矩阵分解 奇异值分解 语义空间
在线阅读 下载PDF
基于文本的内容过滤算法的比较 被引量:11
13
作者 何静 刘海燕 张惠民 《计算机工程》 CAS CSCD 北大核心 2002年第11期9-10,113,共3页
内容过滤技术在信息检索技术的基础上发展起来,并逐渐形成了自身的理论体系。文章总结了目前常用的几种内容过滤算法,并对它们的优缺点进行了分析和比较,为不同领域采用适当的内容过滤算法提供了思路。
关键词 文本 内容过滤算法 潜在语义索引 神经网络 用户模板 信息查询 网络安全 计算机网络
在线阅读 下载PDF
基于核Batch SOM聚类优化的语义Web服务发现机制研究 被引量:6
14
作者 陈蕾 杨庚 +1 位作者 张迎周 陈燕俐 《电子与信息学报》 EI CSCD 北大核心 2011年第6期1307-1313,共7页
如何快速、准确和高效地发现满足用户需求的Web服务已成为制约服务发展的瓶颈之一。该文针对现有Web服务发现机制中存在的效率低下和查准率不高的两个主要问题,提出了一个基于核Batch SOM神经网络聚类优化的语义Web服务发现框架。该框... 如何快速、准确和高效地发现满足用户需求的Web服务已成为制约服务发展的瓶颈之一。该文针对现有Web服务发现机制中存在的效率低下和查准率不高的两个主要问题,提出了一个基于核Batch SOM神经网络聚类优化的语义Web服务发现框架。该框架分别在服务表示阶段引入WordNet和隐含语义索引技术对Web服务进行语义扩展和概念语义空间降维;在服务分类阶段利用核机学习理论改进一类适用于Web服务分类的核Batch SOM神经网络算法;在服务匹配阶段提出一种基于核余弦相似性测度的Web服务匹配算法。最后,真实Web服务数据集上的实验结果验证了所提出方法的可行性。 展开更多
关键词 WEB服务发现 自组织映射神经网络 WORDNET 隐含语义索引 相似性度量
在线阅读 下载PDF
基于潜在语义索引的文本特征词权重计算方法 被引量:17
15
作者 李媛媛 马永强 《计算机应用》 CSCD 北大核心 2008年第6期1460-1462,1466,共4页
潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"... 潜在语义索引具有可计算性强,需要人参与少等优点。对其中重要的优化过程——权重计算,进行了深入分析。针对目前应用最广泛的TF-IDF方法中,采用线性处理的不合理性以及难以突出对文本内容起关键性作用的特征的缺点,提出了一种基于"Sigmiod函数"和"位置因子"的新权重方案。突出了文本中不同特征词的重要程度,更有利于潜在语义空间的构造。通过实验平台"中文潜在语义索引分析系统"的测试结果表明,该权重方法更利于基于潜在语义的检索性能的提高。 展开更多
关键词 潜在语义索引 Sigmiod函数 位置因子 权重算法
在线阅读 下载PDF
自然语言处理中主题模型的发展 被引量:248
16
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
在线阅读 下载PDF
隐含语义索引及其在中文文本处理中的应用研究 被引量:41
17
作者 周水庚 关佶红 胡运发 《小型微型计算机系统》 CSCD 北大核心 2001年第2期239-243,共5页
信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得... 信息检索本质上是语义检索 ,而传统信息检索系统都是基于独立词索引 ,因此检索效果并不理想 .隐含语义索引是一种新型的信息检索模型 ,它通过奇异值分解 ,将词向量和文档向量投影到一个低维空间 ,消减了词和文档之间的语义模糊度 ,使得文档之间的语义关系更为明晰 .实验和理论结果证实了隐含语义索引能够取得更好的检索效果 .本文论述了隐含语义索引的理论基础 ,研究了隐含语义索引在中文文本处理中的应用 ,包括中文文本检索、中文文本分类和中文文本聚类等 . 展开更多
关键词 信息检索 隐含语义索引 中文文本处理 中文信息处理
在线阅读 下载PDF
一种基于潜在语义结构的文本分类模型 被引量:27
18
作者 曾雪强 王明文 陈素芬 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期99-102,共4页
潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽... 潜在语义索引(LSI)模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音.然而在LSI模型中,一些对分类贡献大的特征,由于其对应的特征值小而被滤掉.针对这一问题,文中提出了一种扩展LSI模型的文本分类模型.该模型在尽量保留文档信息的同时,增加考虑了文档的类别信息,从而能比LSI模型更好地表示原始文档空间中的潜在语义结构. 展开更多
关键词 文本分类 潜在语义索引 偏最小二乘法
在线阅读 下载PDF
基于成对约束的主动半监督文本聚类 被引量:4
19
作者 钟将 刘龙海 梁传伟 《计算机工程》 CAS CSCD 北大核心 2011年第13期183-186,共4页
在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法。利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。... 在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法。利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率。 展开更多
关键词 文本聚类 半监督聚类 潜在语义索引 成对约束
在线阅读 下载PDF
一种大规模数据的快速潜在语义索引 被引量:10
20
作者 卫威 王建民 《计算机工程》 CAS CSCD 北大核心 2009年第15期35-37,40,共4页
潜在语义索引(LSI)已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一... 潜在语义索引(LSI)已应用到现代信息检索的多个领域,但矩阵奇异值分解的高复杂度阻碍了该技术在大规模数据上的应用。提出一种大规模数据的快速LSI方法。给出一个降维问题的统一框架,LSI作为一种特征提取算法,可以在这个框架下转化为一个特征选择问题。利用该技术在最大程度保持LSI降维效果的同时,简化LSI的计算,使其能够应用于大规模数据。 展开更多
关键词 潜在语义索引 降维 特征选择 特征提取
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部