期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于共现潜在语义向量空间模型的语义核构建 被引量:10
1
作者 牛奉高 张亚宇 《情报学报》 CSSCI CSCD 北大核心 2017年第8期834-842,共9页
实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本... 实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。 展开更多
关键词 共现潜在语义向量空间模型 语义 共现潜在语义向量空间模型语义 文本聚类
在线阅读 下载PDF
共现潜在语义向量空间模型的进一步研究 被引量:2
2
作者 牛奉高 李星 《情报杂志》 CSSCI 北大核心 2017年第12期166-172,共7页
[目的/意义]文献的向量表示是文献聚类的首要任务。共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能。然而,对该模... [目的/意义]文献的向量表示是文献聚类的首要任务。共现潜在语义向量空间模型(CLSVSM)通过共现分析挖掘特征词对间的最大潜在语义信息对向量空间模型(VSM)进行了语义补充,与向量空间模型相比明显提高了中文文献的聚类性能。然而,对该模型的研究还有待深入:该模型对英文文献的聚类适用性尚需检验;是否可以考虑利用除max统计量以外的其它统计量构建模型?聚类效果又会如何?面对大量的文献数据,模型的维度往往较高,运算成本大,所以有必要对模型进行优化处理。[方法/过程]首先将CLSVSM用于对英文文献集(数据来源于Web of Science,简记为WOS)的主题聚类并与VSM的聚类结果进行比较;然后利用除max统计量以外的三个常用统计量min,ave,med构建相应的CLSVSM模型,并用这四个统计量构建的CLSVSM模型对中英文文献进行聚类比较。更重要的是,我们提出了截尾共现潜在语义向量空间模型(TCLSVSM)并检验其聚类性能。[结果/结论]实验显示:CLSVSM对英文文献聚类同样适用;四种统计量构建的模型中CLSVSM-max对中英文文献的聚类效果最佳;TCLSVSM不仅能保证聚类性能,而且能显著降低运算成本。 展开更多
关键词 向量空间模型 CLSVSM TCLSVSM 分析 聚类
在线阅读 下载PDF
基于向量空间模型的词共现研究及其在文本分类中的应用 被引量:24
3
作者 吴光远 何丕廉 +1 位作者 曹桂宏 聂颂 《计算机应用》 CSCD 北大核心 2003年第z1期138-140,145,共4页
文中提出了一种基于向量空间模型的词共现模型算法 ,通过选取整篇文档为窗口单元 ,统计中高频特征词的共现信息 ,改进了模型的效果 ,并将得到的词共现资源应用于文本分类的研究中。
关键词 向量空间模型 互信息 文本分类 窗口单元
在线阅读 下载PDF
一种结合关键词与共现词对的向量空间模型 被引量:4
4
作者 唐守忠 齐建东 《计算机工程与科学》 CSCD 北大核心 2014年第5期971-976,共6页
提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后... 提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。 展开更多
关键词 向量空间模型 词对 语义相关性 文本分类
在线阅读 下载PDF
基于向量空间模型的专题文献过滤算法研究 被引量:3
5
作者 焦玉英 刘伟成 孙吉红 《情报学报》 CSSCI 北大核心 2005年第5期562-566,共5页
本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法.概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准... 本文从理论上探讨了向量空间模型及其改进模型在专题文献过滤中的相关算法.概念扩充模型解决了词的同义现象,提高了召回率;潜在语义分析模型通过统计方法,提取并量化这些潜在的语义结构,进而消除同义词、多义词的影响,提高文本表示的准确性,从而使专题研究中文献过滤的召回率和准确率都有显著提高. 展开更多
关键词 向量空间模型 专题文献 过滤算法 语义 文献检索
在线阅读 下载PDF
基于词共现模型的垃圾邮件过滤方法研究 被引量:4
6
作者 张燕平 史科 +1 位作者 徐庆鹏 谢飞 《中文信息学报》 CSCD 北大核心 2009年第6期61-66,71,共7页
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮... 垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。 展开更多
关键词 计算机应用 中文信息处理 向量空间模型 垃圾邮件过滤 模型 交叉覆盖算法
在线阅读 下载PDF
潜在语义标引在中文信息检索中的研究与实现 被引量:16
7
作者 居斌 《计算机工程》 CAS CSCD 北大核心 2007年第5期193-196,共4页
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理... 随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。 展开更多
关键词 在语义标引 向量空间模型 信息检索 中文
在线阅读 下载PDF
基于向量空间的信息检索模型的改进 被引量:3
8
作者 原媛 彭建华 张汝云 《计算机工程与设计》 CSCD 北大核心 2008年第23期6012-6015,共4页
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨。在仅用统计词频表示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜... 向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨。在仅用统计词频表示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型。实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率。 展开更多
关键词 向量空间模型 基于概念的特征选择 在语义索引 知网 奇异值分解
在线阅读 下载PDF
基于频繁关键字共现的诗词风格分类模型研究 被引量:4
9
作者 吴春龙 周昌乐 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2008年第1期41-44,共4页
为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规... 为了提高宋词文档分类的精确性,本文在广泛采用的向量空间模型(Vector space model,VSM)的基础上,对分类算法中使用的特征项做了相应的修改,提出了频繁关键字共现的概念.在实验过程中,首先提取了宋词语料库中的关键字,再利用发现关联规则的Apriori算法发现分类时所需要的频繁关键字共现,最后结合关键字和频繁关键字共现,利用最邻近算法(KNN)对宋词文档进行风格分类.实验结果发现,结合了频繁关键字共现的VSM可以提高对宋词风格分类的准确度.可见,频繁关键字共现确实提供了风格分类中所需的更多信息. 展开更多
关键词 文本分类 向量空间模型 FKC-VSM 最邻近算法 APRIORI算法 频繁关键字
在线阅读 下载PDF
一种基于向量空间模型的改进文本分类算法 被引量:2
10
作者 牛玲 《情报杂志》 CSSCI 北大核心 2006年第6期63-64,67,共3页
探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义... 探讨了基于向量空间模型的文本分类技术,通过规范化向量空间模型术语,论述了向量空间模型中TD-IDF向量化文档的不足;提出基于位置等因素的权重改进算法;借助扩展的潜在语义索引算法KLSC和辅助主题词表来消除模型很难处理一词多义、一义多词的现象;根据用户个性化的服务需求,给出了个性化服务的意见。 展开更多
关键词 向量空间模型 文本分类 信息检索 在语义索引 在语义索引 算法 主题词
在线阅读 下载PDF
基于潜在语义分析的汉语问答系统答案提取 被引量:45
11
作者 余正涛 樊孝忠 +1 位作者 郭剑毅 耿增民 《计算机学报》 EI CSCD 北大核心 2006年第10期1889-1893,共5页
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,... 为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果. 展开更多
关键词 问答系统 答案提取 相似度 向量空间模型 在语义分析
在线阅读 下载PDF
基于潜在语义分析的信息检索 被引量:29
12
作者 盖杰 王怡 武港山 《计算机工程》 CAS CSCD 北大核心 2004年第2期58-60,共3页
潜在语义分析是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。文章介绍了基于潜在语义分析的文本信息检索的基本思想、特点以及实现方法 。
关键词 在语义分析 信息检索 语义 向量空间模型
在线阅读 下载PDF
潜在语义分析理论及其应用 被引量:36
13
作者 盖杰 王怡 武港山 《计算机应用研究》 CSCD 北大核心 2004年第3期9-12,20,共5页
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过... 潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。 展开更多
关键词 在语义分析 上下文 语义 向量空间模型
在线阅读 下载PDF
基于潜在语义分析的中文文本层次分类技术 被引量:15
14
作者 王怡 盖杰 +1 位作者 武港山 王继成 《计算机应用研究》 CSCD 北大核心 2004年第8期151-154,165,共5页
从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类... 从网络文本自动分类的需求出发 ,针对基于VSM模型的分类处理中词条无关假设和词条维度过高等问题 ,对基于类中心向量的分类方法进行了改进。利用LSA分析中的SVD分解获得Web文档的语义特征向量 ,并在此基础上进行分类处理 ,在不损害分类精度的同时提高了分类及其后处理速度 ,并设计实现了一个原型系统。 展开更多
关键词 在语义分析 类重心分类 向量空间模型 文本分类 特征向量
在线阅读 下载PDF
基于潜在语义分析的文本连贯性分析 被引量:3
15
作者 汤世平 樊孝忠 朱建勇 《计算机应用与软件》 CSCD 北大核心 2008年第2期95-96,共2页
文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域... 文本连贯性分析是计算机辅助评估中的重要内容,是对文本的表达质量进行评估的基础。提出一种将潜在语义分析方法与基于有序聚类的层次分析方法相结合的文本层次结构分析方法,该方法保证了层次划分的有序性,可操作性强,不依赖于具体领域。基本思想是:对于输入文本,首先识别文本物理结构,然后将文本依据主题划分为若干层次,最终获得文本的逻辑结构。实验结果表明,该方法是有效的,其准确率达到74.96%。 展开更多
关键词 向量空间模型 在语义分析 文本连贯性 计算机辅助评估
在线阅读 下载PDF
基于潜在语义索引的中文文本聚类的研究 被引量:4
16
作者 马国俊 贠卫国 《现代电子技术》 2005年第10期58-59,共2页
讨论了中文文本聚类的现状以及存在的问题,介绍了向量空间模型,详细阐述了潜在语义索引理论以及采用该模型进行中文文本聚类的主要步骤,最后采用两种模型进行了实验对比,实验表明采用潜在语义索引模型可以取得更好的聚类效果。
关键词 文本聚类 在语义索引 向量空间模型 信息检索
在线阅读 下载PDF
基于VSM的潜在语义索引 被引量:1
17
作者 王瑛 《陕西科技大学学报(自然科学版)》 2010年第5期151-154,158,共5页
传统向量空间模型信息检索技术,只是统计关键词在文档中出现的频度,检索结果不能反映出文档的相关性.为了解决关键词检索时潜在语义的挖掘问题,提出了一种基于向量空间模型的潜在语义索引的改进算法.对比实验证明,该算法能够有效提高检... 传统向量空间模型信息检索技术,只是统计关键词在文档中出现的频度,检索结果不能反映出文档的相关性.为了解决关键词检索时潜在语义的挖掘问题,提出了一种基于向量空间模型的潜在语义索引的改进算法.对比实验证明,该算法能够有效提高检索查准率. 展开更多
关键词 向量空间模型 在语义索引 信息检索
在线阅读 下载PDF
双语交叉分类模型的设计与实现
18
作者 林鸿飞 王剑峰 《中文信息学报》 CSCD 北大核心 2001年第6期27-32,共6页
利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充... 利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。 展开更多
关键词 双语交叉文本分类 概念扩充 在语义分析 空间向量模型 知识挖掘 语义相似度 文本特征抽取机制
在线阅读 下载PDF
潜在语义分析的供求信息自动匹配算法 被引量:2
19
作者 冯月进 张凤斌 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2012年第3期126-130,共5页
将潜在语义分析应用于电子商务系统的供求信息匹配中,解决了传统模型中同义和多义现象对匹配精度有很大负面影响的问题;同时通过引入信息熵,改进了潜在语义分析的权重计算,提出了基于潜在语义分析的、结合了规则提取和相关反馈的供求信... 将潜在语义分析应用于电子商务系统的供求信息匹配中,解决了传统模型中同义和多义现象对匹配精度有很大负面影响的问题;同时通过引入信息熵,改进了潜在语义分析的权重计算,提出了基于潜在语义分析的、结合了规则提取和相关反馈的供求信息自动匹配算法,并给出了配套的供求信息规则库的设计方法.实验结果显示,该算法具有很好的匹配精度,性能明显优于基于空间向量模型的供求信息匹配方法. 展开更多
关键词 在语义分析 信息熵 语义 供求信息匹配 向量空间模型
在线阅读 下载PDF
垃圾邮件过滤中潜在语义索引的应用
20
作者 王鹏鸣 《郑州大学学报(理学版)》 CAS 北大核心 2010年第2期78-82,共5页
将潜在语义索引(LSI)应用于垃圾邮件过滤领域,并将其与向量空间模型(VSM)和经典的邮件过滤器Spa-mAssassin系统进行比较.另外,对基于词提取技术的邮件文本特征集合和SpamAssassin系统提取的邮件"元特征"集合进行了对比.实验... 将潜在语义索引(LSI)应用于垃圾邮件过滤领域,并将其与向量空间模型(VSM)和经典的邮件过滤器Spa-mAssassin系统进行比较.另外,对基于词提取技术的邮件文本特征集合和SpamAssassin系统提取的邮件"元特征"集合进行了对比.实验结果表明,LSI与VSM均取得了较SpamAssassin系统更优的分类效果. 展开更多
关键词 垃圾邮件过滤 在语义索引 向量空间模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部