-
题名潜语义标引与汉语信息检索研究
被引量:4
- 1
-
-
作者
刘博勤
丁晓明
-
机构
西南师范大学
-
出处
《计算机科学》
CSCD
北大核心
2000年第3期93-95,共3页
-
文摘
1 引言典型的传统信息检索系统,如布尔逻辑模型、向量空间模型,根据用户提供的查询条件,依据关键词的匹配或向量空间的相似系数,返回相关查询结果。对于相同的概念,使用不同的词汇表示,如同义词或近义词,或同一词汇在不同的语言环境中拥有不同的语义,即一词多义,因此基于语词匹配的查询方法,其准确性和完整性都不够理想。尽管同义词词典的使用,在一定程度上,提高了信息检索的查全率(recall),但却降低了查询的精度,且在实际应用中,需要不断更新同义词库,才能满足系统不断变化的要求。
-
关键词
潜语义标引
汉语信息检索
关键词
查全率
-
Keywords
Information retrieval,Indexing,Semantic indexing,Chinese
-
分类号
G354.4
[文化科学—情报学]
-
-
题名基于潜在语义标引的WEB文档自动分类
被引量:9
- 2
-
-
作者
戚涌
徐永红
刘凤玉
-
机构
南京理工大学计算机科学与工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第22期28-31,共4页
-
基金
国家863高技术研究发展计划基金资助项目(编号:2002AA113161)
国家自然科学基金资助项目(编号:69973020)
国家部委应用基础基金资助项目(编号:J1300D004)
-
文摘
Web挖掘技术在商业上有广泛的应用前景,但现有的Web挖掘技术存在计算量大,精度不高等问题。论文提出的LSIWAC算法,首先运用潜在语义标引技术将Web页面词空间压缩到低维的特征空间;然后,在得到的特征空间上运用最优聚类将样本集合分为若干簇;对得到的每簇鉴别特征再利用最佳鉴别变换进行压缩和特征抽取,并用最终得到的特征矢量进行分类。该方法克服了样本高维效应,有效提高分类准确率,降低计算量。实验结果验证所提方法的有效性。
-
关键词
WEB挖掘
潜在语义标引
最佳鉴别变换
分类
-
Keywords
Web mining,Latent Semantic Indexing,optimal discriminate transform,classification
-
分类号
TP182
[自动化与计算机技术—控制理论与控制工程]
-
-
题名潜在语义标引在中文信息检索中的研究与实现
被引量:16
- 3
-
-
作者
居斌
-
机构
浙江省科技信息研究院网管中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第5期193-196,共4页
-
文摘
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。
-
关键词
潜在语义标引
向量空间模型
信息检索
中文
-
Keywords
Latent semantic indexing(LSI)
Vector space model
Information retrieval
Chinese
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名信息过滤技术及Visual J++实现
- 4
-
-
作者
马建国
邢玲
何军
-
机构
电子科技大学通信与信息工程学院
中国科学技术大学信息科学技术学院
信息产业部第
-
出处
《系统工程与电子技术》
EI
CSCD
北大核心
2004年第3期382-385,共4页
-
基金
国家自然科学基金(60272014)
国家"836"高技术计划(2002AA121063)基金资助课题
-
文摘
信息过滤技术的目的是滤除信息垃圾、建立主动服务机制。论述了信息过滤技术中的原理、关键技术及其实现方法。采用话题为基本单位,分析了信息的特征,建立的用户兴趣模型;根据用户反馈来动态地了解用户的兴趣变化,提出了潜在语义标引的过滤算法,并依据用户设定的不良信息库更有效地过滤出用户所需要的信息。利用VisualJ++(VJ)实现了信息过滤软件基本功能,实验证明上述过滤算法的有效性。最后给出了在信息过滤技术中正在研究的几个问题。
-
关键词
信息过滤
特征提取
兴趣模型
潜在语义标引
-
Keywords
information filtering
feature extraction
interesting profile
latent semantic indexing
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-