检索结果-维普期刊中文期刊服务平台

基于混合语言模型的文档相似性计算模型被引量：2: 1; 作者李晓光于戈王大玲《中文信息学报》 CSCD 北大核心 2006年第4期41-48,共8页; 为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响... 展开更多; 关键词人工智能自然语言处理文档相似性统计语言模型混合模型 EM算法; 在线阅读下载PDF 职称材料

一种基于EMD的文档语义相似性度量被引量：3: 2; 作者王晓东郭雷 +1 位作者方俊董淑福《电子与信息学报》 EI CSCD 北大核心 2008年第9期2156-2161,共6页; 针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——..Mdss_EMD(Metric for document semantic similarity... 展开更多; 关键词信息检索 EMD(Earth Mover’s Distance) 度量文档相似性匹配语义距离; 在线阅读下载PDF 职称材料

新相似性度量在文档模糊聚类中的应用研究被引量：1: 3; 作者郭建永蔡勇甄艳霞《计算机工程与应用》 CSCD 北大核心 2009年第13期160-162,共3页; 相似文档检索在文档管理中是很重要的,提出一种在大文档集中基于模糊聚类的快速高效的聚类方法,传统方法大都通过词与词之间的比较来检索文档,该方法让文档通过两层结构得出相似度。系统用预定义模糊簇来描述相似文档的特征向量,用这些... 展开更多; 关键词文档聚类文档相似性模糊聚类簇; 在线阅读下载PDF 职称材料

PCCS部分聚类分类:一种快速的Web文档聚类方法被引量：23: 4; 作者王爱华张铭 +1 位作者杨冬青唐世渭《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页; PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... 展开更多; 关键词聚类分类特征选取文档相似性 PCCS WEB文档信息检索; 在线阅读下载PDF 职称材料

基于主题的文档检索模型被引量：4: 5; 作者贾西平彭宏 +2 位作者郑启伦石时需江焯林《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第9期37-42,共6页; 现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,... 展开更多; 关键词主题文档相似性文档检索信息检索数据挖掘; 在线阅读下载PDF 职称材料

题名基于混合语言模型的文档相似性计算模型被引量：2: 1; 作者李晓光于戈王大玲; 机构东北大学信息科学与工程学院; 出处《中文信息学报》 CSCD 北大核心 2006年第4期41-48,共8页; 基金国家自然科学基金资助项目(60573090 60503036 60473073); 文摘为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。; 关键词人工智能自然语言处理文档相似性统计语言模型混合模型 EM算法; Keywords artificial intelligence natural language processing document similarity statistic language model finite mixture model EM; 分类号 TP391.41 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名一种基于EMD的文档语义相似性度量被引量：3: 2; 作者王晓东郭雷方俊董淑福; 机构空军工程大学电讯工程学院西北工业大学自动化学院; 出处《电子与信息学报》 EI CSCD 北大核心 2008年第9期2156-2161,共6页; 文摘针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——..Mdss_EMD(Metric for document semantic similarity based EMD)。首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化。该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,Mdss_EMD的整体性能优于原EMD及现有其它类似方法。; 关键词信息检索 EMD(Earth Mover’s Distance) 度量文档相似性匹配语义距离; Keywords Information retrieval EMD（Earth Mover＇s Distance） Metric Document similarity Match Semantic distance; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名新相似性度量在文档模糊聚类中的应用研究被引量：1: 3; 作者郭建永蔡勇甄艳霞; 机构江南大学信息工程学院; 出处《计算机工程与应用》 CSCD 北大核心 2009年第13期160-162,共3页; 文摘相似文档检索在文档管理中是很重要的,提出一种在大文档集中基于模糊聚类的快速高效的聚类方法,传统方法大都通过词与词之间的比较来检索文档,该方法让文档通过两层结构得出相似度。系统用预定义模糊簇来描述相似文档的特征向量,用这些向量估计相似度,由此得出文档之间的距离,系统应用了新的相似性度量方法,并通过实验证实了其可行性和高效性。; 关键词文档聚类文档相似性模糊聚类簇; Keywords document clustering document similarity fuzzy clustering cluster; 分类号 TP311.52 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名PCCS部分聚类分类:一种快速的Web文档聚类方法被引量：23: 4; 作者王爱华张铭杨冬青唐世渭; 机构北京大学计算机科学与技术系北京大学视觉与听觉处理国家重点实验室; 出处《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页; 基金国家重点基础研究发展规划"九七三"基金项目资助!(G19990 32 70 5 ); 文摘 PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果。; 关键词聚类分类特征选取文档相似性 PCCS WEB文档信息检索; Keywords clustering, classification, feature selection, document similarity; 分类号 G354.4 [文化科学—情报学]; 在线阅读下载PDF 职称材料

题名基于主题的文档检索模型被引量：4: 5; 作者贾西平彭宏郑启伦石时需江焯林; 机构华南理工大学计算机科学与工程学院; 出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2008年第9期37-42,共6页; 基金广东省自然科学基金资助项目(07006474) 广东省科技攻关项目(2007B010200044); 文摘现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%.; 关键词主题文档相似性文档检索信息检索数据挖掘; Keywords topic document similarity document retrieval information retrieval data mining; 分类号 TP391 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于混合语言模型的文档相似性计算模型	李晓光于戈王大玲	《中文信息学报》 CSCD 北大核心	2006	2	在线阅读下载PDF 职称材料
2	一种基于EMD的文档语义相似性度量	王晓东郭雷方俊董淑福	《电子与信息学报》 EI CSCD 北大核心	2008	3	在线阅读下载PDF 职称材料
3	新相似性度量在文档模糊聚类中的应用研究	郭建永蔡勇甄艳霞	《计算机工程与应用》 CSCD 北大核心	2009	1	在线阅读下载PDF 职称材料
4	PCCS部分聚类分类:一种快速的Web文档聚类方法	王爱华张铭杨冬青唐世渭	《计算机研究与发展》 EI CSCD 北大核心	2001	23	在线阅读下载PDF 职称材料
5	基于主题的文档检索模型	贾西平彭宏郑启伦石时需江焯林	《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心	2008	4	在线阅读下载PDF 职称材料