期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于Word2Vec模型特征扩展的Web搜索结果聚类性能的改进 被引量:5
1
作者 杨楠 李亚平 《计算机应用》 CSCD 北大核心 2019年第6期1701-1706,共6页
对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类... 对于用户泛化和模糊的查询,将Web搜索引擎返回的列表内容聚类处理,便于用户有效查找感兴趣的内容。由于返回的列表由称为片段(snippet)的短文本组成,而传统的单词频率-逆文档频率(TF-IDF)特征选择模型不能适用于稀疏的短文本,使得聚类性能下降。一个有效的方法就是通过一个外部的知识库对短文本进行扩展。受到基于神经网络词表示方法的启发,提出了通过词嵌入技术的Word2Vec模型对短文本扩展,即采用Word2Vec模型的TopN个最相似的单词用于对片段(snippet)的扩展,扩展文档使得TF-IDF模型特征选择得到聚类性能的提高。同时考虑到通用性单词造成的噪声引入,对扩展文档的TF-IDF矩阵进行了词频权重修正。实验在两个公开数据集ODP239和SearchSnippets上完成,将所提方法和纯snippet无扩展的方法、基于Wordnet的特征扩展方法和基于Wikipedia的特征扩展方法进行了对比。实验结果表明,所提方法在聚类性能方面优于对比方法。 展开更多
关键词 特征扩展 片段 词嵌入技术 搜索结果聚类
在线阅读 下载PDF
基于模糊概念格的Web搜索结果聚类算法 被引量:6
2
作者 黄健斌 姬红兵 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2005年第6期856-860,共5页
提出了一种模糊形式概念分析方法,给出了在对象和属性的模糊二元关系上生成模糊概念格的过程.提出了一种在格的拓扑序列上进行概念聚类的快速算法,并且定义了概念聚类间基于偏序的层次关系.该方法利用格理论解决了概念聚类中概念间的多... 提出了一种模糊形式概念分析方法,给出了在对象和属性的模糊二元关系上生成模糊概念格的过程.提出了一种在格的拓扑序列上进行概念聚类的快速算法,并且定义了概念聚类间基于偏序的层次关系.该方法利用格理论解决了概念聚类中概念间的多重继承关系,应用在W eb搜索结果聚类上,实验结果表明算法在聚类质量和检索性能上都有改进和提高. 展开更多
关键词 模糊概念格 概念 Web搜索结果聚类
在线阅读 下载PDF
利用标签的层次化搜索结果聚类方法 被引量:5
3
作者 张云 冯博琴 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第4期18-21,38,共5页
为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元... 为了提高搜索引擎返回结果的可浏览性,满足用户对查询质量的要求,提出了一种层次化搜索结果聚类方法.首先,从搜索引擎的返回结果提取出文档集,并对每一个文档进行词干化、去除停用词等操作.然后,根据词共现信息来发现文档集中的频繁2元组,再将2元组扩展为n元组,对所有元组进行去冗余、重要性排序,从而获得候选聚类标签.最后,基于该标签对返回结果中的文档进行分配与聚集,形成层次化聚类结果.实验结果表明,所提方法可以通过获得的准确、可读性较好的聚类标签,帮助用户有效地浏览搜索引擎返回的结果.与Vivisimo、STC、Lingo算法比较,以及在多个评价指标上的综合实验结果也表明,该方法是有效的. 展开更多
关键词 搜索结果聚类 词共现 候选标签 层次化
在线阅读 下载PDF
基于词间语义相关度的搜索结果聚类算法 被引量:2
4
作者 沙芸 张国英 《郑州大学学报(理学版)》 CAS 北大核心 2009年第1期73-76,共4页
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核... 将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词间语义相关度的搜索结果聚类算法,该算法以词为聚类的核心,词所出现的文档为词的属性,根据词在搜索结果文档中共现的情况来划分类别.该方法可以充分利用词间的语义相关性,类别划分后即可确定类名.实验结果表明,对搜索结果聚类时与K-Means和STC算法相比,质量上有所提高. 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度
在线阅读 下载PDF
一种改进的基于后缀树模型搜索结果聚类算法 被引量:3
5
作者 刘德山 《计算机科学》 CSCD 北大核心 2011年第11期148-152,共5页
针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中... 针对现有搜索结果分类算法在聚类标签筛选、聚类质量评估及控制重叠聚类方面的缺陷,提出了一种改进的基于向量空间模型与后缀树模型的检索结果聚类算法,从而完善了LINGO算法的聚类及聚类标签打分函数,增加了基本类合并过程,改善了对中文的处理效果。最后对算法的分类效果及产生标签的质量进了实验分析,基于carrot2框架,建立了Web搜索结果聚类推荐平台。验证了CQIG算法分类的准确性和聚类标签的区分性和可读性。 展开更多
关键词 搜索结果聚类 后缀树模型 向量空间模型 奇异值分解
在线阅读 下载PDF
基于词汇图的搜索结果聚类算法
6
作者 沙芸 张国英 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期135-139,共5页
将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定... 将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统聚类方法难以准确计算其相似度.提出了一种基于词汇图的搜索结果聚类算法,以词作为聚类的核心依据,定义了以词为顶点、文档为词的属性、词间相关度为边的词汇图,并以词汇图为依据进行文档类别划分.充分利用了词间的关联信息,增强了同义词的扩展能力,划分后即可确定类别名.实验结果表明,进行搜索结果聚类时与传统算法相比质量上有所提高. 展开更多
关键词 搜索结果聚类 词汇图 同义词 文档相似度
在线阅读 下载PDF
一种基于命名实体的搜索结果聚类算法 被引量:6
7
作者 陈永超 刘贵全 《计算机工程》 CAS CSCD 北大核心 2009年第7期46-48,共3页
针对现有搜索结果聚类方法中形成的聚类标签可读性比较差的情况,提出一种基于命名实体的搜索结果聚类方法——NEC。命名实体作为文本中的基本信息元素,具有一定的实际意义,表征主题的能力比一般词语更强,也更具可读性。算法以搜索结果... 针对现有搜索结果聚类方法中形成的聚类标签可读性比较差的情况,提出一种基于命名实体的搜索结果聚类方法——NEC。命名实体作为文本中的基本信息元素,具有一定的实际意义,表征主题的能力比一般词语更强,也更具可读性。算法以搜索结果文档中存在的命名实体作为聚类的标签,经过一定的标签选择和聚类合并策略,形成最终的聚类结果,提高聚类标签的可读性。实验证明,该方法是一种可行的搜索结果聚类方法。 展开更多
关键词 命名实体 搜索结果聚类 索引
在线阅读 下载PDF
基于关键名词短语聚类的中文搜索结果聚类 被引量:1
8
作者 麻雪云 肖诗斌 +1 位作者 王弘蔚 施水才 《计算机工程与应用》 CSCD 北大核心 2009年第31期118-121,共4页
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,... 目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。 展开更多
关键词 搜索结果聚类 关键名词短语抽取 C-Value算法 CHAMELEON算法
在线阅读 下载PDF
基于SFLA和FCM的Web搜索结果聚类 被引量:1
9
作者 许方 张桂珠 《计算机工程与应用》 CSCD 2013年第14期109-112,116,共5页
针对模糊聚类算法中存在的对初始值敏感、易陷入局部最优等问题,提出了一种融合改进的混合蛙跳算法(SFLA)的模糊C均值算法(FCM)用于Web搜索结果的聚类。新算法中,使用SFLA的优化过程代替FCM的基于梯度下降的迭代过程。改进的SFLA通过混... 针对模糊聚类算法中存在的对初始值敏感、易陷入局部最优等问题,提出了一种融合改进的混合蛙跳算法(SFLA)的模糊C均值算法(FCM)用于Web搜索结果的聚类。新算法中,使用SFLA的优化过程代替FCM的基于梯度下降的迭代过程。改进的SFLA通过混沌搜索优化初始解,变异操作生成新个体,并设计了一种新的搜索策略,有效地提高了算法寻优能力。实验结果表明,该算法提高了模糊聚类算法的搜索能力和聚类精度,在全局寻优能力方面具有优势。 展开更多
关键词 Web搜索结果聚类 混合蛙跳算法 模糊C均值 搜索策略
在线阅读 下载PDF
基于主题词匹配频数的搜索引擎结果聚类算法 被引量:2
10
作者 胡诗未 李晓峰 徐伟 《计算机工程与科学》 CSCD 北大核心 2011年第6期130-132,共3页
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题... 搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度 主题词
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部