期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
融合用户兴趣和混合估计的微博检索模型 被引量:4
1
作者 吴树芳 张雄涛 朱杰 《情报学报》 CSSCI CSCD 北大核心 2019年第4期411-419,共9页
随着移动互联技术的进一步发展,微博检索已成为微博服务的重要组成部分。考虑到微博检索与传统文本检索的不同,提出一个改进的微博检索模型。新模型对传统查询似然模型中的文档先验概率和文档语言模型估计进行了改进。在文档先验概率方... 随着移动互联技术的进一步发展,微博检索已成为微博服务的重要组成部分。考虑到微博检索与传统文本检索的不同,提出一个改进的微博检索模型。新模型对传统查询似然模型中的文档先验概率和文档语言模型估计进行了改进。在文档先验概率方面,通过量化用户对博文的兴趣获得用户的兴趣博文库,并在兴趣博文库的基础上计算微博先验概率,使得符合检索用户兴趣的微博具有较高的先验概率;在文档语言模型估计方面,混合内容及用户交互两方面信息获得微博的相关文档集,并将其作为平滑项实现对微博文档语言模型的混合估计,有效缓解了微博短文本的数据稀疏问题。实验采用从新浪微博爬取的真实数据对研究内容的有效性进行验证,结果表明与现有研究中较好的改进查询似然模型相比,新模型在P@15、P@30和MRR上均有一定提高。 展开更多
关键词 微博检索 查询似然模型 用户兴趣 用户交互 混合估计
在线阅读 下载PDF
一种基于作者建模的微博检索模型 被引量:8
2
作者 李锐 王斌 《中文信息学报》 CSCD 北大核心 2014年第2期136-143,共8页
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接... 近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。 展开更多
关键词 微博 作者模型 微博检索 平滑
在线阅读 下载PDF
微博检索的研究进展 被引量:2
3
作者 卫冰洁 王斌 +1 位作者 张帅 李鹏 《中文信息学报》 CSCD 北大核心 2015年第2期10-23,共14页
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同:一是微博文档相较于网页具有很多独有的特征;二... 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同:一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究:首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。 展开更多
关键词 微博检索 时间信息 微博特性 文本表示 文档先验 查询扩展
在线阅读 下载PDF
融合语义和时间因子的微博检索 被引量:2
4
作者 王李冬 吕明琪 《情报杂志》 CSSCI 北大核心 2016年第4期190-194,共5页
[目的/意义]目前微博已经成为人们获取信息和发布信息的主要平台,具备数据海量、更新及时等特点。从微博的大数据环境下帮助用户查询到语义相关的信息是目前迫切需要解决的问题。[方法/过程]提出一种融合语义相关度计算和时间因子的微... [目的/意义]目前微博已经成为人们获取信息和发布信息的主要平台,具备数据海量、更新及时等特点。从微博的大数据环境下帮助用户查询到语义相关的信息是目前迫切需要解决的问题。[方法/过程]提出一种融合语义相关度计算和时间因子的微博语义检索方法。首先利用基于Word Net知识库系的语义相关度分析进行初始排序,然后通过待检索词汇的时间因子计算进行二次排序,最终返回和待检索主题词语义相关并且时间分布较接近的微博文本。[结果/结论]在twitter数据集上进行实验分析,结果表明该方法能够获得较高的语义查准率。 展开更多
关键词 微博检索 WORDNET 时间因子 TWITTER
在线阅读 下载PDF
基于图模型决策的微博检索二次排序算法 被引量:1
5
作者 杨震 张广源 范科峰 《北京工业大学学报》 CAS CSCD 北大核心 2017年第1期94-99,共6页
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博... 为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响. 展开更多
关键词 微博检索 二次重排 图模型 决策树
在线阅读 下载PDF
基于词汇时间分布的微博查询扩展 被引量:10
6
作者 韩中元 杨沐昀 +2 位作者 孔蕾蕾 齐浩亮 李生 《计算机学报》 EI CSCD 北大核心 2016年第10期2031-2044,共14页
该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的... 该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估.该文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足.由TREC 2011和TREC 2012微博检索评测数据上的实验结果表明,基于词汇时间分布的查询扩展模型有效地提高了微博检索的性能,不仅显著优于经典的基于内容的查询扩展模型,而且优于其他利用时间进行查询扩展的方法. 展开更多
关键词 微博检索 查询扩展 查询模型 词汇时间分布 时间 社交网络 社会媒体
在线阅读 下载PDF
一种融合聚类和时间信息的微博排序新方法 被引量:8
7
作者 卫冰洁 史亮 王斌 《中文信息学报》 CSCD 北大核心 2015年第3期177-183,189,共8页
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需... 随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。 展开更多
关键词 微博检索 Hashtag 聚类 时间 语言模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部