-
题名融合用户兴趣和混合估计的微博检索模型
被引量:4
- 1
-
-
作者
吴树芳
张雄涛
朱杰
-
机构
河北大学管理学院
天津大学管理与经济学部
中央司法警官学院信息管理系
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2019年第4期411-419,共9页
-
基金
国家社会科学基金面上项目"网络信息治理视域下社交网络不可信用户识别研究"(17BTQ068)
-
文摘
随着移动互联技术的进一步发展,微博检索已成为微博服务的重要组成部分。考虑到微博检索与传统文本检索的不同,提出一个改进的微博检索模型。新模型对传统查询似然模型中的文档先验概率和文档语言模型估计进行了改进。在文档先验概率方面,通过量化用户对博文的兴趣获得用户的兴趣博文库,并在兴趣博文库的基础上计算微博先验概率,使得符合检索用户兴趣的微博具有较高的先验概率;在文档语言模型估计方面,混合内容及用户交互两方面信息获得微博的相关文档集,并将其作为平滑项实现对微博文档语言模型的混合估计,有效缓解了微博短文本的数据稀疏问题。实验采用从新浪微博爬取的真实数据对研究内容的有效性进行验证,结果表明与现有研究中较好的改进查询似然模型相比,新模型在P@15、P@30和MRR上均有一定提高。
-
关键词
微博检索
查询似然模型
用户兴趣
用户交互
混合估计
-
Keywords
microblog retrieval
query likelihood model
user interest
user interaction
mixed estimation
-
分类号
G354
[文化科学—情报学]
-
-
题名一种基于作者建模的微博检索模型
被引量:8
- 2
-
-
作者
李锐
王斌
-
机构
中国科学院计算技术研究所
中国科学院大学
-
出处
《中文信息学报》
CSCD
北大核心
2014年第2期136-143,共8页
-
基金
国家自然科学基金(61070111)
-
文摘
近年来,微博的发展令人瞩目,微博检索已经成为一个重要的研究课题。而微博具有文本内容短、更新快、融合社交网络等特点,这些特点使微博的检索不同于传统的web检索。该文首先分析了传统的向量空间模型、概率模型以及基本的语言模型直接用于微博检索将面临的问题;接着在语言模型框架下提出了利用作者信息对微博内容进行扩展的思想,即利用作者信息重新估计微博的语言模型;然后针对话题模型在短文档训练中存在的问题,提出了使用作者的文档话题模型来进一步扩展微博的内容;最后在TREC公开数据集上进行了实验。实验结果表明,可以通过合理使用作者信息来有效的提高微博检索的效果。
-
关键词
微博
作者模型
微博检索
平滑
-
Keywords
microblog
author model
microblog retrieval
smoothing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名微博检索的研究进展
被引量:2
- 3
-
-
作者
卫冰洁
王斌
张帅
李鹏
-
机构
中国科学院计算技术研究所
国家计算机网络应急技术处理协调中心
中国科学院信息工程研究所
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期10-23,共14页
-
基金
科技支撑计划(2012BAH46B02)
-
文摘
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。该文首先以TREC Microblog数据为基础,从分析微博文档和微博查询两方面出发,得出微博检索与传统文本检索之间的两点不同:一是微博文档相较于网页具有很多独有的特征;二是微博查询属于时间敏感查询,即在排序时除了考虑文本的语义相似度,还需要考虑时间因素,将这类方法统称为时间感知的检索技术。这两点差异使得已有的信息检索技术不能满足微博搜索的需求。该文主要介绍了近年来这两方面的相关研究:首先描述了微博本身的多种特征以及基于这些特征提出的检索方法;然后以传统信息检索过程为主线,分别介绍了将时间信息用于文本表示、文档先验、查询扩展三方面的排序模型,最后总结了已有工作并且对未来研究内容进行了展望。
-
关键词
微博检索
时间信息
微博特性
文本表示
文档先验
查询扩展
-
Keywords
microblog search
temporal information
microblog feature
text representation
document priori
query expansion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名融合语义和时间因子的微博检索
被引量:2
- 4
-
-
作者
王李冬
吕明琪
-
机构
杭州师范大学钱江学院
浙江工业大学
-
出处
《情报杂志》
CSSCI
北大核心
2016年第4期190-194,共5页
-
基金
浙江省自然科学基金项目"面向微博的异构媒质时空语义网络构建与关联检索研究"(编号:LQ14F020008)研究成果之一
-
文摘
[目的/意义]目前微博已经成为人们获取信息和发布信息的主要平台,具备数据海量、更新及时等特点。从微博的大数据环境下帮助用户查询到语义相关的信息是目前迫切需要解决的问题。[方法/过程]提出一种融合语义相关度计算和时间因子的微博语义检索方法。首先利用基于Word Net知识库系的语义相关度分析进行初始排序,然后通过待检索词汇的时间因子计算进行二次排序,最终返回和待检索主题词语义相关并且时间分布较接近的微博文本。[结果/结论]在twitter数据集上进行实验分析,结果表明该方法能够获得较高的语义查准率。
-
关键词
微博检索
WORDNET
时间因子
TWITTER
-
Keywords
Microblog retrieval
WordNet
temporal factor
twitter
-
分类号
G354
[文化科学—情报学]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图模型决策的微博检索二次排序算法
被引量:1
- 5
-
-
作者
杨震
张广源
范科峰
-
机构
北京工业大学计算机学院
可信计算北京市重点实验室
桂林电子科技大学广西高校云计算与复杂系统重点实验室
中国电子技术标准化研究院
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2017年第1期94-99,共6页
-
基金
北京市优秀人才
北京市属高校青年拔尖人才资助项目(CIT&TCD201404052)
+1 种基金
国家科技支撑计划资助项目(2015BAK21B04)
广西高校云计算与复杂系统重点实验室资助项目(15205)
-
文摘
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.
-
关键词
微博检索
二次重排
图模型
决策树
-
Keywords
microblogging retrieval
results re-ranking
graph model
decision tree
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词汇时间分布的微博查询扩展
被引量:10
- 6
-
-
作者
韩中元
杨沐昀
孔蕾蕾
齐浩亮
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
黑龙江工程学院计算机科学与技术学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第10期2031-2044,共14页
-
基金
国家自然科学基金(61370170
61402134
+1 种基金
61173074)
国家社科基金(14CTQ032)资助~~
-
文摘
该文提出了一种面向微博检索的基于词汇时间分布的查询扩展方法.该方法利用扩展词与查询词的时间分布的相似性来度量扩展词与查询词之间的相关度,建立了基于词汇时间分布的查询模型.具体而言,该文在提出词汇时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估.该文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足.由TREC 2011和TREC 2012微博检索评测数据上的实验结果表明,基于词汇时间分布的查询扩展模型有效地提高了微博检索的性能,不仅显著优于经典的基于内容的查询扩展模型,而且优于其他利用时间进行查询扩展的方法.
-
关键词
微博检索
查询扩展
查询模型
词汇时间分布
时间
社交网络
社会媒体
-
Keywords
microblog retrieval social networking
social media query expansion
query model
term time distribution
time
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种融合聚类和时间信息的微博排序新方法
被引量:8
- 7
-
-
作者
卫冰洁
史亮
王斌
-
机构
中国科学院计算技术研究所
国家计算机网络应急技术处理协调中心
中国科学院信息工程研究所
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期177-183,189,共8页
-
基金
科技支撑计划(2012BAH46B02)
-
文摘
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同:一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。
-
关键词
微博检索
Hashtag
聚类
时间
语言模型
-
Keywords
microblog search
Hashtag
cluster
temporal
language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-