期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
Web查询日志研究综述 被引量:9
1
作者 付博 赵世奇 刘挺 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1800-1808,共9页
本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的... 本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的问题和挑战.重在对基于查询日志研究的主流方法和前沿进展进行概括、比较和分析,以期对后续研究有所助益. 展开更多
关键词 查询日志分析 查询日志挖掘 WEB搜索 信息抽取
在线阅读 下载PDF
网页搜索引擎查询日志的Session划分研究 被引量:16
2
作者 张磊 李亚楠 +2 位作者 王斌 李鹏 蒋在帆 《中文信息学报》 CSCD 北大核心 2009年第2期54-61,共8页
搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文... 搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 查询日志 session划分
在线阅读 下载PDF
搜索引擎查询日志的聚类 被引量:5
3
作者 张玉连 李彦威 +1 位作者 王权 原福永 《计算机工程》 CAS CSCD 北大核心 2009年第1期43-45,48,共4页
随着搜索引擎技术和网络数据挖掘技术的发展,怎样从搜索引擎查询日志中找到有用的信息成为研究热点。该文在讨论Beeferman提出的算法及Chan对其改进的算法的优缺点后,提出一个基于用户网页兴趣度的改进算法。该算法能进一步减小噪声数... 随着搜索引擎技术和网络数据挖掘技术的发展,怎样从搜索引擎查询日志中找到有用的信息成为研究热点。该文在讨论Beeferman提出的算法及Chan对其改进的算法的优缺点后,提出一个基于用户网页兴趣度的改进算法。该算法能进一步减小噪声数据的影响,并通过模拟实验对3种不同的算法进行了对比。 展开更多
关键词 用户兴趣 搜索引擎查询日志 数据挖掘
在线阅读 下载PDF
基于半监督话题模型的用户查询日志命名实体挖掘 被引量:6
4
作者 曹雷 郭嘉丰 +1 位作者 白露 程学旗 《中文信息学报》 CSCD 北大核心 2012年第5期26-32,共7页
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体... 基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。 展开更多
关键词 用户查询日志 命名实体挖掘 半监督话题模型
在线阅读 下载PDF
基于用户查询日志的命名实体挖掘 被引量:8
5
作者 翟海军 郭嘉丰 +1 位作者 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2010年第1期71-76,116,共7页
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际... 针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。 展开更多
关键词 计算机应用 中文信息处理 分开命名实体 用户查询日志 话题模型
在线阅读 下载PDF
基于日志分析的搜索引擎查询结果缓存研究 被引量:3
6
作者 马宏远 王斌 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期224-228,共5页
缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一.通过对搜狗搜索引擎在近1个月内约1500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期性等方... 缓存是有效减少响应时间和系统负载的关键技术,是搜索引擎系统结构研究的重要领域之一.通过对搜狗搜索引擎在近1个月内约1500万条用户查询日志进行分析和研究,针对查询结果缓存,从查询局部性、缓存策略、缓存容量、工作负载周期性等方面进行分析.分析表明,混合缓存策略以及提高缓存容量相结合的技术能有效提高搜索引擎系统性能. 展开更多
关键词 信息检索 查询日志分析 性能优化 搜索引擎 缓存
在线阅读 下载PDF
高校网络舆情监测方法:一种基于搜索引擎查询日志的研究 被引量:10
7
作者 殷姿 《黑龙江高教研究》 CSSCI 北大核心 2014年第6期64-67,共4页
网络舆情监测已经成为国内外学术研究的热点,然而聚焦于高校网络舆情监测的研究还处于起步阶段。通过相关文献研究发现,网络舆情走向与网民利用搜索引擎的搜索行为有着相互影响的关系。因此,文章提出了一种基于搜索引擎查询日志的高校... 网络舆情监测已经成为国内外学术研究的热点,然而聚焦于高校网络舆情监测的研究还处于起步阶段。通过相关文献研究发现,网络舆情走向与网民利用搜索引擎的搜索行为有着相互影响的关系。因此,文章提出了一种基于搜索引擎查询日志的高校网络舆情监测方法,并阐述了其实现的基本步骤,以期为高校网络舆情监测提供了一种新的思路。 展开更多
关键词 高校网络舆情 搜索引擎查询日志 舆情监测
在线阅读 下载PDF
基于查询日志分析的中文网页关键词抽取方法 被引量:1
8
作者 王晓艳 王珍珍 《广西师范大学学报(自然科学版)》 CAS 北大核心 2015年第2期42-48,共7页
以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间... 以全文索引为基础的网页搜索引擎检索相关度偏低。针对这一问题,本文提出了一种基于查询日志分析的中文网页关键词抽取方法。该方法利用用户对网页与查询词的相关性判断来选择关键词。为了量化用户的相关性判断,提出了单位篇幅停留时间、逆向点击率、排名补偿因子3个指标,并对其进行综合加权。在查询串分词、同义词识别及多义词消歧、关键短语组配方面,也做了特殊处理。实验结果表明:抽取关键词的准确率较高,综合性能也高于TF.IDF和SVM方法。该方法能得到较满意的关键词抽取效果。 展开更多
关键词 查询日志 关键词抽取 关键短语组配 同义词识别 多义词消歧
在线阅读 下载PDF
基于图的查询日志实体别名抽取方法
9
作者 石贝 孙乐 韩先培 《中文信息学报》 CSCD 北大核心 2013年第5期149-155,共7页
实体的别名是指同一个实体的不同名称。传统的别名抽取方法存在训练语料构建困难和时效性差这两个问题。针对这两个问题,该文提出了一种基于图的查询日志实体别名抽取方法。该方法利用查询日志的上下文信息和查询链接信息,构建了二层图... 实体的别名是指同一个实体的不同名称。传统的别名抽取方法存在训练语料构建困难和时效性差这两个问题。针对这两个问题,该文提出了一种基于图的查询日志实体别名抽取方法。该方法利用查询日志的上下文信息和查询链接信息,构建了二层图(包括别名候选图层和查询链接图层),并通过随机游走算法对图中的候选别名进行排序。实验结果表明:1)该方法准确率达到了71.8%,证明该方法可行有效。2)使用查询链接信息进行别名抽取优于使用上下文信息进行别名抽取。这两种信息的结合能获得更好的别名抽取效果。 展开更多
关键词 查询日志 别名抽取
在线阅读 下载PDF
NQPC:一种新型的基于查询日志的网页分类方法
10
作者 刘祥涛 刘书良 《计算机工程与应用》 CSCD 2012年第11期82-87,128,共7页
网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种... 网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。 展开更多
关键词 查询日志 网页分类 机器学习 文本分类 特征抽取
在线阅读 下载PDF
基于查询日志的局部共现查询扩展 被引量:4
11
作者 丁晓渊 顾春华 王明永 《计算机应用与软件》 CSCD 北大核心 2013年第12期22-27,共6页
查询扩展是信息检索中的一个关键问题,查询扩展的有效性决定了检索系统的检索性能。大多数的查询扩展基于全局分析或者局部分析法,虽然准确率有了很大的提高,但是都有各自的局限性。查询日志是大量用户长期查询行为的记录。提出了基于... 查询扩展是信息检索中的一个关键问题,查询扩展的有效性决定了检索系统的检索性能。大多数的查询扩展基于全局分析或者局部分析法,虽然准确率有了很大的提高,但是都有各自的局限性。查询日志是大量用户长期查询行为的记录。提出了基于查询日志的局部共现查询扩展方法,该方法通过挖掘用户初始查询与查询日志之间的联系,构建一个用户初始查询与用户文档的关联关系图,并且使用局部共现的方法构建相关词表,从而实现查询扩展。在50 000篇语料上的测试表明,该方法相对于未扩展时准确率提高了44%以上。 展开更多
关键词 全局分析 局部分析 查询扩展 查询日志 局部共现
在线阅读 下载PDF
基于CQPM的OLAP查询日志挖掘及推荐 被引量:1
12
作者 殷婷 肖敏 +2 位作者 陈岭 赵江奇 王敬昌 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2012年第11期2052-2060,2080,共10页
为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查... 为提高用户的使用效率,提出基于连续查询模式挖掘(CQPM)算法的联机分析处理(OLAP)查询日志挖掘及推荐方法.CQPM算法在双向扩展频繁闭合序列模式挖掘算法(BIDE)的基础上加入查询之间的间隔约束,确保查询模式的连续性.提出方法通过基于查询后缀树的模糊查询模式匹配(AQPM)算法预测用户下一步有效查询,并将预测结果按概率大小排序后推荐给用户.通过8名OLAP分析人员在Mondrian OLAP服务器上的查询日志对提出方法进行性能评价,结果表明,相较基于prefixspan的改进算法,采用CQPM算法能够去除数量庞大的冗余的查询模式,相较基本的前缀匹配算法,AQPM算法能够提高推荐的准确率. 展开更多
关键词 数据仓库 查询日志 OLAP 推荐
在线阅读 下载PDF
查询日志中查询意图的自动识别 被引量:1
13
作者 李煜 吕学强 +1 位作者 李卓 徐丽萍 《计算机应用与软件》 CSCD 2015年第11期27-31,共5页
针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;... 针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出"不同页面点击数"、"点击分布值"和"异源页面点击数"三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。结果表明,该方法对识别用户查询意图是有效的。 展开更多
关键词 查询意图识别 查询日志 用户行为分析C4.5算法
在线阅读 下载PDF
搜索引擎查询日志中的聚类算法研究 被引量:1
14
作者 勾海波 欧阳为民 徐春荣 《计算机应用与软件》 CSCD 北大核心 2007年第3期145-147,共3页
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的... 近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向。首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比。 展开更多
关键词 网络数据挖掘 搜索引擎查询日志 聚合式聚类
在线阅读 下载PDF
基于日志和知网的查询推荐研究 被引量:2
15
作者 周德志 《现代情报》 CSSCI 2013年第10期65-69,共5页
考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响,本文在分析查询日志的基础上,构建查询词与点击URL之间的双向图,计算查询词与候选词之间的相似度。然后基于知网计算查询词与候选词之间的相似度,考虑词性和同义词因素对相... 考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响,本文在分析查询日志的基础上,构建查询词与点击URL之间的双向图,计算查询词与候选词之间的相似度。然后基于知网计算查询词与候选词之间的相似度,考虑词性和同义词因素对相似度的影响。最后将两个相似度分别赋予权重计算查询词与推荐词的相关度。实验结果表明,该方法不易受数据稀疏问题的影响,稳定性较好。 展开更多
关键词 查询日志 查询推荐 双向图
在线阅读 下载PDF
基于用户查询日志的双级缓存结构设计 被引量:2
16
作者 梁敏 解萍 郝向宁 《信息网络安全》 2012年第6期44-46,50,共4页
文章针对目前分布式缓存系统命中率低和查询处理时间长的问题,在分析某中文搜索引擎于2009年9月查询日志集的用户查询特征和热点内容分布特征的基础上,设计并实现了包括静态缓存和动态缓存的双级缓存结构。最后,从理论分析和实验数据两... 文章针对目前分布式缓存系统命中率低和查询处理时间长的问题,在分析某中文搜索引擎于2009年9月查询日志集的用户查询特征和热点内容分布特征的基础上,设计并实现了包括静态缓存和动态缓存的双级缓存结构。最后,从理论分析和实验数据两方面,论证了基于查询日志的双级缓存结构在性能方面更具优越性。 展开更多
关键词 分布式缓存系统 用户查询日志 双级缓存结构
在线阅读 下载PDF
基于URL主题的查询分类方法 被引量:14
17
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 URL分类 查询日志 伪相关反馈 统计学习
在线阅读 下载PDF
基于权重标准化SimRank方法的查询扩展技术研究 被引量:6
18
作者 马云龙 林原 林鸿飞 《中文信息学报》 CSCD 北大核心 2011年第1期28-34,共7页
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之... 查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。该文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原始查询相关联的扩展词。同时,为降低SimRank算法的计算复杂度,该文采用了剪枝等策略进行优化,使得计算效率有大幅提高。在TREC标准数据集上的实验表明,该文的方法可以有效地选择相关扩展词。MAP指标较局部分析查询扩展方法提高了1.81%,在P@10和P@20指标评价中效果分别提高了5.44%和3.73%。 展开更多
关键词 搜索引擎 查询扩展 查询日志 SIMRANK
在线阅读 下载PDF
用户查询意图切分的研究 被引量:11
19
作者 江雪 孙乐 《计算机学报》 EI CSCD 北大核心 2013年第3期664-670,共7页
用户查询意图是指用户在构建查询时,希望搜索引擎能够返回的信息.如果搜索引擎可以判断用户当前查询与之前输入的查询是否属于同一查询意图,那么可以为用户提供更适当的查询建议、查询扩展或者个性化检索服务等.该文提出了基于点击相似... 用户查询意图是指用户在构建查询时,希望搜索引擎能够返回的信息.如果搜索引擎可以判断用户当前查询与之前输入的查询是否属于同一查询意图,那么可以为用户提供更适当的查询建议、查询扩展或者个性化检索服务等.该文提出了基于点击相似度切分用户查询意图,在决策树模型和CRF模型上都取得了一定的提升.利用用户点击信息可以提高查询意图切分的效果,引入用户点击信息后,基于决策树的方法,F值提高1%,基于CRF模型的F值提高1.4%. 展开更多
关键词 信息检索 查询日志 查询意图切分
在线阅读 下载PDF
基于吸收态随机行走的两阶段效用性查询推荐方法 被引量:3
20
作者 朱小飞 郭嘉丰 +1 位作者 程学旗 兰艳艳 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2603-2611,共9页
搜索引擎已经成为人们获取信息的重要途径,然而对于用户而言如何构造一个合适的查询仍然是一项困难的工作.为了减轻用户搜索信息的负担,查询推荐技术应运而生并且已经成为当今搜索引擎不可或缺的组成部分.传统的查询推荐方法主要关注向... 搜索引擎已经成为人们获取信息的重要途径,然而对于用户而言如何构造一个合适的查询仍然是一项困难的工作.为了减轻用户搜索信息的负担,查询推荐技术应运而生并且已经成为当今搜索引擎不可或缺的组成部分.传统的查询推荐方法主要关注向用户推荐相关性查询,即推荐与源查询具有相近搜索意图的其他查询.然而查询推荐的根本目标是帮助用户成功完成其搜索任务,而不仅仅是找到相关性查询,尽管相关性查询有时也能得到有用的搜索结果.为了更好地满足用户的搜索目标,一种更直接的查询推荐方式是向用户推荐高效用性查询,即能够更好满足用户信息需求的查询.提出了一个基于吸收态随机行走的2阶段效用性查询推荐方法,该方法能够同时对用户的查询重构行为和查询点击行为进行建模并推导出查询的效用.在真实查询日志上的实验结果表明:新方法在评价指标查询相关率(query relevant ratio,QRR)和平均相关文档数(mean relevant document,MRD)上要显著优于其他5种基准方法. 展开更多
关键词 查询推荐 查询日志 吸收态随机行走 查询流程图 效用性
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部