-
题名搜索引擎用户点击行为分析
被引量:45
- 1
-
-
作者
王继民
彭波
-
机构
北京大学信息科学技术学院
中国科学院资源环境科学信息中心
-
出处
《情报学报》
CSSCI
北大核心
2006年第2期154-162,共9页
-
基金
国家自然科学基金重点项目(60435020)
教育部博士点基金项目(20030001076)
中国博士后科学基金项目(2004036182).
-
文摘
基于大规模分布式搜索引擎系统——北大“天网”的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布,点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律。提出了利用点击日志确定相近查询词的一个新的有效算法。这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义。
-
关键词
搜索引擎
点击日志
用户行为
分布特征
相似查询
-
Keywords
search engine, click log, user behavior, characteristic distribution, similar query.
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名面向用户互联网访问日志的异常点击分析
被引量:5
- 2
-
-
作者
王倩
刘奕群
马少平
茹立云
-
机构
智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期44-48,61,共6页
-
基金
国家自然科学基金项目资助(60736044
60903107)
高等学校博士学科点专项科研基金资助(20090002120005)
-
文摘
随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多IP的点击,我们建议不做处理。
-
关键词
计算机应用
中文信息处理
用户行为分析
互联网访问日志
异常点击
-
Keywords
computer application
Chinese information processing
user behavior analysis
web user access logs
abnormal click
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种分布式用户浏览点击模型算法
被引量:8
- 3
-
-
作者
张浩盛伦
李翀
柯勇
张士波
-
机构
中国科学院计算机网络信息中心
中国科学院大学
-
出处
《计算机工程》
CAS
CSCD
北大核心
2019年第3期1-6,共6页
-
基金
中国科学院信息化专项"中国科学院信息化评估"(Y647021189)
-
文摘
为从海量搜索点击日志中快速挖掘用户行为,提出一种分布式用户浏览点击模型(UBM)算法。原始UBM算法求出的检验度参数E只与搜索结果文档所在排序位置以及上一文档的点击位置有关,且非常稳定,基于此特性,将EM迭代求解转换为抽样估计检验度以求解吸引度的分布式UBM算法。在Spark数据平台上进行仿真,结果表明,与原始UBM算法相比,该算法能够解决点击日志中存在的严重数据倾斜问题,且运行效率较高。
-
关键词
点击日志
点击模型
用户浏览点击模型算法
搜索引擎
Spark平台
-
Keywords
click log
click model
user Browse click Model(UBM) algorithm
search engine
Spark platform
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于朴素贝叶斯点击预测的查询推荐方法
被引量:3
- 4
-
-
作者
石雁
李朝锋
-
机构
江南大学物联网工程学院
-
出处
《计算机应用与软件》
CSCD
2016年第10期19-22,51,共5页
-
基金
国家自然科学基金项目(61170120)
-
文摘
查询推荐作为一种改善用户查询体验和效率的重要方式,可以帮助用户筛选并提供更加准确的查询描述。目前很多查询推荐方法主要集中在热门推荐或是基于相似度匹配的推荐上,忽略了用户的查询意图,无法有效提供个性化推荐。为此,基于对用户查询点击日志进行分析与挖掘,训练出一个朴素贝叶斯模型,针对用户输入的查询,根据历史数据预测其与URL的点击率,再利用二分图将URL的预测点击值平均分配给相对应的每个查询项,最后结合Jaccard相似度和时间相关因子综合分析用户当前输入的查询与历史中查询的相关度,并给出推荐。实验证明了该方法的可行性并取得了较好的推荐效果。
-
关键词
查询推荐
用户日志
点击预测
朴素贝叶斯
二分图
Jaccard相似度
-
Keywords
Query recommendation,user log,click-through prediction,Naive bayes,Bipartite graph,Jaccard similarity
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于点击日志的搜索引擎用户满意度评价研究
被引量:1
- 5
-
-
作者
邓晓妹
武刚
-
机构
北京林业大学信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第8期245-249,共5页
-
基金
中央高校基本科研业务费专项资金(No.BLYX200928)
-
文摘
针对传统的搜索引擎人工评价方法效率低、成本大的问题,提出一种利用用户点击日志来评价搜索引擎用户满意度的方法。通过分析搜索引擎的用户点击日志,选择网页搜索结果排名、网页点击率、网页平均浏览时间作为用户满意度特征,分别运用多元线性回归分析、多元对数回归分析和BP神经网络方法,建立了基于用户点击日志的搜索引擎用户满意度评价模型。结合具体的实验数据集,通过实验对线性回归模型、对数回归模型和BP神经网络模型的结果进行了比较与分析,验证了模型的有效性。
-
关键词
搜索引擎评价
用户满意度
用户点击日志
反向传播(BP)神经网络
-
Keywords
search engine evaluation
user satisfaction
user click log
Back Propagation(BP)neural network
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-