-
题名查询日志中查询意图的自动识别
被引量:1
- 1
-
-
作者
李煜
吕学强
李卓
徐丽萍
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
北京市城市系统工程研究中心
-
出处
《计算机应用与软件》
CSCD
2015年第11期27-31,共5页
-
基金
国家自然科学基金项目(61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
-
文摘
针对用户对搜索引擎查询结果满意度不高的问题,提出一种基于用户行为分析的查询意图识别方法来提高搜索引擎查询质量。将查询意图识别视为一个分类问题,分析搜狗查询日志发现:信息事务类查询串点击的不同页面数较多,分布呈现多极值性;导航类查询串点击的不同页面数较少,分布呈现单极值性;导航类查询结果中,子页面噪声对查询分类结果产生严重干扰。根据以上特点,提出"不同页面点击数"、"点击分布值"和"异源页面点击数"三个特征,并结合前人研究,利用C4.5算法训练分类器,进行查询意图识别。实验结果中查询分类的整体正确率达到90%,与Baseline相比,提高了8.5%。结果表明,该方法对识别用户查询意图是有效的。
-
关键词
查询意图识别
查询日志
用户行为分析C4.5算法
-
Keywords
Query intention
Query log
Users behaviour analysis
CA. 5 algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-