期刊文献+

搜索引擎查询日志的词性标注和挖掘研究 被引量:8

The POS & Mining Study on Search Engine's Query Log
在线阅读 下载PDF
导出
摘要 利用搜狗(Sogou)2007年3月的查询日志,使用词性标注方法,得出高频词性标注结果的分布特征。发现用户在查询中以使用名词为主,动词为辅,鲜有其它词类出现在高频词性标注结果中。以"的"为代表的虚词较少地出现在高频词性标注结果中。网络搜索的查询式与自然语言在句法上存在一定差异,但也有相通之处。用户主要使用名词进行概念性检索,关键词仍为用户进行检索的主要手段。高频词性标注结果部分符合Zipf定律。 The paper analyzes the query logs in March, 2007, from Sogou search engine. POS tagging is used to get the characters of high frequency POS results. Web users use nouns as primary and verbs as complementary methods in Web queries ; but other parts of speech seldom appear in the queries. The empty words in natural language, such as "的", do not appear in the high frequency POS results very often. Queries in the Web searching are different from natural language in syntax to a certain degree and they have shared characters at the same time. Web users' use nouns to do concept -focused retrieval and keywords are still the primary method to search on the Web. The high frequency results of POS tagging partially obey the Zipf' s law.
作者 赖茂生 屈鹏
出处 《现代图书情报技术》 CSSCI 北大核心 2009年第4期50-56,共7页 New Technology of Library and Information Service
关键词 日志挖掘 词性标注 语言行为 词性分布 查询句法 Log mining Part -of- speech tagging Language behavior POS distribution QuerT syntax
作者简介 E—mail:pqu@pku.edu.cn
  • 相关文献

参考文献14

  • 1赖茂生,屈鹏.网络搜索中语言使用特征研究[J].现代图书情报技术,2008(7):47-53. 被引量:5
  • 2Jansen B J, Spink A, SareevieT. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web [J]. Information Processing and Management, 2000, 36(2) : 207 -227.
  • 3Spink A, Jansen B J, Wolfman D, et al. 2002. From E - sex to E - commerce : Web Search Changes[J]. IEEE Computer, 35 (3) : 133 - 135.
  • 4Jansen B J, Spink A. How are We Searching the World Wide Web? A Colllparison of Nine Search Engine Transaction Logs [ J ]. Information Processing and Management, 2006, 42(1): 248- 263.
  • 5Rieh S Y, Xie, H I. Analysis of Multiple Query Reformulations on the Web: the Interaetive Information Retrieval Context [ J ]. Intormarion Processing and Management, 2006, 42 ( 3 ) : 751 - 768.
  • 6王继民,彭波.搜索引擎用户点击行为分析[J].情报学报,2006,25(2):154-162. 被引量:45
  • 7王继民,孟涛.WeD搜索引擎日志挖掘研究[R/OL]//中国人搜索行为研究实验室年度报告2006.北京:北京人学信息管理系,2006:35-48.[2008-08-22].http://www.searchlab.com.cn/web/thesis/thesis_151.html.
  • 8余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量:119
  • 9郭岩,白硕,杨志峰,张凯.网络日志规模分析和用户兴趣挖掘[J].计算机学报,2005,28(9):1483-1496. 被引量:62
  • 10李亚楠,王斌.一个中文搜索引擎的查询日志分析[J].数字图书馆论坛,2008(7):1-10. 被引量:4

二级参考文献52

共引文献219

同被引文献97

引证文献8

二级引证文献31

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部