-
题名基于用户查询日志的命名实体挖掘
被引量:8
- 1
-
-
作者
翟海军
郭嘉丰
王小磊
许洪波
-
机构
中国科学技术大学计算机学院
中国科学院计算技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2010年第1期71-76,116,共7页
-
文摘
针对大规模查询日志中丰富的命名实体的挖掘是数据挖掘领域中的重要研究课题。已有的研究工作提出了一种基于种子实体的抽取框架,利用实体间的分布相似度进行挖掘。然而该工作只有当种子实体仅属于单个语义类别时才能取得好的结果,实际上命名实体往往可能从属于多个类别。该文通过引入一个弱指导话题模型,利用少量的人工指导信息,很好地解决了实体的类别模糊性,提高了挖掘的有效性。实验表明该文提出的方法在实体挖掘性能上显著优于已有的方法。
-
关键词
计算机应用
中文信息处理
分开命名实体
用户查询日志
话题模型
-
Keywords
computer application
Chinese information processing
named entity
query log
topic model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于半监督话题模型的用户查询日志命名实体挖掘
被引量:6
- 2
-
-
作者
曹雷
郭嘉丰
白露
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与工程研究中心
中国科学院研究生院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第5期26-32,共7页
-
基金
国家自然科学基金资助项目(60903139
60873243
+2 种基金
60933005)
国家863计划重点资助项目(2010AA012502
2010AA012503)
-
文摘
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。
-
关键词
用户查询日志
命名实体挖掘
半监督话题模型
-
Keywords
query log
named entity mining~ Semi-supervised Topic Model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于用户查询日志的双级缓存结构设计
被引量:2
- 3
-
-
作者
梁敏
解萍
郝向宁
-
机构
空军大连通信士官学校基础部
-
出处
《信息网络安全》
2012年第6期44-46,50,共4页
-
文摘
文章针对目前分布式缓存系统命中率低和查询处理时间长的问题,在分析某中文搜索引擎于2009年9月查询日志集的用户查询特征和热点内容分布特征的基础上,设计并实现了包括静态缓存和动态缓存的双级缓存结构。最后,从理论分析和实验数据两方面,论证了基于查询日志的双级缓存结构在性能方面更具优越性。
-
关键词
分布式缓存系统
用户查询日志
双级缓存结构
-
Keywords
distributed caching system
user query log
two-level cache structure
-
分类号
TP333
[自动化与计算机技术—计算机系统结构]
-
-
题名结合用户日志的局部上下文分析方法
被引量:3
- 4
-
-
作者
熊忠阳
向海燕
张玉芳
-
机构
重庆大学计算机学院
-
出处
《计算机工程与应用》
CSCD
2012年第12期74-77,87,共5页
-
基金
重庆市科委基金资助项目(No.CSTC2008BB2191)
-
文摘
传统的局部上下文分析其应用效果高度依赖于初次检索的结果。针对此局限,通过对用户查询日志的统计分析和过滤,得到用户最可能感兴趣的文章,代替初始检索得到的N篇文章,作为查询扩展词来源文档集,用局部上下文分析方法计算词间相关度。实验结果表明,该方法能够较大地提高查询精度。
-
关键词
局部上下文分析
用户查询日志
查询扩展
过滤
-
Keywords
local context analysis
user query log
query expansion
filtration
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-