-
题名基于关键名词短语聚类的中文搜索结果聚类
被引量:1
- 1
-
-
作者
麻雪云
肖诗斌
王弘蔚
施水才
-
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2009年第31期118-121,共4页
-
基金
国家高技术研究发展计划(863)No.2006AA010105
国家自然科学基金No.60772081
+2 种基金
北京市属市管高校人才强教计划项目(No.PXM2007_014224_044677
No.PXM2007_014224_044676)
北京市教委科技发展计划项目(No.KM200710772010)~~
-
文摘
目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关键名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选标签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜索词作为聚类标签,有效地提高了标签的描述性,降低了聚类算法的时间复杂度。
-
关键词
搜索结果聚类
关键名词短语抽取
c-value算法
CHAMELEON算法
-
Keywords
search result clustering
key noun phrase extraction
c-value algorithm
Chameleon algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于排序集成的哈萨克语固定短语抽取
- 2
-
-
作者
桑海岩
古丽拉·阿东别克
孙瑞娜
陈莉
-
机构
新疆大学信息科学与工程学院
国家语言资源监测与研究中心少数民族语言中心哈萨克和柯尔克孜语文基地
新疆财经大学统计信息学院
-
出处
《计算机工程与应用》
CSCD
2014年第21期205-209,223,共6页
-
基金
国家自然科学基金(No.61063025)
新疆多语种信息技术重点实验室开放项目(No.049807)
-
文摘
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。
-
关键词
自然语言处理
固定短语
排序集成
互信息
似然比
c-value算法
-
Keywords
natural language processing
fixed phrases
rank aggregation
mutual information
log-likelihood
c-value
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-