-
题名基于重复检测的多摘要消重方法
被引量:1
- 1
-
-
作者
程菲
汪建海
罗键
-
机构
厦门大学自动化系
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第23期4521-4524,4555,共5页
-
文摘
针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multiabstractremoverepeat,MARR)。MARR方法对传统基于词表和倒排文件的Web信息数据库进行改装,增加一个字段用于记录关键词所对应的摘要块号,采用文本摘要算法,按倒排文件方式索引,根据内容基于查询词目的相似程度,在检索过程中过滤或标识与查询词目相关的部分内部重复现象,以获得更合理的检索结果组织形式。MARR方法还将传统按PageRank值顺序排列改成树型组织方式,以方便用户信息发现的需要。该方法在基于三明钢铁集团MES智能信息代理的原型化Web检索系统中得到应用。
-
关键词
信息检索
消重方法
文本摘要
倒排文件
树型组织
-
Keywords
information retrieval
remove repeat method
text abstract
converse file
tree structure
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-