-
题名Web页面信息块的自动分割
被引量:10
- 1
-
-
作者
瞿有利
于浩
徐国伟
西野文人
-
机构
富士通研究开发中心有限公司
株式会社富士通研究所
-
出处
《中文信息学报》
CSCD
北大核心
2004年第1期6-13,共8页
-
文摘
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。
-
关键词
计算机应用
中文信息处理
WEB页面
信息提取
信息块
-
Keywords
computer application
Chinese information processing
Web page
information extraction
information block
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-