-
题名一种基于统计的中文网页正文抽取方法
被引量:3
- 1
-
-
作者
钱爱兵
-
机构
南京中医药大学经贸管理学院
-
出处
《情报学报》
CSSCI
北大核心
2009年第2期187-194,共8页
-
文摘
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。
-
关键词
文本密度
文本结点
正文抽取
贝叶斯判别准则
DOM树
-
Keywords
text density
text node
fulltext extraction
Bayesian criteria
DOM tree
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
H152.3
[语言文字—汉语]
-