期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于统计的中文网页正文抽取方法 被引量:3
1
作者 钱爱兵 《情报学报》 CSSCI 北大核心 2009年第2期187-194,共8页
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值... 针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现。 展开更多
关键词 文本密度 文本结点 正文抽取 贝叶斯判别准则 DOM树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部