-
题名基于改进内容分析算法的网页正文提取
被引量:3
- 1
-
-
作者
陈婷婷
严华
臧军
-
机构
四川大学电子信息学院
电子信息控制重点实验室
中石化管道储运有限公司荆门输油处
-
出处
《计算机工程与设计》
北大核心
2018年第4期1017-1021,共5页
-
基金
国家973重点基础研究发展计划基金项目(2013CB328903-2)
-
文摘
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过滤文本特性较强的网页噪音;重新定义剪枝范围,避免剪枝过度,使Readability算法的正文内部信息丢失问题得到较好地的改善。对国内各大博客、新闻、科普、专业类网站进行正文提取实验,实验结果表明,该算法结果优于Readability算法,正文提取准确率达到95%以上。
-
关键词
内容分析算法
Readability算法
数据丢失
节点相对距离
正文提取
-
Keywords
content analysis algorithm
Readability algorithm
data loss
relative distance of nodes
web content extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-