期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于改进内容分析算法的网页正文提取 被引量:3
1
作者 陈婷婷 严华 臧军 《计算机工程与设计》 北大核心 2018年第4期1017-1021,共5页
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过... 针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过滤文本特性较强的网页噪音;重新定义剪枝范围,避免剪枝过度,使Readability算法的正文内部信息丢失问题得到较好地的改善。对国内各大博客、新闻、科普、专业类网站进行正文提取实验,实验结果表明,该算法结果优于Readability算法,正文提取准确率达到95%以上。 展开更多
关键词 内容分析算法 Readability算法 数据丢失 节点相对距离 正文提取
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部