-
题名一种基于SVM及文本密度特征的网页信息提取方法
被引量:14
- 1
-
-
作者
周艳平
李金鹏
宋群豹
-
机构
青岛科技大学信息科学技术学院
-
出处
《计算机应用与软件》
北大核心
2019年第10期251-255,261,共6页
-
基金
国家自然科学基金项目(61402246)
山东省高等学校科技计划项目(J14LN31)
-
文摘
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。
-
关键词
SVM
正文抽取
DOM树
文本密度特征
-
Keywords
SVM
Text extraction
DOM tree
Text density features
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-