期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于SVM及文本密度特征的网页信息提取方法 被引量:14
1
作者 周艳平 李金鹏 宋群豹 《计算机应用与软件》 北大核心 2019年第10期251-255,261,共6页
针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样... 针对网页的多样性、复杂性和非标准化程度的提高,提出一种基于SVM及文本密度特征的网页信息提取方法。该方法先将网页整体解析成DOM树,然后根据网页结构提出五种网页密度特征,用数学模型进行密度比例分析,并采用高斯核函数(RBF)训练样本数据。该方法训练出的数据模型能够准确地去除网页广告、导航、版权信息等噪音信息,保留正文信息块,最后进行正文信息块内除噪。实验表明,该方法不仅有较高的精度,而且通用性好。 展开更多
关键词 SVM 正文抽取 DOM树 文本密度特征
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部