期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于文本对象模型的自动化网页内容提取方法 被引量:3
1
作者 李桐宇 任锐 +1 位作者 蔡鸿明 姜丽红 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第10期1363-1369,共7页
网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点... 网页内容提取在信息检索、文本分析以及网络资源数据处理等领域具有重要的工程与应用价值.针对网页中的大量无关内容及网页结构的异构性所造成的网页内容提取难题,提出一种基于文本对象模型(DOM)的自动化网页内容提取方法.首先,在节点过滤后,对网页的DOM模型进行压缩,便于后续分析处理;然后,提出基于文本-链接密度的内容提取方法来识别网页内容;最后,基于节点熵来识别并去除网页内容中的噪声链接.实验结果表明,相比于传统的网页内容提取方法,该方法的准确率和F1分数均有明显提升,而召回率仅有轻微下降. 展开更多
关键词 文本对象模型 网页内容提取 文本密度 节点熵
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部