期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于图文有效信息量的网页正文定位 被引量:2
1
作者 梁正友 欧杰 俞闽敏 《计算机工程》 CAS CSCD 北大核心 2011年第23期276-278,共3页
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量... 在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。 展开更多
关键词 正文定位 最小正文子树 有效信息率 网页 图文
在线阅读 下载PDF
Web页面自顶向下的正文信息定位算法 被引量:2
2
作者 缪霖 邱会中 《计算机工程》 CAS CSCD 北大核心 2010年第13期76-78,共3页
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从... 正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。 展开更多
关键词 正文信息定位 文字链接率 最佳正文子树 标签树
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部