-
题名基于图文有效信息量的网页正文定位
被引量:2
- 1
-
-
作者
梁正友
欧杰
俞闽敏
-
机构
广西大学计算机与电子信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第23期276-278,共3页
-
基金
广西自然科学基金资助项目(桂科自0832059)
-
文摘
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。
-
关键词
正文定位
最小正文子树
有效信息率
网页
图文
-
Keywords
main text localization
minimal main text sub-tree
effective information ratio
webpage
image and text
-
分类号
N945
[自然科学总论—系统科学]
-
-
题名Web页面自顶向下的正文信息定位算法
被引量:2
- 2
-
-
作者
缪霖
邱会中
-
机构
电子科技大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期76-78,共3页
-
基金
国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"(2007AA01Z440)
-
文摘
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。
-
关键词
正文信息定位
文字链接率
最佳正文子树
标签树
-
Keywords
content information localization
text link rate
best content sub tree
tag tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-