-
题名Web页面主题信息抽取研究与实现
被引量:11
- 1
-
-
作者
刘艳敏
刘飚
封化民
宋国森
方勇
-
机构
燕山大学信息工程学院
北京邮电大学电信工程学院
北京电子科技学院信息安全与保密重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第21期146-148,共3页
-
基金
国家自然科学基金资助项目(编号:60472082)
-
文摘
Web页面中的主要信息通常隐藏在大量无关的特征中,如无关紧要的图片和不相关的连接,使用户不能迅速获取主题信息,限制了Web的可用性。论文提出一种网页主题内容提取的方法及相应算法,并通过人工判定的方法对来自120个网站的5000个网页进行了测试和评估。实验结果表明该方法切实可行,可达到91.35%的准确率。
-
关键词
HTML
信息提取
页面结构分析
标记统计
-
Keywords
HTML,information extraction,page layout analysis,tokens statistics
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web信息抽取技术在统一检索系统中的应用研究
被引量:7
- 2
-
-
作者
王权
施韶亭
-
机构
甘肃省科学技术情报研究所
-
出处
《计算机应用与软件》
CSCD
2010年第10期120-122,137,共4页
-
基金
甘肃省科技基础条件平台建设计划项目(2GS067-A35-004-01)
甘肃省技术研究与开发专项计划项目(0709TCYA007)
-
文摘
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例。实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台。
-
关键词
WEB信息抽取
统一检索
页面结构分析
关键信息块
子树广度
-
Keywords
Web information extraction
Unified search
Page structure analysis
Key information block
Sub-tree breadth
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-