-
题名基于链接分块的相关链接提取方法
被引量:2
- 1
-
-
作者
王芳
于浩
谭红叶
赵铁军
-
机构
哈尔滨工业大学计算机学院机器智能与翻译研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第31期110-113,共4页
-
基金
富士通研发中心有限公司委托研究项目
-
文摘
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言中标签将网页分成许多的块,从块中提取链接,形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%左右,表明该方法很有效。
-
关键词
网页分块
链接块
相关链接提取
-
Keywords
page segmentation
link block
relation link extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-