-
题名基于相似度的网页标题抽取方法
被引量:6
- 1
-
-
作者
李国华
昝红英
-
机构
郑州大学信息工程学院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第2期32-37,共6页
-
基金
国家自然科学基金资助项目(60970083)
国家社会科学基金资助项目(09BTQ027)
-
文摘
目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言"单位"之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对"非标准网页"的抽取达到满意的效果,而且对"标准网页"具有较高的泛化能力。
-
关键词
网页标题抽取
相似度
WEB信息抽取
-
Keywords
title extraction
similarity
Web information retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种有效的专题信息集中和检索策略
被引量:4
- 2
-
-
作者
王宇新
刘海峰
郭禾
陈鑫
-
机构
大连理工大学电信学院
大连理工大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第6期2106-2108,共3页
-
文摘
Internet上专题资源网页汇聚和检索是垂直搜索引擎中的核心问题,HITS算法是早期解决这个问题的经典算法,很多文献对它进行了改进,但无论索引的主题相关率还是引擎的查准率都有提高的余地。提出一种基于锚文本和标题信息过滤并结合网页内容相关度判断的HITS专题检索策略,利用专题训练集判断主题相关度,很好地解决了只依靠查询字符串判断的弊端。实验表明,此策略能很好地提高专题信息汇聚精确度和检索的准确率,并且减少了非相关URL的下载量。
-
关键词
HITS算法
锚文本
网页标题
专题相关度
向量模型
专题训练集
-
Keywords
HITS algorithm
anchor text
Web page title
relation grade of topic
vector model
topic training collection
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于链接路径搜索的URL属性集成方法
- 3
-
-
作者
马艳红
胡学钢
吴共庆
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程》
CAS
CSCD
2013年第1期76-79,共4页
-
基金
国家"863"计划基金资助项目(2012AA011005)
国家自然科学基金资助项目(60975034)
安徽省自然科学基金资助项目(11040606M151)
-
文摘
在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库。实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%。
-
关键词
链接路径
网页标题
半结构化数据
结构化数据库
锚文本
URL属性
-
Keywords
link path
Web title
semi-structured data
structured database
anchor text
URL attribute
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-