期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于HTML树的网页结构相似度研究 被引量:2
1
作者 宋明秋 张瑞雪 《情报学报》 CSSCI 北大核心 2011年第2期160-165,共6页
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似... HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速. 展开更多
关键词 HTML网页 网页信息提取 结构相似度 Based Web 结构相似性 匹配规则 度量模型 计算方法 网页信息块 PYTHON语言 自由 信息比较 数据表 实验 结构特征 传统方法 半结构化 系统性 适用性
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部