期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于HTML树的网页结构相似度研究
被引量:
2
1
作者
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2011年第2期160-165,共6页
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似...
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.
展开更多
关键词
HTML
网页
网页
信息
提取
结构相似度
Based
Web
结构相似性
匹配规则
度量模型
计算方法
网页信息块
PYTHON语言
自由
信息
比较
数据表
实验
结构特征
传统方法
半结构化
系统性
适用性
在线阅读
下载PDF
职称材料
题名
基于HTML树的网页结构相似度研究
被引量:
2
1
作者
宋明秋
张瑞雪
机构
大连理工大学系统工程研究所
出处
《情报学报》
CSSCI
北大核心
2011年第2期160-165,共6页
基金
国家自然科学基金
文摘
HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.
关键词
HTML
网页
网页
信息
提取
结构相似度
Based
Web
结构相似性
匹配规则
度量模型
计算方法
网页信息块
PYTHON语言
自由
信息
比较
数据表
实验
结构特征
传统方法
半结构化
系统性
适用性
Keywords
HTML tree
structural similarity
free matching
information extracting
分类号
G35 [文化科学—情报学]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于HTML树的网页结构相似度研究
宋明秋
张瑞雪
《情报学报》
CSSCI
北大核心
2011
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部