期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于HTML模式代数的Web信息提取方法
被引量:
8
1
作者
李石君
于俊清
欧伟杰
《计算机研究与发展》
EI
CSCD
北大核心
2006年第9期1644-1650,共7页
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采...
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.
展开更多
关键词
web信息提取
包装器归纳学习
web
挖掘
在线阅读
下载PDF
职称材料
基于DOM模型扩展的Web信息提取
被引量:
21
2
作者
顾韵华
田伟
《计算机科学》
CSCD
北大核心
2009年第11期235-237,289,共4页
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的...
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。
展开更多
关键词
文档对象模型
web信息提取
影响度因子
DOM树扩展
在线阅读
下载PDF
职称材料
基于网格计算框架的Web信息提取系统的研究
被引量:
1
3
作者
施佺
肖仰华
《计算机应用与软件》
CSCD
北大核心
2007年第10期56-57,98,共3页
大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题。以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型。最后结合Web...
大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题。以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型。最后结合Web信息提取系统的实验结果,给出了网格应用系统的评价标准。
展开更多
关键词
网格
计算网格
web信息提取
网格资源调度
在线阅读
下载PDF
职称材料
基于HTML解析器的Web信息提取技术
被引量:
1
4
作者
王琳琳
《郑州轻工业学院学报(自然科学版)》
CAS
2008年第6期100-102,106,共4页
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词
web信息提取
正则表达式
HTML解析器
主题
信息
在线阅读
下载PDF
职称材料
基于DOM修剪的藏文Web信息提取
5
作者
珠杰
欧珠
格桑多吉
《计算机工程》
CAS
CSCD
北大核心
2008年第24期58-60,共3页
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取...
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。
展开更多
关键词
音节点
DOM树
藏文
web信息提取
在线阅读
下载PDF
职称材料
xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息
6
作者
朱焱
朱凯
《计算机科学》
CSCD
北大核心
2012年第12期145-148,共4页
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);...
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。
展开更多
关键词
web信息提取
xScraper系统
web
-Harvest内核技术
在线阅读
下载PDF
职称材料
航班信息抽取规则的自动生成技术
被引量:
2
7
作者
张志远
徐涛
冯霞
《计算机工程》
CAS
CSCD
北大核心
2011年第6期65-67,共3页
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,...
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。
展开更多
关键词
web信息提取
抽取规则
语义TABLE树
贪心算法
在线阅读
下载PDF
职称材料
题名
基于HTML模式代数的Web信息提取方法
被引量:
8
1
作者
李石君
于俊清
欧伟杰
机构
武汉大学计算机学院
华中科技大学计算机科学与技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第9期1644-1650,共7页
基金
国家自然科学基金项目(60573095)
湖北省自然科学基金项目(2005ABA238).
文摘
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.
关键词
web信息提取
包装器归纳学习
web
挖掘
Keywords
web
information extraction
wrapper induction
web
mining
分类号
TP311.135 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于DOM模型扩展的Web信息提取
被引量:
21
2
作者
顾韵华
田伟
机构
南京信息工程大学计算机与软件学院
出处
《计算机科学》
CSCD
北大核心
2009年第11期235-237,289,共4页
基金
江苏省产业技术研究与开发基金项目(苏发改高技发[2006]1106号)资助
文摘
提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。
关键词
文档对象模型
web信息提取
影响度因子
DOM树扩展
Keywords
DOM, Extraction of information from
web
pages, Influence degree, Extended DOM tree
分类号
TP309.2 [自动化与计算机技术—计算机系统结构]
在线阅读
下载PDF
职称材料
题名
基于网格计算框架的Web信息提取系统的研究
被引量:
1
3
作者
施佺
肖仰华
机构
南通大学计算机科学与技术学院
复旦大学计算机与信息技术系
出处
《计算机应用与软件》
CSCD
北大核心
2007年第10期56-57,98,共3页
基金
江苏省高校自然科学基金资助(05KJB520107)
南通市科技项目基金资助(S40041)。
文摘
大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题。以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型。最后结合Web信息提取系统的实验结果,给出了网格应用系统的评价标准。
关键词
网格
计算网格
web信息提取
网格资源调度
Keywords
Grid Computing grid
web
information extraction Grid resource scheduling
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
基于HTML解析器的Web信息提取技术
被引量:
1
4
作者
王琳琳
机构
枣庄学院计算机科学系
出处
《郑州轻工业学院学报(自然科学版)》
CAS
2008年第6期100-102,106,共4页
文摘
提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.
关键词
web信息提取
正则表达式
HTML解析器
主题
信息
Keywords
web
information extraction
regular expression
HTML Parser package
topic information
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于DOM修剪的藏文Web信息提取
5
作者
珠杰
欧珠
格桑多吉
机构
西藏大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第24期58-60,共3页
基金
国家自然科学基金资助项目(60763010/F0206)
文摘
随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。
关键词
音节点
DOM树
藏文
web信息提取
Keywords
syllable dot
DOM tree
Tibetan
web
information extraction
分类号
TP393 [自动化与计算机技术]
在线阅读
下载PDF
职称材料
题名
xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息
6
作者
朱焱
朱凯
机构
西南交通大学信息科学与技术学院
出处
《计算机科学》
CSCD
北大核心
2012年第12期145-148,共4页
基金
中央高校基本科研业务费专项基金(云计算与智能技术
SWJTU11ZT08)
铁道部科技研究开发计划重大课题(2011X007)资助
文摘
通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。
关键词
web信息提取
xScraper系统
web
-Harvest内核技术
Keywords
web
information extraction
xScraper
web
-Harvest core techniques
分类号
TP393.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
航班信息抽取规则的自动生成技术
被引量:
2
7
作者
张志远
徐涛
冯霞
机构
中国民航大学计算机科学与技术学院
中国民航信息技术科研基地
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第6期65-67,共3页
基金
国家"863"计划基金资助重点项目(2006AA12A106)
中国民航大学科研基金资助项目(07kym04)
文摘
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。
关键词
web信息提取
抽取规则
语义TABLE树
贪心算法
Keywords
web
information extraction
extraction rules
semantic TABLE trees
greedy algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于HTML模式代数的Web信息提取方法
李石君
于俊清
欧伟杰
《计算机研究与发展》
EI
CSCD
北大核心
2006
8
在线阅读
下载PDF
职称材料
2
基于DOM模型扩展的Web信息提取
顾韵华
田伟
《计算机科学》
CSCD
北大核心
2009
21
在线阅读
下载PDF
职称材料
3
基于网格计算框架的Web信息提取系统的研究
施佺
肖仰华
《计算机应用与软件》
CSCD
北大核心
2007
1
在线阅读
下载PDF
职称材料
4
基于HTML解析器的Web信息提取技术
王琳琳
《郑州轻工业学院学报(自然科学版)》
CAS
2008
1
在线阅读
下载PDF
职称材料
5
基于DOM修剪的藏文Web信息提取
珠杰
欧珠
格桑多吉
《计算机工程》
CAS
CSCD
北大核心
2008
在线阅读
下载PDF
职称材料
6
xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息
朱焱
朱凯
《计算机科学》
CSCD
北大核心
2012
0
在线阅读
下载PDF
职称材料
7
航班信息抽取规则的自动生成技术
张志远
徐涛
冯霞
《计算机工程》
CAS
CSCD
北大核心
2011
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部