检索结果-维普期刊中文期刊服务平台

基于HTML模式代数的Web信息提取方法被引量：8: 1; 作者李石君于俊清欧伟杰《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1644-1650,共7页; 高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采... 展开更多; 关键词 web信息提取包装器归纳学习 web挖掘; 在线阅读下载PDF 职称材料

基于DOM模型扩展的Web信息提取被引量：21: 2; 作者顾韵华田伟《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页; 提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的... 展开更多; 关键词文档对象模型 web信息提取影响度因子 DOM树扩展; 在线阅读下载PDF 职称材料

基于网格计算框架的Web信息提取系统的研究被引量：1: 3; 作者施佺肖仰华《计算机应用与软件》 CSCD 北大核心 2007年第10期56-57,98,共3页; 大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题。以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型。最后结合Web... 展开更多; 关键词网格计算网格 web信息提取网格资源调度; 在线阅读下载PDF 职称材料

基于HTML解析器的Web信息提取技术被引量：1: 4; 作者王琳琳《郑州轻工业学院学报（自然科学版）》 CAS 2008年第6期100-102,106,共4页; 提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.; 关键词 web信息提取正则表达式 HTML解析器主题信息; 在线阅读下载PDF 职称材料

基于DOM修剪的藏文Web信息提取: 5; 作者珠杰欧珠格桑多吉《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页; 随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取... 展开更多; 关键词音节点 DOM树藏文 web信息提取; 在线阅读下载PDF 职称材料

xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息: 6; 作者朱焱朱凯《计算机科学》 CSCD 北大核心 2012年第12期145-148,共4页; 通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);... 展开更多; 关键词 web信息提取 xScraper系统 web-Harvest内核技术; 在线阅读下载PDF 职称材料

航班信息抽取规则的自动生成技术被引量：2: 7; 作者张志远徐涛冯霞《计算机工程》 CAS CSCD 北大核心 2011年第6期65-67,共3页; 在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,... 展开更多; 关键词 web信息提取抽取规则语义TABLE树贪心算法; 在线阅读下载PDF 职称材料

题名基于HTML模式代数的Web信息提取方法被引量：8: 1; 作者李石君于俊清欧伟杰; 机构武汉大学计算机学院华中科技大学计算机科学与技术学院; 出处《计算机研究与发展》 EI CSCD 北大核心 2006年第9期1644-1650,共7页; 基金国家自然科学基金项目(60573095) 湖北省自然科学基金项目(2005ABA238).; 文摘高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的表结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证.; 关键词 web信息提取包装器归纳学习 web挖掘; Keywords web information extraction wrapper induction web mining; 分类号 TP311.135 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于DOM模型扩展的Web信息提取被引量：21: 2; 作者顾韵华田伟; 机构南京信息工程大学计算机与软件学院; 出处《计算机科学》 CSCD 北大核心 2009年第11期235-237,289,共4页; 基金江苏省产业技术研究与开发基金项目(苏发改高技发[2006]1106号)资助; 文摘提出了一种基于DOM模型扩展的Web信息提取方法。将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容。该方法不要求对网页的结构有预先认识,具有自动和通用的特点。提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中。; 关键词文档对象模型 web信息提取影响度因子 DOM树扩展; Keywords DOM, Extraction of information from web pages, Influence degree, Extended DOM tree; 分类号 TP309.2 [自动化与计算机技术—计算机系统结构]; 在线阅读下载PDF 职称材料

题名基于网格计算框架的Web信息提取系统的研究被引量：1: 3; 作者施佺肖仰华; 机构南通大学计算机科学与技术学院复旦大学计算机与信息技术系; 出处《计算机应用与软件》 CSCD 北大核心 2007年第10期56-57,98,共3页; 基金江苏省高校自然科学基金资助(05KJB520107) 南通市科技项目基金资助(S40041)。; 文摘大规模Web信息提取是面向Internet非规范知识处理中的一个典型问题。以网格计算框架为实现平台,设计了分层的网格应用系统架构,针对Web信息提取中链接分析和信息提取功能,描述了面向一般网格计算框架的资源调度与编程模型。最后结合Web信息提取系统的实验结果,给出了网格应用系统的评价标准。; 关键词网格计算网格 web信息提取网格资源调度; Keywords Grid Computing grid web information extraction Grid resource scheduling; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

题名基于HTML解析器的Web信息提取技术被引量：1: 4; 作者王琳琳; 机构枣庄学院计算机科学系; 出处《郑州轻工业学院学报（自然科学版）》 CAS 2008年第6期100-102,106,共4页; 文摘提出一种使用开源的HTML解析器包和正则表达式来提取W eb网页信息的方法.该方法能够解析HTML文件的组成结构,并从中提取主体文本以供处理.实验表明,该方法的抽取准确率可达到95%以上,具有简单、准确的特点.; 关键词 web信息提取正则表达式 HTML解析器主题信息; Keywords web information extraction regular expression HTML Parser package topic information; 分类号 TP391.1 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名基于DOM修剪的藏文Web信息提取: 5; 作者珠杰欧珠格桑多吉; 机构西藏大学计算机科学与技术系; 出处《计算机工程》 CAS CSCD 北大核心 2008年第24期58-60,共3页; 基金国家自然科学基金资助项目(60763010/F0206); 文摘随着互联网的普及和藏文信息技术的不断发展,出现了大量的藏文网站。该文根据藏文"音节点"的特征识别藏文网页并进行抓取。在建立DOM树的基础上,分析网页的链接、非链接文本与主题信息块之间的相关度。通过语义修剪算法提取藏文主题信息。经测试证实,该算法在藏文网页识别和藏文主题信息提取中具有较好的适应性。; 关键词音节点 DOM树藏文 web信息提取; Keywords syllable dot DOM tree Tibetan web information extraction; 分类号 TP393 [自动化与计算机技术]; 在线阅读下载PDF 职称材料

题名xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息: 6; 作者朱焱朱凯; 机构西南交通大学信息科学与技术学院; 出处《计算机科学》 CSCD 北大核心 2012年第12期145-148,共4页; 基金中央高校基本科研业务费专项基金(云计算与智能技术 SWJTU11ZT08) 铁道部科技研究开发计划重大课题(2011X007)资助; 文摘通过分析Web-Harvest数据提取规则的设计原理,设计实现了一个xScraper系统。该系统的主要功能有:(1)定制设计满足不同需求的Web数据提取规则模板,驱动Web-Harvest内核进行无结构化信息提取;(2)批量可控提取同一网址中的Web信息(含图像);(3)跨网站深度提取主题相关信息;(4)提取Web信息元数据并将其转换为XML标签;(5)实现无结构化多媒体信息的数据库管理。应用结果表明,系统提供了超出Web-Harvest的加值功能,可满足不同的信息提取需求,其简单实用,便于扩展。; 关键词 web信息提取 xScraper系统 web-Harvest内核技术; Keywords web information extraction xScraper web-Harvest core techniques; 分类号 TP393.4 [自动化与计算机技术—计算机应用技术]; 在线阅读下载PDF 职称材料

题名航班信息抽取规则的自动生成技术被引量：2: 7; 作者张志远徐涛冯霞; 机构中国民航大学计算机科学与技术学院中国民航信息技术科研基地; 出处《计算机工程》 CAS CSCD 北大核心 2011年第6期65-67,共3页; 基金国家"863"计划基金资助重点项目(2006AA12A106) 中国民航大学科研基金资助项目(07kym04); 文摘在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。; 关键词 web信息提取抽取规则语义TABLE树贪心算法; Keywords web information extraction extraction rules semantic TABLE trees greedy algorithm; 分类号 TP311 [自动化与计算机技术—计算机软件与理论]; 在线阅读下载PDF 职称材料

	题名	作者	出处	发文年	被引量	操作
1	基于HTML模式代数的Web信息提取方法	李石君于俊清欧伟杰	《计算机研究与发展》 EI CSCD 北大核心	2006	8	在线阅读下载PDF 职称材料
2	基于DOM模型扩展的Web信息提取	顾韵华田伟	《计算机科学》 CSCD 北大核心	2009	21	在线阅读下载PDF 职称材料
3	基于网格计算框架的Web信息提取系统的研究	施佺肖仰华	《计算机应用与软件》 CSCD 北大核心	2007	1	在线阅读下载PDF 职称材料
4	基于HTML解析器的Web信息提取技术	王琳琳	《郑州轻工业学院学报（自然科学版）》 CAS	2008	1	在线阅读下载PDF 职称材料
5	基于DOM修剪的藏文Web信息提取	珠杰欧珠格桑多吉	《计算机工程》 CAS CSCD 北大核心	2008		在线阅读下载PDF 职称材料
6	xScraper:基于Web-Harvest技术批量与深度获取无结构化Web信息	朱焱朱凯	《计算机科学》 CSCD 北大核心	2012	0	在线阅读下载PDF 职称材料
7	航班信息抽取规则的自动生成技术	张志远徐涛冯霞	《计算机工程》 CAS CSCD 北大核心	2011	2	在线阅读下载PDF 职称材料