多信息块Web页面的信息抽取被引量：21

Extract Information from Web Pages with Multiple Information Blocks

在线阅读下载PDF

导出

摘要提出了一个采用新的抽取规则的包装器 ,结合采用基于文档结构抽取规则和基于特征Pattern匹配抽取规则包装器的优点 ,可以适用于含有多个信息块的Web页面。 A wrapper with new extraction rules, which combines the advantage of extraction rules based on document structure and extraction rules based on patterns, is introduced to solve the problem.

作者王庆一王继成周源远袁春风

机构地区南京大学软件新技术国家重点实验室南京大学计算机科学与技术系

出处《计算机应用研究》 CSCD 北大核心 2002年第10期23-26,共4页 Application Research of Computers

基金国家自然科学基金资助项目 (6 0 0 730 30 ) 国家高技术研究发展计划"86 3"计划资助项目 (2 0 0 1AA114 0 4 1)

关键词多信息块 WEB页面信息抽取包装器抽取规则信息集成 Internet WWW 信息资源 Web Information Extraction Wrapper Extraction Rule Information Integration

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1[1]Joachim Hammer, Hector Garcia-Molina, Jumghoo Cho, et al.Extracting Semistructured Information from the Web [C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson, Arizona, 1997.18-25.
2[2]Arnaud Sahuguet, Fabien Azavant. Building Light-weight Wrap-pers for Legacy Web Data-sources Using W4F[C]. International Conference on Very Large Databases (VLDB), Edinburgh,Scotland, 1999.738-741.
3[3]S Soderland. Learning Information Extraction Rules for Semi-structured and FreeText [ J ]. Machine Learning, 1999, 1-44.
4[4]N Kushmerick, D Weld, B Doorenbos. Wrapper Induction for Information Extraction [ C ]. In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), Osaka, Japan, 1997.729-737.
5[5]Ion Muslea, Steve Minton, Craig Knoblock. Stalker: Learning Extraction Rules for Semistructured, Web-based Information Sources [ C ]. AAAI-98 Workshop on "AI & Information Integration", Madison, 1998.74-81.
6[6]Ion Muslea. Extraction Patterns: From Information Extraction to Wrapper Induction[ R]. Technical Report, Information Sciences Institute, University of Southern Californi, 1998.

同被引文献83

1刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
4李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：278
5刘柏嵩,高济.本体演化管理研究[J].计算机科学,2004,31(5):9-12. 被引量：13
6吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
7肖君,彭鑫,赵文耘.基于本体的资源描述和检索方法研究[J].计算机工程与应用,2005,41(36):9-11. 被引量：5
8王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
9侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2
10LAENDER A, RIBEIRO-NETOB, SILVA A. A brief survey of web data extraction Tools[ J]. SIGMOD RECORD, 2002,31 (2) : 84 - 93.

引证文献21

1李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
2李洋,栾吉华.一种新的Web信息抽取方法研究[J].科技资讯,2007,5(35):80-81.
3姜传菊.试论Web中的数据挖掘[J].现代图书情报技术,2003(S1):162-164. 被引量：5
4刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量：6
5贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
6张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
7侯锟,罗海龙.Web页面表格信息的自主抽取[J].科技广场,2006(4):70-72. 被引量：2
8柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量：6
9贺令亚,柳佳刚.基于Web的包装器技术的现状与发展[J].电脑开发与应用,2007,20(6):27-29. 被引量：6
10傅魁,聂规划.面向电子交易的商品供应信息抽取模型[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):96-99. 被引量：1

二级引证文献52

1石军.数据挖掘在高校图书馆的应用[J].江西图书馆学刊,2005,35(3):92-94. 被引量：16
2李中言.基于CISnet的信息抽取分析[J].现代情报,2005,25(12):67-68.
3徐安国.一种基于WEB的查询设计[J].黄山学院学报,2005,7(6):73-75.
4范莉莎,刘刚,刘志镜.Web数据挖掘在网络教育中的应用[J].计算机技术与发展,2006,16(6):68-70. 被引量：11
5李剑波,李小华,董树明,杨科华.一种基于XML的Web信息抽取方法[J].情报杂志,2006,25(8):49-51. 被引量：7
6龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3
7姚亚辉,侯德恒.Web数据挖掘在校园网络化考试中的应用[J].安阳工学院学报,2007,6(1):57-60. 被引量：3
8刘忠强,王少华.Web挖掘技术在现代远程教育教学模式中的应用[J].山东电大学报,2007(1):27-29. 被引量：1
9巫志勇.基于XMLHTTP的网站数据自动采集[J].福建电脑,2007,23(7):124-125. 被引量：2
10常勇.基于语义结构的Web信息提取技术[J].情报杂志,2007,26(6):65-67.

1贺令亚,柳佳刚.基于Web的包装器技术的现状与发展[J].电脑开发与应用,2007,20(6):27-29. 被引量：6
2Padraic Boyle,程世玉.快速以太网适配器 PRO/100正趋灵活[J].个人电脑,1996,0(1):152-152.
3付灵丽,金志刚,梁艳红.XML与关系数据库实现转换初探[J].河北工业大学成人教育学院学报,2007,22(1):33-36. 被引量：1
4柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量：6
5张小莉,夏冉,姚建民.浅谈基于XML的web页面信息抽取方法的设计和实现[J].科技风,2008(1):74-74.
6王军.Web信息抽取技术简述[J].河南科技,2013,32(10):5-6.
7李冠宇,刘军,张俊.分布式异构数据集成系统的研究与实现[J].计算机应用研究,2004,21(3):96-98. 被引量：31
8郑志军,林霞光,郑守淇.一种基于神经网络的数据挖掘方法[J].西安建筑科技大学学报（自然科学版）,2000,32(1):28-30. 被引量：14
9张东站,宋瀚涛,宋学艳,孔令标.基于角色的异构数据库联合使用[J].计算机工程,2004,30(5):3-5. 被引量：4
10陈洪平,方巍,李林,崔志明.复杂Web页的Wrapper自动化生成技术研究[J].微电子学与计算机,2010,27(4):62-65.

计算机应用研究

2002年第10期

浏览历史

内容加载中请稍等...

多信息块Web页面的信息抽取被引量：21

参考文献6

同被引文献83

引证文献21

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

多信息块Web页面的信息抽取 被引量：21

参考文献6

同被引文献83

引证文献21

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

多信息块Web页面的信息抽取被引量：21