基于路径学习的信息自动抽取方法被引量：7

Information Retrieval Method Based on Path Learning

在线阅读下载PDF

导出

摘要针对用户需求的网页信息自动抽取是解决互联网信息爆炸问题的一个有效途径 ,然而现有的信息自动抽取方法均难以同时满足网页信息自动抽取中查全率与查准率高、抽取速度快、抽取信息量大和用户负担轻的要求 .本文提出了一种基于路径学习的信息自动抽取方法 ,并采用该方法编制了一个商品价格信息自动抽取系统 .实验结果表明 ,该方法具有用户负担较轻 (只需用户提供 2～ 4个学习实例 )、查全率 (97.0 4～ 10 0 % )与查准率 (99～ 10 0 % )高、可实现大样本量信息抽取和时间资源耗费少 (抽取时间 <1秒 )等特点 ,能基本满足网页信息自动抽取的要求 . Web page information retrieval aiming at user demand is a useful method to solve the information -blowing problem on Internet. It requires high recall and precision、high extracting speed、large information amount and light user burden, which cannot be suited by existing information retrieval methods. This paper brings forward an information retrieval method based on path learning that is used in a price information extracting system. Related experiments have proved that this method shows many virtues such as light user burden (2～4 examples used only)、high recall (97.04～100%) and high precision (99～100%)、large information amount and low time consumption (extracting time < 1 second), which meet the requirements of web page information retrieval.

作者于琨蔡智糜仲春蔡庆生

机构地区中国科学技术大学计算机科学技术系中国科学技术大学信息管理与决策科学系

出处《小型微型计算机系统》 CSCD 北大核心 2003年第12期2147-2149,共3页 Journal of Chinese Computer Systems

基金国家自然科学基金项目 (70 1 71 0 52 60 0 750 1 5)资助

关键词信息自动抽取路径学习互联网网页结构分析归纳学习 information retrieval path learning Internet

分类号 TP393.4 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1[1]Doorenbos R B, Etzioni O and Weld W S. A scalable comparisonshopping agent for the world_wide web [C]. Proceedings of the first international conference on Autonomous Agents, 1997:39～48.
2[2]Embley D W, Jiang Y and Ng Y K. Record boundary discovery in web documents[C]. Proc. SIGMOD'99 , 1999: 467～478.
3[3]David Buttler, Ling Liu and Calton Pu. A fully automated object extraction system for the world wide web[C]. International Conference on Distributed Computing Systems, 2001.
4[4]Kushmerick N, Weld D, Doorenbos R. Wrapper induction for Information extraction[C]. Proc. IJCAI 97, 1997.
5[5]Muslea I, Minton S and Knoblock C. A hierarchical approach to Wrapper induction[C]. Proc. 3rd International Conference Autonomous Agents, 1999.
6[6]Arnaud Sahuguet, Fabien Azavant. Taming Web sources with "minute_made" wrappers[M]. Unpublished, 1999.
7[7]Craven M, DiPasquo D, Freitag D, McCallum A, Mitchell T,Nigam N, Lattery S S. Learning to extract symbolic knowledge from the World Wide Web[C]. Proc. AAAI-98, 1998.
8[8]Ashish N, Knoblock C. Semi_automatic wrapper generation for Internet information sources[C]. Proc. Cooperative Information Systems, 1997.
9[9]McCallum A, Nigam K, Rennie J and Seymore K. A machine learning approach to building domain_specific search engines[C].Proc. IJCAI99, 1999: 662～667.
10[10]http://www. w3. org/People/Raggett/tidy/#download.

同被引文献49

1郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：22
4周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
5胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
6许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
7朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
8刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
9杨敬伟,杨文柱,高悦.基于DOM的Web信息抽取规则的构造与实现[J].河北大学学报（自然科学版）,2007,27(2):209-212. 被引量：5
10Silvescu A,Reinoso-Castillo J,Honavar V.Ontology-driven Information Extraction and Knowledge Acquisition from Heterogeneous,Distributed Biological Data Sources[C/OL].In:Proccedings of the LJCAI-2001 Workshop on Knowledge Discovery from Heterogeneous,Distributed,Autonomous,Dynamic Data and Knowledge Sources,2001.[2008-11 -01].http://www.ca.iastate.edu/～honavar/Papers/ijcaiworkshop-paper.pdf.

引证文献7

1刘佳宾,胡国平,陈超,邵正荣.基于决策树和马尔可夫链的问答对自动提取[J].中文信息学报,2007,21(2):46-51. 被引量：5
2于鲁波,陈超.互联网商品信息抽取技术[J].计算机工程,2008,34(5):274-276. 被引量：5
3柳佳刚,陈山,贺令亚.基于本体和DOM相结合的Web信息抽取器[J].现代图书情报技术,2009(5):44-49. 被引量：5
4柳佳刚,陈山,黄樱.一种改进的基于本体的Web信息抽取[J].计算机工程,2010,36(4):39-41. 被引量：7
5张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5
6侯明燕,杨天奇.基于网页分割的Web信息提取算法[J].微型机与应用,2011,30(5):54-56. 被引量：2
7沈娜.基于文本标签属性的网页信息抽取方法研究[J].武汉职业技术学院学报,2016,15(1):62-65.

二级引证文献26

1董燕举,蔡东风,白宇.面向事实性问题的答案选择技术研究综述[J].中文信息学报,2009,23(1):86-94. 被引量：1
2毛煜,余正涛,孟祥燕,张志坤,许洋波,郭剑毅.中文问答对过滤方法研究[J].广西师范大学学报（自然科学版）,2009,27(3):142-145.
3王鸿伟,吴扬扬.C2C电子商务网站交易信息抽取工具的研究与实现[J].泉州师范学院学报,2010,28(4):12-17.
4宋洁,张娜,刘艳柳,顾军华.基于XML的WEB信息自动抽取方法的研究[J].河北工业大学学报,2010,39(5):73-77.
5欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,37(3):64-66. 被引量：6
6谭龙江.基于信息抽取的电子商务联盟系统[J].鸡西大学学报（综合版）,2011,11(2):49-50.
7柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123. 被引量：2
8贾赛,乔鸿.基于本体的Web信息抽取及本体的构建实现研究[J].图书馆学研究,2011(5):31-36. 被引量：3
9李庆诚,张安站,宫晓利,张金.类纸阅读器在线读物系统的研究与实现[J].计算机工程,2012,38(3):261-264. 被引量：1
10邹元平,邢珂,林宇,修春,梁进权,宓穗卿,王宁生.基于Web的定向医药信息采集系统设计与实现[J].医学信息学杂志,2012,33(5):23-27. 被引量：2

1朱晴,姜利群,张言辉.半结构化的Deep Web信息抽取技术[J].电脑知识与技术（过刊）,2010,0(15):4312-4313.
2冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4
3张鑫,陈梅,王翰虎,王嫣然.基于视觉特征和领域本体的Web信息抽取[J].计算机技术与发展,2011,21(2):58-61. 被引量：5
4杨凌,周小涛.AODV路由协议性能的改进研究[J].通信技术,2007,40(12):212-214. 被引量：4
5杨静,顾君忠,刘盈盈.用XML构造网络化多媒体课件[J].华东师范大学学报（自然科学版）,2000(2):28-36. 被引量：15
6谭福生,葛景国.力控制技术在机器人打磨中的应用及系统实现[J].上海电气技术,2008,1(2):35-40. 被引量：24
7张驰,罗森林.网页内容安全快速信息抽取方法[J].信息网络安全,2012(10):20-22. 被引量：6
8张维化,杨国林.数据挖掘技术在数据抽取中的研究与应用[J].内蒙古师范大学学报（自然科学汉文版）,2008,37(4):523-525. 被引量：2
9邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
10惠普使中小企业数据备份与恢复更简单[J].电信技术,2007(3):21-21.

小型微型计算机系统

2003年第12期

浏览历史

内容加载中请稍等...

基于路径学习的信息自动抽取方法被引量：7

参考文献10

同被引文献49

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于路径学习的信息自动抽取方法 被引量：7

参考文献10

同被引文献49

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于路径学习的信息自动抽取方法被引量：7