基于知识图谱的Web信息抽取系统被引量：16

Web Information Extraction System Based on Knowledge Graph

在线阅读下载PDF

导出

摘要为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。 In order to effectively extract huge amounts of Web information in multiple fields, a Web information extraction system is designed based on Chinese knowledge graph, CN-DBpedia. Firstly,webpage data items with noise are automatically labeled based on knowledge graph. Then, correct wrappers are induced and learned from labeling sets with errors by a fault-tolerant wrapper induction framework. Experimental results demonstrate that,compared with traditional information extraction method by manual annotation, the proposed system has higher precision and recall rate. It can significantly reduce human participation during the extraction process and flexibly apply to large-scale webpage information extraction tasks in multiple fields.

作者王辉郁波洪宇肖仰华

机构地区上海电力学院经济与管理学院复旦大学计算机科学技术学院东华大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第6期118-124,共7页 Computer Engineering

基金上海市科技创新行动计划基础研究项目(15JC1400900) 上海市自然科学基金(13ZR1417700)

关键词知识图谱多领域 WEB信息抽取网页自动标注容错包装器归纳框架 knowledge graph multi-field Web information extraction automatic webpage labeling fault-tolerance wrapper induction framework

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

作者简介王辉（1980-），女，副教授，主研方向为数据挖掘. 硕士研究生. 洪宇，硕士研究生。肖仰华，副教授、博士、博士生导师。

引文网络
相关文献

参考文献4

1孟小峰.Web数据管理研究综述[J].计算机研究与发展,2001,38(4):385-395. 被引量：83
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3李明耀,杨静.基于依存分析的开放式中文实体关系抽取方法[J].计算机工程,2016,42(6):201-207. 被引量：28
4刘峤,李杨,段宏,刘瑶,秦志光.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. 被引量：1028

二级参考文献43

1杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5张素香,李蕾,秦颖,钟义信.基于Boot Strapping的中文实体关系自动生成[J].微电子学与计算机,2006,23(12):15-18. 被引量：3
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7刘克彬,李芳,刘磊,韩颖.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411. 被引量：60
8Wang Q，Proc EDBT 2000，2000年
9Liu L，Proc of ICDE 2000，2000年，611页
10黄伯荣,廖序东.现代汉语[M].3版.北京:高等教育出版社,2002:12.

共引文献1153

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2陈瑶,吴红,葛卫红,张海霞,廖俊.基于深度学习模型的我国药品不良反应报告实体关系抽取研究[J].中国药科大学学报,2019,50(6):753-759. 被引量：10
3袁野,刘佳伟,赵惠浞,左志平,葛超,朱晋锐.基于知识图谱的钢厂设备故障智能诊断技术研究与应用[J].冶金设备,2023(S02):20-25.
4杨靖凡,孔繁鹏,韩立强.知识图谱在信息系统运维领域中的应用研究[J].新一代信息技术,2023,6(12):13-16.
5何宏,葛张鹏,徐小良,夏一行,王宇翔.基于知识图谱语义查询技术的科技咨询服务研究[J].信息与管理研究,2019,4(4):86-96.
6李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：4
7吴雅娟,杨壮壮,尚福华,解红涛,杜睿山.学习仪表盘在油田射孔取心工培训系统中的应用[J].系统仿真技术,2021,17(1):17-21.
8熊回香,严舞月.基于知识图谱的数字档案服务模式探究[J].知识管理论坛,2021(4):204-212. 被引量：4
9冯鑫,李雪,闫月,李佳培,刘梦瑶,吴晔.基于知识实体的突发公共卫生事件数据平台构建研究[J].知识管理论坛,2020(3):175-190. 被引量：2
10郭嘉欣.基于多源异构数据挖掘的“红色记忆”知识图谱构建[J].知识管理论坛,2020(1):59-68. 被引量：12

同被引文献150

1于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
2孙杰,吴慧中.一种用于知识自动获取的多策略学习方法[J].南京理工大学学报,1995,19(2):101-104. 被引量：3
3陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
4王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
5韩永青,郝绍芬,周钉山.基于用户认知心理的网络信息组织思考[J].情报资料工作,2006,27(2):58-60. 被引量：9
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7何庆,汤庸,黄永钊.基于本体的法律知识库的研究与实现[J].计算机科学,2007,34(2):175-177. 被引量：22
8陈团强,王正明.Internet资源属性关系的新拓扑模型——时变半边图[J].计算机应用,2007,27(3):513-515. 被引量：1
9曾鹏,吴玲达,陈文伟.多Agent战术意图识别的知识组织与问题求解[J].计算机科学,2007,34(7):181-183. 被引量：8
10李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15

引证文献16

1陈亚东,鲜国建,寇远涛,郭淑敏,刘现武.我国苹果产业知识图谱构建研究[J].中国农业资源与区划,2017,38(11):40-45. 被引量：17
2杨芳权.基于包装产业大数据知识图谱的智能问答系统设计[J].现代电子技术,2018,41(4):143-146. 被引量：10
3易国洪,代瑜,冯智莉,黎慧源.基于SVM与DOM重心半径模型的Web正文提取[J].计算机工程,2019,45(6):206-210. 被引量：3
4陈彦光,刘海顺,李春楠,刘静,孙媛媛.基于刑事案例的知识图谱构建技术[J].郑州大学学报（理学版）,2019,51(3):85-90. 被引量：11
5王忠义,夏立新,李玉海.基于知识内容的数字图书馆跨学科多粒度知识表示模型构建[J].中国图书馆学报,2019,45(6):50-64. 被引量：36
6周晓航,周晓宇.基于汉英双语语料的语义精准抽取系统设计[J].现代电子技术,2020,43(10):156-159.
7马冬雪,宋设,谢振平,刘渊.领域本体驱动的招投标网页解析方法[J].计算机应用,2020,40(6):1574-1579. 被引量：2
8喻凡坤,胡超芳,罗晓亮,梁秀兵.无人系统故障知识图谱的构建方法及应用[J].计算机测量与控制,2020,28(10):66-71. 被引量：18
9程涛,陈恒,李冠宇.基于半边原理的知识图谱补全[J].计算机工程,2020,46(11):84-89.
10刘昕,白婷婷,张淯舒,钱茛南,何旭莉,席永轲.基于EA-LDA算法的领域知识图谱潜在关系扩展[J].计算机工程,2021,47(10):89-96. 被引量：1

二级引证文献111

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2苏杭,欧中洪,宋美娜.知识图谱在科技资源领域的研究与应用[J].中国基础科学,2020,22(3):53-59.
3王栋,周菲,李颖芳,刘伟云,王甲威,张倩,崔冬冬.我国甜樱桃产业知识图谱构建研究[J].中国果树,2023(1):104-108. 被引量：10
4康美娟.集成创新驱动的企业知识库服务机理模型构建研究[J].情报科学,2023,41(11):162-169. 被引量：2
5刘若男.司法人工智能的障碍分析与优化路径[J].网络信息法学研究,2021(2):27-48.
6郭涛,李宗南,姚延栋,黄平,王思,翁岩青.超融合时序数据库在果园大数据中存储策略分析[J].中国农业信息,2022,34(6):49-58.
7吴锐帆.基于语法规律的相关材料标记模型[J].韩山师范学院学报,2018,39(3):27-34.
8石进,胡雅萍,李益婷.大数据时代目录学的新使命[J].图书馆学研究,2019,0(6):49-55. 被引量：7
9陈优敏,李长云.基于知识图谱的目标战术意图识别仿真[J].计算机仿真,2019,36(8):1-4. 被引量：12
10廖立君,吴岳忠,李长云.中国包装产业大数据知识图谱应用系统的设计[J].包装工程,2019,40(21):140-150. 被引量：8

1李海健,王晓丰.Web信息抽取的现状及未来展望[J].廊坊师范学院学报（自然科学版）,2009,9(3):39-40. 被引量：4
2季春,姜琴,吴铮悦.垂直搜索引擎关键技术研究综述[J].情报探索,2012(10):91-93. 被引量：8
3陶跃华,陈丽萍,王泳.聚类分析在搜索引擎中的应用[J].计算机工程与应用,2003,39(21):180-182. 被引量：9
4金淼.Oracle数据库的备份与恢复[J].北京电子,2002(10):45-46.
5笨笨虎.资源共享 Google牌记事本[J].电脑迷,2006,0(12):93-93.
6网页信息“听你指挥”[J].网管员世界,2011(22):118-119.
7陈聪,赵洪丹,宋柏岩,刘大巍,赵宇.基于Hadoop技术的智能电网监控平台的设计[J].自动化技术与应用,2017,36(5):22-25. 被引量：5
8张自然,杨东升,张瑞娜.面向中文用户生成内容的关联数据混搭系统模型及应用[J].图书馆学研究,2017(8):51-58. 被引量：1
9沈安慰,郭基联,王卓健.基于自然连通度的复杂网络节点重要性度量方法[J].火力与指挥控制,2017,42(5):52-55. 被引量：1
10龙珑,宁德鹏,宁葵.启发式规则网页主题定位方法绿网系统的应用[J].计算机技术与发展,2011,21(10):226-228.

计算机工程

2017年第6期

浏览历史

内容加载中请稍等...

基于知识图谱的Web信息抽取系统被引量：16

参考文献4

二级参考文献43

共引文献1153

同被引文献150

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于知识图谱的Web信息抽取系统 被引量：16

参考文献4

二级参考文献43

共引文献1153

同被引文献150

引证文献16

二级引证文献111

相关作者

相关机构

相关主题

浏览历史

基于知识图谱的Web信息抽取系统被引量：16