基于大语言模型知识自蒸馏的无标注专利关键信息抽取被引量：3

Extracting Key Information from Unlabeled Patents Based on Knowledge Self-Distillation of Large Language Model

导出

摘要【目的】实现复杂专利文本中的关键技术信息自动化抽取,缓解传统自然语言处理抽取模型强领域知识标注依赖的问题。【方法】本文提出一种基于大语言模型知识自蒸馏的无标注关键信息抽取方法,基于多重角色策略,对德温特改写专利的摘要进行结构化分析,通过知识自蒸馏策略增强大语言模型关键内容抽取与结构化分析的能力。【结果】本文方法在实体抽取任务和关系抽取任务的测试中,召回率分别达到了95.40%和51.49%,并且结构化分析的格式正确率达到100%。在关系三元组抽取任务数据集RE-DocRED上,本文方法在无监督和零样本的设置下F1值达到5.01%。【结论】本文方法能够出色地完成无数据标注的专利文本关键信息抽取任务。 [Objective]This paper aims to automate extracting key technical information from complex patent texts and to overcome the dependency on robust domain knowledge annotations in traditional natural language processing models.[Methods]We proposed an unsupervised key information extraction method based on knowledge self-distillation in the large language model.By employing a multiple-role strategy,we conducted a structured analysis of Derwent’s rewritten patent abstracts.This method enhanced the ability of large language models to extract and structurally analyze key content through the knowledge self-distillation strategy.[Results]In the entity and relation extraction tasks,our method’s recall rate reached 95.40%and 51.49%,respectively.The accuracy of the structural analysis format reached 100%.We also achieved an F1-score of 5.01%on the REDocRED dataset,a public dataset for the relation triplet extraction task,under unsupervised and zero-shot settings.[Conclusions]The proposed method can effectively extract key information from patent texts without data annotation.

作者赵建飞陈挺王小梅冯冲 Zhao Jianfei;Chen Ting;Wang Xiaomei;Feng Chong(School of Computer Science&Technology,Beijing Institute of Technology,Beijing 100081,China;Institutes of Science and Development,Chinese Academy of Sciences,Beijing 100190,China;Department of Information Resources Management,School of Economics and Management,University of Chinese Academy of Sciences,Beijing 100190,China;Southeast Academy of Information Technology,Beijing Institute of Technology,Putian 351100,China)

机构地区北京理工大学计算机学院中国科学院科技战略咨询研究院中国科学院大学经济与管理学院信息资源管理系北京理工大学东南信息技术研究院

出处《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期133-143,共11页 Data Analysis and Knowledge Discovery

基金中国科学院文献情报能力建设专项(项目编号:GHJ-QBZX-2021-04)的研究成果之一

关键词大语言模型信息抽取专利分析 Large Language Model Information Extraction Patent Analysis

分类号 G255.53 [文化科学—图书馆学] TP18 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

作者简介通讯作者:王小梅,ORCID:0000-0002-9895-1511,E-mail:wangxm@casisd.cn。

引文网络
相关文献

参考文献9

1韦婷婷,江涛,郑舒玲,张建桃.融合LSTM与逻辑回归的中文专利关键词抽取[J].数据分析与知识发现,2022,6(2):308-317. 被引量：8
2俞琰,朱晟忱.融入限定关系的专利关键词抽取方法[J].数据分析与知识发现,2022,6(10):57-67. 被引量：4
3罗艺雄,吕学强,游新冬.融合多特征的专利功效短语识别[J].中文信息学报,2022,36(12):139-148. 被引量：8
4吴洁,桂亮,刘鹏,盛永祥.多维特征视角下基于图卷积网络的专利技术领域自动识别研究[J].中国管理科学,2022,30(12):185-197. 被引量：10
5马俊,吕璐成,赵亚娟,李聪颖.基于预训练语言模型的中文专利自动分类研究[J].中华医学图书情报杂志,2022,31(11):20-28. 被引量：2
6佟昕瑀,赵蕊洁,路永和.基于预训练模型的多标签专利分类研究[J].数据分析与知识发现,2022,6(2):129-137. 被引量：13
7李成奇,雷海卫,李帆,呼文秀.最近对寻址的专利实体关系抽取方法[J].计算机工程与设计,2024,45(4):1100-1108. 被引量：1
8张永真,吕学强,申闫春,徐丽萍.基于SAO结构的中文专利实体关系抽取[J].计算机工程与设计,2019,40(3):706-712. 被引量：12
9赵奇猛,王裴岩,冯好国,蔡东风.面向中文专利的开放式实体关系抽取研究[J].计算机工程与应用,2015,51(1):125-129. 被引量：5

二级参考文献94

1苏媛,李广培.绿色技术创新能力、产品差异化与企业竞争力——基于节能环保产业上市公司的分析[J].中国管理科学,2021,29(4):46-56. 被引量：87
2陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：25
3朱雪忠,徐晨倩.337调查下的企业专利诉讼策略博弈分析[J].科研管理,2021,42(6):112-119. 被引量：6
4李程雄,丁月华,文贵华.SVM-KNN组合改进算法在专利文本分类中的应用[J].计算机工程与应用,2006,42(20):193-195. 被引量：23
5Poon H,Domingos P.Unsupervised ontological induction from text[C]//Proceedings of the Forty Eighth Annual Meeting of the Association for Computational Linguistics,Uppsala,Sweden,2010:296-305.
6David D.Thematic proto-roles and argument selection[J].Language,1991,67(3):547-619.
7Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the 6th Applied Natural Language Processing Conference,2000.
8Hasegawa T,Sekine S,Grishman R.Discovering relations among named entities from large corpora[C]//Proceedings of ACL,2004.
9Etzioni O,Cafarella M,Downey D,et al.Unsupervised namedentity extraction from the web:an experimental study[J].Artificial Intelligence,2005,165(1):91-134.
10Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the web[J].Communications of the ACM,2008,51(12):68-74.

共引文献52

1彭启宁,柳炳祥,付振康,贝汶瑜.侵权诉讼背景下标准必要专利价值分类识别体系构建[J].知识管理论坛,2023(6):461-475.
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：10
3康静涵.入情入境感悟运用——《颐和园》一课教学谈[J].小学语文教学,2000(7):106-107.
4饶齐,王裴岩,张桂平.面向中文专利SAO结构抽取的文本特征比较研究[J].北京大学学报（自然科学版）,2015,51(2):349-356. 被引量：16
5马建红,张明月,赵亚男.面向创新设计的专利知识抽取方法[J].计算机应用,2016,36(2):465-471. 被引量：9
6何宇,吕学强,刘秀磊,徐丽萍.中文专利领域本体概念间非分类关系抽取[J].计算机工程与设计,2017,38(1):97-102. 被引量：10
7田佳来,吕学强,游新冬,肖刚,韩君妹.基于分层序列标注的实体关系联合抽取方法[J].北京大学学报（自然科学版）,2021,57(1):53-60. 被引量：11
8曹国忠,杨雯丹,刘新星.基于主体-行为-客体(SAO)三元结构的专利分析方法研究综述[J].科技管理研究,2021,41(4):158-167. 被引量：10
9吕学强,罗艺雄,李家全,游新冬.中文专利侵权检测研究综述[J].数据分析与知识发现,2021,5(3):60-68. 被引量：4
10董哲,王亚,马传孝,李志军.融合对抗训练和胶囊网络的食品安全关系抽取模型[J].科学技术与工程,2022,22(23):10162-10168. 被引量：3

同被引文献85

1商锦铃,张建勇.基于ChatGPT和提示工程的查询式摘要数据集AMTQFSum构建研究[J].数据分析与知识发现,2024,8(8):122-132. 被引量：5
2王若佳,范科鸣,刘智锋,王继民.生成式人工智能环境下用户信息检索式行为研究[J].数据分析与知识发现,2024,8(8):20-30. 被引量：8
3刘大为,车超,魏小鹏.融合多层次信息的海关同义词识别方法[J].计算机科学,2022,49(S02):159-163. 被引量：2
4陆勇,章成志,侯汉清.基于百科资源的多策略中文同义词自动抽取研究[J].中国图书馆学报,2010,36(1):56-62. 被引量：27
5鲍秀林,吴雯娜.网络环境叙词表收词新来源刍议[J].图书情报工作,2011,55(14):116-120. 被引量：4
6杨慧,曹锦丹.基于关键词分析的叙词表词间等同关系探讨[J].图书馆工作与研究,2011(8):58-61. 被引量：5
7钟伟金.共现关键词—叙词同义关系自动识别研究——基于互信息法、概率法的对比分析[J].图书情报工作,2012,56(18):122-126. 被引量：9
8刘伟,黄小江,万小军,王星.互联网环境下的英文同义术语自动发现研究与系统实现[J].图书情报工作,2012,56(22):26-31. 被引量：5
9张运良,乔晓东,朱礼军,李楠.基于术语翻译信息的同义关系快速构建方法研究[J].图书情报工作,2013,57(8):109-113. 被引量：5
10朱毅华,侯汉清,沙印亭.计算机识别汉语同义词的两种算法比较和测评[J].中国图书馆学报,2002,28(4):82-85. 被引量：35

引证文献3

1胡祥培,周雅娴.基于生成式人工智能的经济管理学科相关研究综述[J].中国管理科学,2025,33(1):76-97. 被引量：1
2李泽宇,刘伟,吴雯娜,过烨琪.基于AI智能体和关键词映射图谱的同义术语挖掘研究[J].数字图书馆论坛,2025,21(1):22-32.
3王莉军,刘洢颖,郑明,李雪,王鑫月.基于机器阅读理解的科技文献三元组抽取模型研究[J].数字图书馆论坛,2025,21(4):21-32.

二级引证文献1

1王文超.人工智能在经济管理类实验平台中的深度嵌入与影响分析[J].通讯世界,2025,32(5):88-90.

1王奎芳,吕璐成,孙文君,王翼虎,赵亚娟.基于大模型知识蒸馏的专利技术功效词自动抽取方法研究:以车联网V2X领域为例[J].数据分析与知识发现,2024,8(8):144-156. 被引量：3
2陈晨、王宇、蔡惠飞.信息自动化技术在水利水电工程建设中的应用探析[J].中文科技期刊数据库（引文版）工程技术,2024(11):200-203.
3樊澜.“AI+教育”赋能人才培养与教学实践[J].中国教工,2024(11):42-43.
4朱伶杰,贺圆圆.人工智能技术在美国文档领域的应用及启示——基于专利数据的分析[J].档案管理,2024(6):124-128.
5苗红,连佳欣,李伟伟,耿国桐,王浩桐,张惠钊,吴菲菲.基于数据挖掘的前沿技术识别方法与实证研究[J].系统工程与电子技术,2024,46(9):3082-3092. 被引量：2
6方思怡.ISO国际标准知识图谱的构建方法研究[J].标准科学,2024(12):73-77.
7刘洁.自动驾驶轨迹预测技术专利分析[J].海峡科技与产业,2024,37(11):35-39.
8王秀红,王同玉.融合SAO和BERT-LDA的古籍保护关键技术识别研究[J].汉字文化,2024(4):198-201.
9周思文.高校辅导员在推动学风建设中的角色策略与职责探讨[J].快乐巧连智,2024,25(12):223-225.
10谢瑶瑶,邓三鸿,王昊,章学周.基于SAO语义挖掘的用户需求-专利技术匹配[J].数据分析与知识发现,2024,8(8):213-225. 被引量：2

数据分析与知识发现

2024年第8期

浏览历史

内容加载中请稍等...

基于大语言模型知识自蒸馏的无标注专利关键信息抽取被引量：3

参考文献9

二级参考文献94

共引文献52

同被引文献85

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型知识自蒸馏的无标注专利关键信息抽取 被引量：3

参考文献9

二级参考文献94

共引文献52

同被引文献85

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于大语言模型知识自蒸馏的无标注专利关键信息抽取被引量：3