期刊文献+

Patent-BARTKPG:基于对比学习的中文专利关键技术词生成研究

Patent-BARTKPG:A Contrastive Learning-Based Approach for Chinese Keyphrase Patent Generation
在线阅读 下载PDF
导出
摘要 传统的关键词抽取方法在专利关键技术词生成领域准确度不足,这主要表现为过度依赖文本中的字面内容、生成关键技术词序列中的冗余信息以及与目标关键技术词的不一致性。为此,本文结合中文专利文本特有的语料特性,深入探索如何实现更精准的关键技术词生成,提出一种两阶段的专利关键技术词抽取-生成和重排模型,并在两个阶段中引入对比学习训练策略,以进一步增强模型性能。最终,本文构建了一个中文专利关键技术词生成模型Patent-BARTKPG,实现了中文专利文本的关键技术词的精准生成。研究结果表明,Patent-BARTKPG模型在中文专利数据集上的关键技术词生成效果显著优于其他关键技术词抽取和生成模型,初步实现了中文专利领域关键技术词的高质量生成。 The traditional extraction methods used to generate keyphrases for patents are not sufficiently accurate.This is primarily manifested as excessive reliance on the literal content in the text,redundant information in the generated sequence of keyphrases,and inconsistency with the target keyphrases.To address these issues,this study combines the unique corpus characteristics of Chinese-patent texts to achieve a more accurate generation of keyphrases.A two-stage model is proposed for extracting,generating,and reordering keyphrases from patents.Additionally,a contrastive learning training strategy is introduced in both stages to further enhance the performance of the model.Finally,a Chinese-patent bidirectional auto-regressive transformer for keyphrase generation(BARTKPG),named Patent-BARTKPG,is constructed to accurately generate keyphrases for Chinese-patent texts.In preliminary studies,Patent-BARTKPG significantly outperformed other keyphrase extraction and generation models in generating high-quality keyphrases for the Chinese-patent dataset.
作者 冉从敬 刘省身 王浩伟 梁玉莲 王福新 Ran Congjing;Liu Xingshen;Wang Haowei;Liang Yulian;Wang Fuxin(School of Information Management,Wuhan University,Wuhan 430072;The College of Information Engineering,Wuchang Institute of Technology,Wuhan 430065)
出处 《情报学报》 北大核心 2025年第6期748-760,共13页 Journal of the China Society for Scientific and Technical Information
基金 国家社会科学基金重大项目“大数据主权安全保障体系建设研究”(21&ZD169)。
关键词 中文专利文本 专利关键技术词生成 生成模型 对比学习 Chinese-patent texts patent keyphrase generation generation model contrastive learning
作者简介 冉从敬,男,1978年生,博士,教授,博士生导师,主要研究领域为大数据治理、知识产权,E-mail:rancongjing@whu.edu.cn;刘省身,男,1995年生,博士研究生,主要研究领域为专利大语言模型;王浩伟,男,2000年生,硕士研究生,主要研究领域为生成式人工智能信息安全;梁玉莲,女,1996年生,硕士,主要研究领域为计算机视觉、遥感图语义分割;王福新,男,1988年生,博士研究生,主要研究领域为数据智能与知识产权。
  • 相关文献

参考文献3

二级参考文献25

共引文献23

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部