摘要
专利文献的自动分类对于知识产权保护、专利管理和专利信息检索十分重要,构建准确的专利自动分类器可以为专利发明人、专利审查员提供辅助支持。该文以专利文献分类为研究任务,选取国家信息中心公布的全国专利申请信息为实验数据,提出了基于预训练语言模型的BERT-CNN多层级专利分类模型。实验结果表明:在该数据集上,BERT-CNN模型在准确率上达到了84.3%,大幅度领先于卷积神经网络和循环神经网络等其他深度学习算法。BERT抽取的特征向量在表达词汇与语义方面比传统Word2Vec具有更加强大的性能。另外,该文还探讨了全局与局部策略在专利多层文本分类上的差异。
An accurate automatic patent classifier is crucial to patent inventors and patent examiners,and is of potential application in the fields of intellectual property protection,patent management,and patent information retrieval.This paper presents BERT-CNN,a hierarchical patent classifier based on pre-trained language model,which is trained by the national patent application documents collected from the State Information Center,China.The experimental results show that the proposed method achieves 84.3%accuracy,much better than the two compared baseline methods,Convolutional Neural Networks and Recurrent Neural Networks.In addition,this article also discusses the differences between hierarchical and flat strategies in multi-layer text classification.
作者
陆晓蕾
倪斌
LU Xiaolei;NI Bin(School of Foreign Languages and Cultures,Xiamen University,Xiamen,Fujian 361005,China;Xiamen Data Intelligence Academy of ICT,CAS,Xiamen,Fujian 361005,China)
出处
《中文信息学报》
CSCD
北大核心
2021年第11期70-79,共10页
Journal of Chinese Information Processing
基金
教育部人文社科基金(18YJCZH117)
中央高校基本科研项目(20720191053)
作者简介
陆晓蕾(1988-),博士,助理教授,主要研究领域为语言智能。E-mail:luxiaolei@xmu.edu.cn;通信作者:倪斌(1990-),硕士,工程师,主要研究领域为自然语言处理。E-mail:nibiner@live.cn