-
题名两阶段式专利技术问题抽取方法
- 1
-
-
作者
吕学强
刘兆楠
游新冬
罗艺雄
-
机构
北京信息科技大学网络文化与数字传播重点实验室
-
出处
《中文信息学报》
北大核心
2025年第1期56-64,78,共10页
-
基金
国家自然科学基金(62171043)
北京市自然科学基金(4212020)
+2 种基金
国防科技重点实验室基金(6412006200404)
北京信息科技大学"勤信人才"培育计划项目(QXTCP B201908)
北京市市教委科研计划资助项目(KM202111232001)。
-
文摘
专利技术问题阐明了当前专利所在技术主题下存在的具体问题,同时也是当前专利需要解决的问题。专利中已有的摘要虽然实现了对整体专利文本的信息压缩,但部分专利文本的摘要中缺失了对专利技术问题的描述。针对专利技术问题缺失的情况,该文将专利技术问题挖掘转换为专利技术问题描述句抽取,提出了一种基于BERT的专利技术问题描述句两阶段式抽取方法,从专利说明书中挖掘对应描述专利技术问题的句子集合。第一阶段通过BERT获取专利说明书中各语句的向量表示,进一步通过Sigmoid函数获取各语句评分,筛选出评分高的若干句子作为候选技术问题描述句。第二阶段,取第一阶段抽取的句子集合的子集得到若干候选技术问题描述句集合,通过BERT得到候选句集合与专利说明书的向量表示,使用余弦相似度计算两者之间的语义相似度,语义相似度最高的候选句集合作为技术问题输出。实验结果表明,基于BERT的两阶段式抽取方法Rouge-L达到34.38,且与传统方法相比更加简练。
-
关键词
专利技术问题
句子抽取
神经网络
-
Keywords
patent technical problem
sentence extraction
neural network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-