-
题名一种两阶段的中文专利语义检索方法
被引量:1
- 1
-
-
作者
吕学强
梁虎
赵颖
游新冬
-
机构
北京信息科技大学网络文化与数字传播重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2024年第10期2378-2383,共6页
-
基金
国家自然科学基金项目(62171043)资助
北京市自然科学基金项目(4212020)资助
+1 种基金
国家语委项目(ZDI145-10,YB145-3)资助
北京市教育委员会科学研究计划项目(KM202111232001)资助.
-
文摘
专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,然后基于近似最近邻算法进行语义匹配,能够从海量专利文献库中快速匹配到语义相似的专利.第2阶段以BERT为基础模型,基于交叉编码器(Cross-Encoder)捕获专利文本之间更细粒度的语义相关性,对第1阶段的候选专利集进行重新排序.此外,该文还提出了难负例(hard negative)采样和白化转换(whitening)两种简单有效的模型训练优化策略,使模型从简单的训练数据逐渐过度到复杂的训练数据,提高模型区分相似专利的能力.实验表明,该文提出的方法相比于主流的方法在检出率上均有提升,且相比市面上现有的检索系统同样具有优势.
-
关键词
专利检索
语义检索
难负例采样
白化转换
-
Keywords
patent retrieval
semantic retrieval
hard negative mining
whitening
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-