期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种两阶段的中文专利语义检索方法 被引量:1
1
作者 吕学强 梁虎 +1 位作者 赵颖 游新冬 《小型微型计算机系统》 CSCD 北大核心 2024年第10期2378-2383,共6页
专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,... 专利检索系统主要以传统的术语匹配方式提供检索服务,语义扩展性不足,使得具有语义相似的专利在Top_N的检出率较低.为了提升相似专利的Top_N检出率,该文提出了一种两阶段的中文专利语义检索方法.第1阶段基于Sentence-BERT进行语义编码,然后基于近似最近邻算法进行语义匹配,能够从海量专利文献库中快速匹配到语义相似的专利.第2阶段以BERT为基础模型,基于交叉编码器(Cross-Encoder)捕获专利文本之间更细粒度的语义相关性,对第1阶段的候选专利集进行重新排序.此外,该文还提出了难负例(hard negative)采样和白化转换(whitening)两种简单有效的模型训练优化策略,使模型从简单的训练数据逐渐过度到复杂的训练数据,提高模型区分相似专利的能力.实验表明,该文提出的方法相比于主流的方法在检出率上均有提升,且相比市面上现有的检索系统同样具有优势. 展开更多
关键词 专利检索 语义检索 难负例采样 白化转换
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部