专利作为创新技术的重要知识载体,文本相似性计算是自然语言处理应用广泛的重要一环,专利文本相似性计算有助于挖掘潜在价值专利和支撑专利检索。本文提出了一种基于专家反馈微调的专利文本相似性计算方法,在专家评价小数据集上,利用大...专利作为创新技术的重要知识载体,文本相似性计算是自然语言处理应用广泛的重要一环,专利文本相似性计算有助于挖掘潜在价值专利和支撑专利检索。本文提出了一种基于专家反馈微调的专利文本相似性计算方法,在专家评价小数据集上,利用大模型重新生成摘要文本进而实现负例文本增强,随后利用专家评价数据集对预训练模型进行微调,并在大规模数据集上重新计算得到相似专利。本文在新材料和电子信息两个新兴领域中分别继续训练BART (bidirectional and auto-regressive transformers)和BGE (Beijing Academy of Artificial Intelligence general embedding)模型,并在专家评价数据集上微调两个模型。实验结果表明,该方法的Spearman相关系数相较于初始模型分别提升了6.4%和16.9%。实证部分识别了电子信息领域企业技术竞争对手这一场景,验证了该方法在技术竞争对手识别中的优势。展开更多
文摘专利作为创新技术的重要知识载体,文本相似性计算是自然语言处理应用广泛的重要一环,专利文本相似性计算有助于挖掘潜在价值专利和支撑专利检索。本文提出了一种基于专家反馈微调的专利文本相似性计算方法,在专家评价小数据集上,利用大模型重新生成摘要文本进而实现负例文本增强,随后利用专家评价数据集对预训练模型进行微调,并在大规模数据集上重新计算得到相似专利。本文在新材料和电子信息两个新兴领域中分别继续训练BART (bidirectional and auto-regressive transformers)和BGE (Beijing Academy of Artificial Intelligence general embedding)模型,并在专家评价数据集上微调两个模型。实验结果表明,该方法的Spearman相关系数相较于初始模型分别提升了6.4%和16.9%。实证部分识别了电子信息领域企业技术竞争对手这一场景,验证了该方法在技术竞争对手识别中的优势。