期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于SimCSE有监督微调的跨语言专利文本表示优化方法
1
作者 王莉军 李浩天 +1 位作者 高影繁 王淑君 《情报学报》 北大核心 2025年第7期818-829,共12页
本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言... 本文提出了一种跨语言专利文本表示优化方法,旨在提升中英专利文本的语义表示能力。该方法结合了SimCSE(simple contrastive sentence embeddings)对比学习算法与有监督微调策略,通过充分利用中英专利文本的平行语料数据,实现了跨语言的有效文本表示。在无监督SimCSE微调的基础上,本文引入了有监督的SimCSE微调算法,以增强模型在跨语言语义理解上的表现。具体而言,本文提出了一种正负样本挖掘策略,通过分析专利文本间的引用关系构建高质量正样本集,使模型能够捕捉到更准确的跨语言语义相似性。同时,引入RetroMAE(retrieval-oriented masked auto-encoder)二次预训练模型,针对难负例的挖掘进行优化,以进一步提高模型的区分能力和泛化性能。与传统跨语言文本表示方法相比,本文方法在处理跨语言专利文本时表现出显著优势,突破了已有方法在语义对齐和区分上的局限性,为多领域跨语言专利分析提供了更加精准有效的工具。 展开更多
关键词 跨语言专利 SimCSE 正负例挖掘
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部