-
题名基于表征空间结构对齐的跨语言知识迁移方法
被引量:1
- 1
-
-
作者
任思远
彭程
陈科
何智毅
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2024年第S2期18-23,共6页
-
文摘
在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据,在大多数非英语语言上难以有效利用对比学习获得高质量的句子表征。针对此问题,提出一种适用于对比学习模型的跨语言知识迁移方法——通过对齐不同语言表征空间的结构进行跨语言知识迁移,并基于此方法设计了一个简单有效的跨语言知识迁移框架——TransCSE,旨在将有监督英语对比学习模型的知识迁移到非英语模型上。通过英语到英语、法语、阿拉伯语、西班牙语、土耳其语、汉语等6个方向的知识迁移实验,TransCSE将有监督英语对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)的知识迁移到了多语言预训练语言模型mBERT(multilingual Bidirectional Encoder Representations from Transformers)上。实验结果表明,与原始的mBERT相比,利用TransCSE框架训练完成的模型在XNLI(Cross-lingual Natural Language Inference)和STS(Semantic Textual Similarity) 2017这2个基准数据集上分别获得了17.95和43.27个百分点的准确率提升,验证了TransCSE的有效性;同时,相较于基于共享参数和基于表征对齐的跨语言知识迁移方法,TransCSE在2个数据集上均取得了最佳表现。
-
关键词
自然语言处理
对比学习
跨语言知识迁移
多语言预训练模型
表征空间结构对齐
-
Keywords
Natural Language Processing(NLP)
contrastive learning
cross-lingual knowledge transfer
multilingual pre-trained model
alignment of representational space structures
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-