-
题名基于表征空间结构对齐的跨语言知识迁移方法
- 1
-
-
作者
任思远
彭程
陈科
何智毅
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
-
出处
《计算机应用》
CSCD
北大核心
2024年第S2期18-23,共6页
-
文摘
在自然语言处理(NLP)领域中,对比学习作为一种高效的句子表征学习方法,有效缓解了基于Transformer的预训练语言模型的各向异性,并显著提升了句子表征的质量。然而,现有研究集中在英语上,尤其是在有监督设置下的情况。由于缺乏有标签数据,在大多数非英语语言上难以有效利用对比学习获得高质量的句子表征。针对此问题,提出一种适用于对比学习模型的跨语言知识迁移方法——通过对齐不同语言表征空间的结构进行跨语言知识迁移,并基于此方法设计了一个简单有效的跨语言知识迁移框架——TransCSE,旨在将有监督英语对比学习模型的知识迁移到非英语模型上。通过英语到英语、法语、阿拉伯语、西班牙语、土耳其语、汉语等6个方向的知识迁移实验,TransCSE将有监督英语对比学习模型SimCSE(Simple Contrastive learning of Sentence Embeddings)的知识迁移到了多语言预训练语言模型mBERT(multilingual Bidirectional Encoder Representations from Transformers)上。实验结果表明,与原始的mBERT相比,利用TransCSE框架训练完成的模型在XNLI(Cross-lingual Natural Language Inference)和STS(Semantic Textual Similarity) 2017这2个基准数据集上分别获得了17.95和43.27个百分点的准确率提升,验证了TransCSE的有效性;同时,相较于基于共享参数和基于表征对齐的跨语言知识迁移方法,TransCSE在2个数据集上均取得了最佳表现。
-
关键词
自然语言处理
对比学习
跨语言知识迁移
多语言预训练模型
表征空间结构对齐
-
Keywords
Natural Language Processing(NLP)
contrastive learning
cross-lingual knowledge transfer
multilingual pre-trained model
alignment of representational space structures
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于阅读理解的汉越跨语言新闻事件要素抽取方法
- 2
-
-
作者
朱恩昌
余正涛
高盛祥
黄于欣
郭军军
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第6期86-95,共10页
-
基金
国家自然科学基金(U21B2027,U23A20388,62266028)
云南省重大科技专项计划项目(202302AD080003,202202AD080003,202303AP140008)
+1 种基金
云南省基础研究重点项目(202301AS070047)
昆明理工大学“双一流”创建联合专项(202201BE070001-021)。
-
文摘
新闻事件要素抽取旨在抽取新闻文本中描述主题事件的事件要素,如时间、地点、人物和组织机构名等。传统的事件要素抽取方法在资源稀缺型语言上性能欠佳,且对长文本语义建模困难。对此,该文提出了基于阅读理解的汉越跨语言新闻事件要素抽取方法。该方法首先利用新闻长文本关键句检索模块过滤含噪声的句子。然后利用跨语言阅读理解模型将富资源语言知识迁移到越南语,提高越南语新闻事件要素抽取的性能。在自建的汉越双语新闻事件要素抽取数据集上的实验验证了该文方法的有效性。
-
关键词
新闻事件要素抽取
长文本语义建模
跨语言知识迁移
阅读理解
-
Keywords
news event element extraction
long text sematic modeling
cross-language knowledge transfer
reading comprehension
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向隐喻识别的词语抽象性度量
被引量:3
- 3
-
-
作者
贾玉祥
昝红英
范明
俞士汶
王治敏
-
机构
郑州大学信息工程学院
北京大学计算语言学教育部重点实验室
北京语言大学汉语学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第3期41-47,共7页
-
基金
国家自然科学基金(61402419
61170163)
+3 种基金
国家社会科学基金(14BYY096)
国家重点基础研究发展计划973课题(2014CB340504)
计算语言学教育部重点实验室(北京大学)开放课题(201301
201401)
-
文摘
隐喻通常借助具体的概念来表达抽象的概念。如果能判断出文本中词语所指的概念是具体还是抽象的,即度量出词语的抽象程度,那么这将为隐喻的机器识别提供重要的依据。该文提出基于跨语言知识迁移的汉语词语抽象性度量方法,把英语中的词语抽象性知识迁移到汉语中来。提出基于词语抽象性知识的隐喻识别方法,并详细分析了词语抽象性与隐喻之间的关系。实验表明,知识迁移是可行的,基于抽象性知识的隐喻识别有较高的准确率,可以有效提高从真实文本中抽取隐喻的效率。
-
关键词
隐喻识别
词语抽象性
跨语言知识迁移
-
Keywords
metaphor recognition
word abstractness
cross lingual knowledge transfer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-