-
题名融合词簇约束的汉越跨语言词嵌入
- 1
-
-
作者
武照渊
余正涛
黄于欣
-
机构
昆明理工大学信息工程与自动化学院
云南省人工智能重点实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2023年第1期82-91,共10页
-
基金
国家自然科学基金(61732005,U21B2027,61972186,61866020,61866019)
云南省重大科技专项(202002AD080001,202103AA080015)
云南省高新技术产业专项(201606)。
-
文摘
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。
-
关键词
汉越双语
低资源语言
跨语言词嵌入
词簇对齐
多粒度约束
-
Keywords
Chinese-Vietnamese bilingual
low-resource language
cross-lingual word embedding
word cluster alignment
multi-granularity constraints
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于要素关联图的汉越跨语言事件检索方法
- 2
-
-
作者
赵周颖
余正涛
黄于欣
陈瑞清
朱恩昌
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《现代电子技术》
北大核心
2024年第7期127-132,共6页
-
文摘
汉越跨语言事件检索旨在根据输入的中文事件查询短语,检索出相关的越南语新闻事件文档。由于查询文档的新闻文本较长,中文事件查询短语与越南语的查询文档长度不一,表达差异较大,且查询文档中往往会包含大量与其描述的核心事件无关的噪声文本,现有的模型不能很好地捕获事件匹配特征,匹配效果欠佳。基于此,文中提出基于要素关联图的汉越跨语言事件检索方法。首先,预训练一个汉越双语词嵌入来解决跨语言问题;然后,抽取查询文档中的关键信息(关键词和实体)以构建要素关联图;最后,通过引入一个图编码器对构建的要素图进行编码,生成结构化的事件信息来增强传统的事件检索模型。实验结果表明文中提出的方法优于传统的基线方法。
-
关键词
跨语言事件检索
跨语言词嵌入
要素关联图
图神经网络
文本匹配
事件检索
-
Keywords
cross⁃lingual event retrieval
cross⁃lingual word embedding
arguments relational graph
graph neural network
text match
fact retrieval
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于无监督对抗训练的跨语言文本分类方法
被引量:1
- 3
-
-
作者
崔东虎
崔荣一
赵亚慧
-
机构
延边大学智能信息处理研究室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第9期55-62,共8页
-
基金
国家语委“十三五”科研规划项目(YB135-76)
延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)
国家社会科学基金(22&ZD305)。
-
文摘
针对目前大多数语言没有足够多标注数据的问题,该文提出了汉-朝跨语言多层语义对齐的文本分类模型,通过结合无监督词嵌入映射和对抗训练,使模型可以从资源丰富的语言资源中学习到文本分类知识并迁移到低资源语言中。首先,采用线性映射方法将预训练好的单语词向量映射到同一语义空间中;然后利用源语言和目标语言词信息进行对抗训练,指导分类模型学习语言无关特征,达到提升汉-朝跨语言文本分类性能的目的。实验结果表明,与直接使用汉-朝跨语言词向量相比,该文方法显著提高了汉-朝跨语言文本分类的准确率,在无监督的条件下准确率达到了84.1%。
-
关键词
文本分类
跨语言词嵌入
对抗训练
-
Keywords
text classification
cross-language word embedding
adversarial training
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名非自回归翻译模型在蒙汉翻译上的应用
被引量:2
- 4
-
-
作者
赵旭
苏依拉
仁庆道尔吉
石宝
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第12期310-316,共7页
-
基金
国家自然科学基金(61966028,61966027)。
-
文摘
当前大多数机器翻译模型都属于自回归模型,不支持解码器并行生成翻译结果,且生成速率过低。针对当前自回归模型中存在的问题,基于Transformer和非自回归Transformer(non-autoregressive Transformer,NAT)的翻译模型进行实验,对蒙汉语料进行知识蒸馏和语跨语言词语嵌入的处理。实验结果表明,引入知识蒸馏的NAT模型在BLEU值方面有显著提升,同时也提高了模型生成速率。NAT模型进行知识蒸馏与跨语言词嵌入处理后能显著减少源语言和目标语言之间的依赖关系,提高蒙汉机器翻译的BLEU值,相比Transformer模型,BLEU值提高了2.8,时间消耗减少了19.34 h。
-
关键词
Transformer模型
NAT模型
知识蒸馏
跨语言词嵌入
-
Keywords
Transformer models
non-autoregressive Transformer(NAT)
knowledge distillation
cross-language word embedding
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-