-
题名融合关键词和语义特征的汉越文本相似度计算
被引量:1
- 1
-
-
作者
潘润海
高盛祥
余正涛
刘奕洋
尤丛丛
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2022年第6期1309-1314,共6页
-
基金
国家自然科学基金项目(61761026,61972186,61732005,61672271,61762056)资助
国家重点研发计划项目(2019QY1802,2019QY1801,2019QY1800)资助
+3 种基金
云南省高科技人才项目(201606,202105AC160018)资助
云南省重大科技专项计划项目(202002AD080001-5,202103AA080015)资助
云南省基础研究计划项目(202001AS070014,2018FB104)资助
昆明理工大学省级人培项目(KKSY201703005)资助.
-
文摘
汉越文本相似度计算是实现汉越文本理解和文本分类的基础.目前使用神经网络来计算文本相似度是一个有效方法,但由于文本较长、冗余信息较多,神经网络难以有效捕获文本间的相似信息,同时汉-越平行语料稀缺导致模型泛化性能一般,此方法受到一定限制.故提出一种融合关键词和语义特征的汉越文本相似度计算方法.针对文本较长冗余信息较多,提出使用文本关键词来获得文本关键信息以压缩文本减少冗余,同时计算出文本间关键词相似信息;针对汉-越平行语料稀缺,提出使用知识蒸馏的方法来训练神经网络来对文本进行编码,得到上下文语义特征;最后将词的相似信息和上下文语义特征融合实现文本相关性判断.实验表明,本文提出的方法能有效提升汉-越文本相似度计算的准确率.
-
关键词
汉-越
文本相似度
BERT
关键词
神经网络
-
Keywords
Chinese-Vietnamese
text similarity
BERT
keywords
neural networks
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-
-
题名基于同义词数据增强的汉越神经机器翻译方法
被引量:12
- 2
-
-
作者
尤丛丛
高盛祥
余正涛
毛存礼
潘润海
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2021年第8期1497-1502,共6页
-
基金
国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)
国家自然科学基金(61761026,61972186,61732005,61672271,61762056)
+2 种基金
云南省高新技术产业专项(201606)
云南省自然科学基金(2018FB104)
昆明理工大学省级人培项目(KKSY201703005)。
-
文摘
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果。数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法。由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易。因此,提出一种基于低频词的同义词替换的数据增强方法。该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选;最后将筛选后的句子与另一端语言中的句子进行匹配,获得扩展的平行语料。汉越翻译对比实验结果表明,提出的方法取得了很好的效果,扩展后的方法比基准和回译方法在BLEU值上分别提高了1.8和1.1。
-
关键词
汉越
数据增强
同义词替换
神经机器翻译
-
Keywords
Chinese-Vietnamese
data augmentation
synonym substitution
neural machine translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-