-
题名藏语语声识别声学模型建模单元研究
- 1
-
-
作者
王嘉文
高定国
索朗曲珍
-
机构
西藏大学信息科学技术学院
西藏大学藏文信息技术创新人才培养示范基地
-
出处
《应用声学》
北大核心
2025年第2期405-412,共8页
-
基金
国家自然科学基金项目(62166038)
四川省科技计划项目(2023YFQ0044)
西藏大学研究生“高水平人才培养计划”项目(2021-GSP-S126)。
-
文摘
语声识别建模单元的选择是藏语语声识别任务中的关键问题,决定了语声识别声学模型的训练质量和识别准确性。针对藏语语声识别研究中多种建模单元在不同数据集上进行的实验,导致难以探寻合适建模单元进行藏语语声识别,使得相关科研成果难以相互支持的问题,该文提出了适用性更高同时识别效果更优秀的藏语语声识别声学模型建模单元。该文总结改进了4种建模单元,并在3种方言数据上进行了消融实验,分别训练了5种声学模型。实验结果表明,基于拉丁音素的建模单元适用于卫藏方言和康巴方言,基于拉丁音节的建模单元适用于安多方言,改进的基于注意力机制的深度卷积声学模型在安多方言上达到了最好的识别效果,测试集字错误率为14.67%。
-
关键词
藏语
语声识别
声学模型
建模单元
-
Keywords
Tibetan
Speech recognition
Acoustic model
Modeling unit
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名基于藏字构件的低资源多方言藏语语音合成方法研究
- 2
-
-
作者
王嘉文
高定国
尼琼
巴果
-
机构
西藏大学信息科学技术学院
西藏大学藏文信息技术创新人才培养示范基地
-
出处
《计算机工程与科学》
北大核心
2025年第8期1503-1510,共8页
-
基金
国家自然科学基金(62166038)
四川省科技计划(2023YFQ0044)
西藏大学高水平人才培养计划(2021-GSP-S126)。
-
文摘
藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用端到端的语音合成模型,探讨了2种低资源的多方言藏语合成方案。实验结果表明,所提方法通过混合数据集训练能够实现单一模型对多方言的语音合成,提高语音的自然度和表现力,达到了平均MOS为4.56的语音质量。
-
关键词
藏字构件
低资源
多方言
藏语
语音合成
-
Keywords
Tibetan character component
low-resource
multi-dialect
Tibetan
speech synthesis
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名基于特征提示的跨语种语音识别模型
被引量:2
- 3
-
-
作者
王嘉文
高定国
索朗曲珍
尼琼
-
机构
西藏大学信息科学技术学院
西藏大学藏文信息技术创新人才培养示范基地
-
出处
《科学技术与工程》
北大核心
2024年第24期10348-10355,共8页
-
基金
国家自然科学基金(62166038)
四川省科技计划基金(2023YFQ0044)
西藏大学高水平人才培养计划项目(2021-GSP-S126)。
-
文摘
跨语种语音识别是一种利用多种源语言的数据来训练一个能够识别目标语言的语音识别系统,它可以促进不同语言和文化之间的交流和理解。为解决跨语种语音识别存在着如何利用多语种数据来提高低资源语言的识别性能,源语言和目标语言之间的领域偏移或干扰,不同语言之间的任务权重和数据分布等问题,通过特征提示的方法研究跨语种语音识别模型;为简化传统需要专业人员对音素进行统一标注的过程,通过对原数据标识对应语种的方法研究跨语种语音数据标注方式,在2个公开数据集上进行实验。结果表明:所提模型相比于目前主流的语音识别模型Conformer模型平均错误率降低46.44%,相比于基线模型平均错误率降低2.1%,达到较高的识别准确率。研究成果为跨语种语音识别领域提供了新的思路和方法。
-
关键词
特征提示
跨语种
语音识别
CONFORMER
Contextnet
-
Keywords
feature prompt
cross lingual
speech recognition
Conformer
Contextnet
-
分类号
TN912.3
[电子电信—通信与信息系统]
-
-
题名低质古籍文献图像预处理方法研究
- 4
-
-
作者
高定国
李婧怡
索朗曲珍
-
机构
西藏大学信息科学技术学院
-
出处
《高原科学研究》
2024年第1期112-120,共9页
-
基金
国家自然科学基金项目(62166038)
四川省科技计划项目(2023YFQ0044)。
-
文摘
敦煌藏文文献是研究唐代吐蕃社会历史的珍贵文献。目前在敦煌藏文文献数字化研究方面,由于文献年代久远、书写载体低劣、保存条件差等各方面的原因使得文档图像背景杂乱、文字模糊并残缺不全,严重影响了文本识别系统的准确性和鲁棒性。为了研究低质古籍文献图像的预处理对文字识别的影响,文章以古籍文献图像质量极差的敦煌藏文文献作为研究对象,分别采用对数变换、伽马变换、中值滤波变换、高斯滤波处理和PS人工批处理等传统方法,及全局阈值、自适应阈值和自定义阈值的二值化、基于神经网络ViT的图像增强方法对图像进行增强。对比实验表明,低质古籍图像预处理对文字识别率提升影响不大,但高斯滤波处理、自定义阈值的图像二值化和基于神经网络的图像数据增强对识别率提升有一定的促进作用。
-
关键词
古籍
敦煌文献
低质文档
预处理
-
Keywords
ancient books
Dunhuang literature
low-quality documents
preprocessing
-
分类号
TP391.41
[自动化与计算机技术]
-