-
题名藏语方言语音合成数据集
被引量:5
- 1
-
-
作者
仁曾卓玛
朱丽平
-
机构
中央民族大学信息工程学院
国家语言资源监测与研究少数民族语言中心
-
出处
《中国科学数据(中英文网络版)》
CSCD
2022年第2期20-29,共10页
-
基金
国家社科基金项目(17BGL199)
-
文摘
本研究构建并公开了藏语卫藏、安多和康巴三大方言的语音合成数据集。本数据集来源于喜马拉雅FM听音软件,内容包含新闻、法律知识、生活常识、小故事等。数据集中的音频由专业的播音员录播而成,能够保证发音的准确性,通过用专业的音频软件切割播音内容,提供10多小时约8.02 GB的音频及对应的文本数据,共4684条句子。文本经过藏语专业人员审核,能够保证语法的正确性。从字丁、音标、语音现象的均衡覆盖率等多方面对数据集的质量评估表明,本数据集对各方言语言特征覆盖率高,且语音现象覆盖均衡。本数据集可以为研究藏语方言语音合成提供数据支撑,同时还可以作为研究藏语三大方言语音发音、停顿、韵律、节奏等语音特征的语料库。
-
关键词
语音合成
安多方言
卫藏方言
康巴方言
数据集
-
Keywords
speech synthesis
Amdo dialect
Weizang dialect
Kangba dialect
dataset
-
分类号
TN912.33
[电子电信—通信与信息系统]
H214
[语言文字—少数民族语言]
-