-
题名基于语料库相似度的语料选择
- 1
-
-
作者
许可
迟名远
王成友
蔡宣平
-
机构
国防科技大学电子科学与工程学院智能感知与系统联合研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第17期231-233,共3页
-
基金
国家自然科学基金(60334010
60475029)
-
文摘
在基于语料库的文语转换系统中,需要事先选择并合成一定数量的句子得到其MOS评分,通过使拼接损失与MOS分相关系数最大来优化拼接损失函数。该文以清华大学TH-Coss女声语料库为例,提出了归一化语境误差和与语料库相似度的概念,以归一化语境误差和最小为准则,从TH-Coss语料库中选出应该事先合成的那批句子,用剩下的句子替代整个语料库。实验结果表明,与随机选取相比,该文的方法选取出来的句子同整个语料库的相似度有较大幅度的提高,剩余句子组成的语料库与整个语料库的相似度达到0.9955,表明这种替代是合理的。
-
关键词
相似语料库
归一化语境误差和
语料库相似度
文语转换系统
拼接损失函数
-
Keywords
similar corpus
sum of normalized contextual errors(SNCE)
corpus-similaritv(CS) text-to-speech (TTS)- concatenative cost function
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-