期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
完全端到端的藏语安多方言语声合成
1
作者 张维昭 李俊帜 《应用声学》 北大核心 2025年第5期1251-1262,共12页
目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基... 目前藏语语声合成研究多面向卫藏方言,而对安多和康方言研究相对较少。在分析藏文特点的基础上,该文首先设计并构建一个大规模标准安多方言语声合成语料库(TACSS),总时长为18.6 h。然后,设计了基于计算机可识别机读音标的SAMPA-AT和基于藏文构件的两种字素到音素(G2P)转写方案。最后,采用完全端到端语声合成模型VITS,实现了藏语安多方言的语声合成。与此同时,该文还比较了基于SAMPA-AT和基于藏文构件的两种G2P转写方案的优劣。实验结果表明,与两阶段语声合成模型相比,VITS在藏语安多方言语声合成任务上具有更好的表现。通过采用基于藏文构件的转写方案,该文提出的完全端到端藏语安多方言语声合成模型平均意见得分最优值为4.59。 展开更多
关键词 语声合成 藏语安多方言 端到端 语料库 藏文文本转写
在线阅读 下载PDF
藏语语声识别声学模型建模单元研究
2
作者 王嘉文 高定国 索朗曲珍 《应用声学》 北大核心 2025年第2期405-412,共8页
语声识别建模单元的选择是藏语语声识别任务中的关键问题,决定了语声识别声学模型的训练质量和识别准确性。针对藏语语声识别研究中多种建模单元在不同数据集上进行的实验,导致难以探寻合适建模单元进行藏语语声识别,使得相关科研成果... 语声识别建模单元的选择是藏语语声识别任务中的关键问题,决定了语声识别声学模型的训练质量和识别准确性。针对藏语语声识别研究中多种建模单元在不同数据集上进行的实验,导致难以探寻合适建模单元进行藏语语声识别,使得相关科研成果难以相互支持的问题,该文提出了适用性更高同时识别效果更优秀的藏语语声识别声学模型建模单元。该文总结改进了4种建模单元,并在3种方言数据上进行了消融实验,分别训练了5种声学模型。实验结果表明,基于拉丁音素的建模单元适用于卫藏方言和康巴方言,基于拉丁音节的建模单元适用于安多方言,改进的基于注意力机制的深度卷积声学模型在安多方言上达到了最好的识别效果,测试集字错误率为14.67%。 展开更多
关键词 藏语 语声识别 声学模型 建模单元
在线阅读 下载PDF
基于藏字构件的低资源多方言藏语语音合成方法研究
3
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《计算机工程与科学》 北大核心 2025年第8期1503-1510,共8页
藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用... 藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用端到端的语音合成模型,探讨了2种低资源的多方言藏语合成方案。实验结果表明,所提方法通过混合数据集训练能够实现单一模型对多方言的语音合成,提高语音的自然度和表现力,达到了平均MOS为4.56的语音质量。 展开更多
关键词 藏字构件 低资源 多方言 藏语 语音合成
在线阅读 下载PDF
TCST-UT:卫藏方言藏汉语音翻译数据集
4
作者 黎鑫 刘佳洛 +3 位作者 多杰朋毛 看卓措 戚肖克 赵小兵 《中国科学数据(中英文网络版)》 2025年第3期523-534,共12页
在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模... 在大模型时代,多语种语言资源建设具有极为关键的意义。然而,目前公开的藏汉语音翻译数据集资源极为匮乏,这严重制约了藏语在多语种语言资源建设中的发展。为此,本研究充分参考国际语音翻译数据集规范,采用半自动标注方式构建了大规模卫藏方言藏汉语音翻译数据集。首先,基于公开的卫藏方言藏语自动语音识别数据集(M2ASR),利用Gemini-1.5-pro大模型将语音对应的藏语转录文本翻译成汉语。随后,专家对翻译结果进行严格审核与校正,最终整理成高质量的卫藏方言藏汉语音翻译数据集。本数据集包含58,767条藏语语音-藏语文本-汉语文本三元组,音频数据来自147个不同说话人,总时长为72.08小时,藏汉文本对数据文件大小为22 MB。本数据集不仅为藏汉语音翻译研究提供了基础数据,同时也为其他低资源语言的语音翻译数据集构建提供了一定的经验。 展开更多
关键词 藏汉语音翻译 数据集 半自动标注 低资源语言
在线阅读 下载PDF
基于字节对编码的端到端藏语语音识别研究
5
作者 蔡郁青 仁增多杰 +3 位作者 尼玛扎西 王超 朱宇雷 张瑾 《中文信息学报》 北大核心 2025年第4期172-178,共7页
针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将... 针对藏语端到端语音识别研究中存在的建模单元不统一和识别效果不理想的问题,该文提出了一种BPE-Conformer-CTC/Attention端到端藏语语音识别方法。首先,该方法采用了字节对编码算法进行语音建模,通过反复合并出现频率最高的字符对,将文本分割成易于管理、有意义的单元,平衡建模单元的粒度,从而解决藏语语音识别中建模单元不统一的问题。其次,使用了Conformer编码器,有效地融合了音频序列的全局和局部依赖关系,从而增强了模型的表征能力。最后,通过CTC/Attention联合解码策略,加速了对齐和解码过程,进而提高了识别效果的准确性和效率。在开源数据集XBMU-AMDO31和TIBMD@MUC上的实验结果表明,该文所提出的BPE-Conformer-CTC/Attention模型分别取得了9.0%和4.6%的词错误率,相较于基线模型Transformer-CTC/Attention,词错误率分别相对降低了14.2%和30.3%。该研究方法为藏语端到端语音识别任务提供了一种有效的解决方案。 展开更多
关键词 藏语语音识别 端到端 字节对编码 安多方言
在线阅读 下载PDF
基于深度特征学习的藏语语音识别 被引量:8
6
作者 王辉 赵悦 +3 位作者 刘晓凤 徐晓娜 周楠 许彦敏 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2015年第4期69-73,共5页
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.
关键词 深度特征学习 稀疏自动编码器 藏语语音识别 MFCC特征
在线阅读 下载PDF
藏语连续语音语料库设计与实现 被引量:10
7
作者 李永宏 于洪志 孔江平 《计算机工程与应用》 CSCD 北大核心 2010年第13期233-235,248,共4页
以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本... 以藏语夏河话为研究对象,建立了基于三音子的藏语连续语音语料库。首先收集了10万句藏语文本语料库,并根据夏河话的实际发音,进行了国际音标转写;然后总结了夏河话的三音子音联结构形式,并用藏语文本处理平台对其组合类型和在原始文本语料库中的频度进行了详细的统计分析;最后在语音库的语料设计中综合考虑了三音子以及类三音子的覆盖率和稀疏度,设计并完成了语料抽取算法,实现了语料自动选取。 展开更多
关键词 藏语 三音子 语音库 Greed算法
在线阅读 下载PDF
融合音节特征的最大熵藏文词性标注研究 被引量:15
8
作者 于洪志 李亚超 +1 位作者 汪昆 冷本扎西 《中文信息学报》 CSCD 北大核心 2013年第5期160-165,共6页
藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词... 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 展开更多
关键词 藏文 词性标注 最大熵 形态特征
在线阅读 下载PDF
基于循环神经网络的藏语语音识别声学模型 被引量:18
9
作者 黄晓辉 李京 《中文信息学报》 CSCD 北大核心 2018年第5期49-55,共7页
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与... 探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。 展开更多
关键词 循环神经网络 藏语语音识别 声学建模 时域卷积
在线阅读 下载PDF
基于瓶颈特征的藏语拉萨话连续语音识别研究 被引量:9
10
作者 周楠 赵悦 +3 位作者 李要嫱 徐晓娜 才旺拉姆 吴立成 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第2期249-254,共6页
基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征... 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。 展开更多
关键词 藏语拉萨话 连续语音识别 高斯混合–隐马尔科夫模型 瓶颈特征 深度神经网络
在线阅读 下载PDF
基于Matlab的藏语语音基音检测算法研究 被引量:7
11
作者 卓嘎 边巴旺堆 《现代电子技术》 北大核心 2015年第10期20-22,共3页
目前藏语语音基音检测算法相关研究较少,藏语语音基音检测是藏语语音处理过程中的重要环节,其准确性直接影响到系统的性能。介绍中心消波和自相关函数的算法原理及基音检测算法,设计藏语语音基音检测流程,利用Matlab进行编程和仿真。通... 目前藏语语音基音检测算法相关研究较少,藏语语音基音检测是藏语语音处理过程中的重要环节,其准确性直接影响到系统的性能。介绍中心消波和自相关函数的算法原理及基音检测算法,设计藏语语音基音检测流程,利用Matlab进行编程和仿真。通过实验表明该算法结构简单、运算量小,结果较准确,可用于信噪比较低环境下藏语语音辅音的基音估值检测。 展开更多
关键词 基音检测 藏语语音 自相关算法 MATLAB
在线阅读 下载PDF
临近最优主动学习的藏语语音识别方法研究 被引量:3
12
作者 赵悦 李要嫱 +1 位作者 徐晓娜 吴立成 《计算机工程与应用》 CSCD 北大核心 2018年第22期156-159,215,共5页
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样... 语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。 展开更多
关键词 临近最优批量主动学习 submodular函数 语音语料选择 藏语拉萨话语音识别
在线阅读 下载PDF
藏语拉萨语LPC语音参数提取研究 被引量:5
13
作者 卓嘎 董志诚 《现代电子技术》 北大核心 2017年第18期20-22,共3页
藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语... 藏语语音参数提取是藏语语音识别的关键技术之一,参数提取的精确度直接影响语音识别的效果。线性预测系数(LPC)是语音信号的重要频域参数,是目前语音信号处理过程中比较重要的处理技术,广泛应用于语音压缩、语音声学建模、语音合成、语音识别等过程中。首先介绍了线性预测算法原理,然后提出了藏语语音LPC参数提取的方案,最后在Matlab平台上实现了藏语语音LPC参数的提取和仿真分析,研究结果对完善藏语语音合成技术和提高藏语语音识别效率有一定的研究参考价值。 展开更多
关键词 藏语语音 LPC 参数提取 语音信号
在线阅读 下载PDF
藏语语音合成中语料数据标注规则的设计 被引量:5
14
作者 曲珍 春燕 《西藏大学学报(社会科学版)》 CSSCI 2012年第2期62-66,共5页
基于隐马尔可夫模型(HMM)的藏语语音合成系统中,语料数据的标注是训练声学模型的基础和关键。文章结合藏语独有的语音特点对语料数据设计套标注规则,并以Praat为标注环境实现语料的标注。
关键词 藏语语音合成 语料数据 标注规则
在线阅读 下载PDF
基于词汇语料的白马藏语语音分析研究 被引量:4
15
作者 祁坤钰 杨士宏 《西藏大学学报(社会科学版)》 CSSCI 2014年第4期111-118,126,共9页
采用语料库方法,构建了一个具有4500余条词的白马藏语语音库,并做了规范的音标标注。该库涵盖了《藏语方言调查表》91%的词汇,包含了白马藏语固有的语音和词汇特征,完全能够代表白马藏语普遍的语言现象。依据语音库标注信息,从发音部位... 采用语料库方法,构建了一个具有4500余条词的白马藏语语音库,并做了规范的音标标注。该库涵盖了《藏语方言调查表》91%的词汇,包含了白马藏语固有的语音和词汇特征,完全能够代表白马藏语普遍的语言现象。依据语音库标注信息,从发音部位和发音方法两方面对白马藏语声母和韵母的音位系统进行了统计分析,获得了详细的白马藏语音系数据。同时,按发音方法归纳了声母与韵母的组合规律及其分布特征,总结了白马藏语语音与藏语书面语的对应关系,为今后的白马藏语研究提供了详实的数据和新的研究思路。 展开更多
关键词 白马藏语 语音库 音位系统
在线阅读 下载PDF
面向语音合成的藏语单音素与三音素自动切分算法研究 被引量:5
16
作者 张金溪 李永宏 +2 位作者 单广荣 李照耀 江静 《计算机应用研究》 CSCD 北大核心 2013年第11期3272-3275,共4页
在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别... 在构建藏语语料库时要对语音进行音素切分,采用了两种方法,即基于单音素HMM模型的自动切分方法和基于三音素HMM模型的自动切分方法。通过实验分析了这两种HMM模型的自动切分结果的准确率程度,其中单音素、三音素总的平均切分准确度分别为80.69%、88.74%。实验结果表明,三音素HMM模型的自动切分方法的准确率明显高于单音素HMM模型的切分率,提高了语音语料库标注信息的精确度和一致性。 展开更多
关键词 语音合成 藏语语料库 单音素 三音素 自动切分
在线阅读 下载PDF
基于Matlab的藏语语音MFCC参数提取研究 被引量:1
17
作者 卓嘎 姜军 边巴旺堆 《西藏大学学报(社会科学版)》 CSSCI 2017年第2期58-62,共5页
MFCC(Mel Frequency Cepstrum Coefficient)是语音处理过程中需要提取的重要频率参数之一,因其很好地模仿人耳的听觉感知,在各种语音识别和合成过程中得到广泛的应用。文章在分析标准的MFCC参数提取算法基础上,通过合并参数算法提取了... MFCC(Mel Frequency Cepstrum Coefficient)是语音处理过程中需要提取的重要频率参数之一,因其很好地模仿人耳的听觉感知,在各种语音识别和合成过程中得到广泛的应用。文章在分析标准的MFCC参数提取算法基础上,通过合并参数算法提取了藏语语音的MFCC,并给出了在Matlab里进行仿真实验的详细步骤。 展开更多
关键词 藏语语音 MFCC 参数提取 语音信号
在线阅读 下载PDF
纳西东巴古籍藏语音读经典初探 被引量:8
18
作者 和继全 《西藏大学学报(社会科学版)》 CSSCI 2013年第2期134-144,共11页
纳西东巴古籍藏语音读经典作为含有特殊语言现象的文献资料,对民族语言、宗教和历史具有较高的研究价值。文章对此类经典的数量、收藏地点、类别、使用情况等作了初步梳理,指出藏语音读东巴经典具有字音严格对应、成线性排列的写读特征... 纳西东巴古籍藏语音读经典作为含有特殊语言现象的文献资料,对民族语言、宗教和历史具有较高的研究价值。文章对此类经典的数量、收藏地点、类别、使用情况等作了初步梳理,指出藏语音读东巴经典具有字音严格对应、成线性排列的写读特征,部分源于早期苯教经典,还有部分属藏传佛教噶玛噶举派经文的东巴文转写。 展开更多
关键词 东巴古籍 藏语音读 数量 收藏 写读特征 来源
在线阅读 下载PDF
基于LPC的藏语语音基音周期的检测分析 被引量:1
19
作者 马英 陈超 贾国庆 《现代电子技术》 北大核心 2015年第16期13-15,19,共4页
基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周... 基音周期是语音信号的重要参数,提取藏语语音基音周期为藏语语音识别和藏语语音合成奠定很重要的基础。这里在分析藏语发音特点的基础上进行基于LPC的藏语语音基音周期提取算法的分析,实践表明,该方法更加符合小信噪比藏语音信号基音周期和提取。在传统LPC分析方法的基础上结合自相关法和倒谱法,分析计算平均相对误差,总结出了符合藏语语音特点的特征提取算法。 展开更多
关键词 LPC 藏语语音 基音周期 倒谱法
在线阅读 下载PDF
TIP-LAS:一个开源的藏文分词词性标注系统 被引量:34
20
作者 李亚超 江静 +1 位作者 加羊吉 于洪志 《中文信息学报》 CSCD 北大核心 2015年第6期203-207,共5页
TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注... TIP-LAS是一个开源的藏文分词词性标注系统,提供藏文分词、词性标注功能。该系统基于条件随机场模型实现基于音节标注的藏文分词系统,采用最大熵模型,并融合音节特征,实现藏文词性标注系统。经过试验及对比分析,藏文分词系统和词性标注系统取得了较好的实验效果,系统的源代码可以从网上获取。希望该研究可以推动藏文分词、词性标注等基础工作的发展,提供一个可以比较、共享的研究平台。 展开更多
关键词 藏文 分词 词性标注 条件随机场 最大熵
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部