期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
一个TTS系统的实现方案 被引量:6
1
作者 袁嵩 《计算机工程与应用》 CSCD 北大核心 2004年第21期121-122,229,共3页
针对TTS技术在一些小型应用上存在着大量占用系统资源,执行速度慢等问题,该文介绍了一个高效而精简的汉语文语转换系统的实现方案。首先介绍了整个系统的设计思想,然后分步介绍了其具体实现。
关键词 文语转换 GBK WAV文件 语音合成
在线阅读 下载PDF
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 被引量:6
2
作者 刘瑞 康世胤 +2 位作者 高光来 李劲东 飞龙 《中文信息学报》 CSCD 北大核心 2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自... 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。 展开更多
关键词 蒙古语语音合成 非自回归声学建模 非自回归神经声码器 实时 高保真
在线阅读 下载PDF
基于编辑约束的端到端越南语文本正则化方法
3
作者 蒋铭 王琳钦 +1 位作者 赖华 高盛祥 《计算机应用》 北大核心 2025年第2期362-370,共9页
文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语... 文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语的语言特点后,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。此外,针对神经网络模型容易产生不可恢复性错误的问题,提出一种编辑对齐算法以有效约束非标准词文本的范围,减小解码端的搜索空间,从而避免模型自身局限性所导致的非正则化文本预测错误。选取FastCorrect模型作为基准模型,将各类优化方法应用到基准模型中得到新模型。实验结果表明,所提模型在越南语不同优化方式的对比实验中的精准率相比使用无标注数据的基准模型提高了23.71个百分点,在同类中文实验中的精准率提高了26.24个百分点。可见,所提方法不仅在越南语上表现出色,而且在中文开源数据上也取得了显著的效果,验证了该方法在越南语之外的适用性。而且,与六类基线模型相比,使用所提方法的模型取得了最高的97.14%的精准率,在F1值上超过加权有限状态转换器(WFST)的两阶段方法2.29个百分点,证明了所提方法在文本正则化任务上的优越性。 展开更多
关键词 越南语 文本正则化 编辑对齐算法 语音合成 端到端
在线阅读 下载PDF
用于提升聋哑人语音表现力的语音合成技术 被引量:3
4
作者 马皓天 洪峰 +3 位作者 毛海全 郑立通 牟宏宇 许伟杰 《声学技术》 CSCD 北大核心 2024年第6期843-853,共11页
目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文... 目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文章首先分析了聋哑人的语音特征,并根据分析的结论,提出了能合成高自然度、高清晰度且带有聋哑人自身声音特色的模型算法以及相应的评估体系。文章根据不同残疾程度的聋哑人语音特征,提出了面向轻度残疾聋哑人的语音转换和合成方法以及面向重度残疾聋哑人的语音克隆方法。根据分析结果,轻度残疾聋哑人语音与健听人语音具有一定的共性,因此使用AdaIN-VC语音转换模型转换出带有聋哑人音色、高可懂度的语音,并将转换好的语音结合Tacotron2语音合成模型进行文本到语音的映射。考虑到重度残疾聋哑人语音的不稳定性,文章基于Zero-shot的SV2TTS语音克隆框架,使用了ECAPA-TDNN作为重度残疾聋哑人音色表征的说话人编码器,以获取准确的聋哑人表征。此外,文章还引入基于基频情感分类的风格迁移模块,对合成语音进行风格上的迁移。实验结果表明,在保证一定相似度的情况下,实验中两位轻残聋哑人的自然度主观意见评分别从原来的2.53和3.06提高至2.88和3.21,并且语音识别的错词率从100%分别降低至80.77%和76.91%。同样,文中提出的主观错词率也有明显的下降。而在语音克隆的实验中,模型合成的重残聋哑人语音与其自身音色的相似度主观相似度意见评分达到3,且聋哑人语音的自然度主观意见评分和情感表达能力均得到了提高。 展开更多
关键词 语音合成 语音转换 语音克隆 风格迁移
在线阅读 下载PDF
基于元学习自适应的小样本语音合成 被引量:1
5
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
在线阅读 下载PDF
汉语文本-可视语音转换的研究 被引量:9
6
作者 王志明 蔡莲红 +1 位作者 吴志勇 陶建华 《小型微型计算机系统》 CSCD 北大核心 2002年第4期474-477,共4页
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中... 本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS) 展开更多
关键词 视觉语音 汉语文本-可视语音转换系统 协同发音 汉字信息处理
在线阅读 下载PDF
中文语音合成系统语音速率调节方法 被引量:6
7
作者 黄华 仲元昌 +1 位作者 胡江坤 王靖欣 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第3期153-157,共5页
为了解决中文语音合成芯片构成的语音系统中播放语音速率不可调节的缺点,提出了先用特殊字符对输入的文本进行标注,把文本分成了不同类型的信息帧,然后将信息帧传输给单片机,系统自动判断信息帧的类型,根据不同的信息帧设置不同的延迟时... 为了解决中文语音合成芯片构成的语音系统中播放语音速率不可调节的缺点,提出了先用特殊字符对输入的文本进行标注,把文本分成了不同类型的信息帧,然后将信息帧传输给单片机,系统自动判断信息帧的类型,根据不同的信息帧设置不同的延迟时间,从而达到调节播放语音速率的目的.通过实验测试结果表明,这样不仅实现了调节播放语音速率的目的,同时也提高了播放语音的可懂度和自然度.该系统可以利用在各种嵌入式语音合成的系统中. 展开更多
关键词 语音合成 信息帧 文语转换
在线阅读 下载PDF
一个语音信息门户的设计与实现 被引量:4
8
作者 周宽久 曾琳铖曦 李瑶 《计算机工程》 EI CAS CSCD 北大核心 2006年第9期101-103,共3页
语音门户是利用了CTI技术实现电话网与互联网集成的重要部件,支持了用户通过普通电话访问互联网获取信息,是由IVR(Interactive Voice Response)、TTS(Text To Speech)、ASR(Automatic Speech Recognition)、Voice XML 4个子系统组成,该... 语音门户是利用了CTI技术实现电话网与互联网集成的重要部件,支持了用户通过普通电话访问互联网获取信息,是由IVR(Interactive Voice Response)、TTS(Text To Speech)、ASR(Automatic Speech Recognition)、Voice XML 4个子系统组成,该文在一个实用的语音门户系统的基础上,讨论了系统结构以及4个模块的设计实现,系统设计采用面向对象技术、自动机技术将板卡、通道以其语音合成、识别等资源有机集成在一个系统内,方便了系统设计与功能扩充。 展开更多
关键词 语音门户 交互式语音问答 语音合成 语音识别 VOICE XML
在线阅读 下载PDF
语音合成中的韵律关联模型 被引量:8
9
作者 吴志勇 蔡莲红 《中文信息学报》 CSCD 北大核心 2004年第2期44-50,共7页
基于大规模语音数据库的文语转换系统 (Text to Speech ,TTS)中 ,如何选取合适的语音基元是提高合成语音自然度的重要因素。本文研究了连续语流中的韵律关联现象 ,提出了包含韵律关联参数的汉语韵律特征参数集 ,基于数据挖掘中的关联规... 基于大规模语音数据库的文语转换系统 (Text to Speech ,TTS)中 ,如何选取合适的语音基元是提高合成语音自然度的重要因素。本文研究了连续语流中的韵律关联现象 ,提出了包含韵律关联参数的汉语韵律特征参数集 ,基于数据挖掘中的关联规则模型 (AssociationRulesModel)建立韵律关联模型 ,并将该模型应用于基元选取。实验表明 ,该方法有效地利用了语音基元的韵律及关联信息 ,符合人耳的知觉感受 ,使得合成语音自然度的主观评测MOS(MeanOpinionScore)得分与不考虑韵律关联时的结果相比提高了 12 2 2 %(3 4 9/3 11)。 展开更多
关键词 计算机应用 中文信息处理 文语转换 基元选取 韵律关联模型 语音合成
在线阅读 下载PDF
基于实例推理的人机对话系统的设计与实现 被引量:3
10
作者 姚琳 梁春霞 张德干 《计算机应用》 CSCD 北大核心 2007年第3期765-768,共4页
采用基于实例推理的方法,结合人机对话、语音识别和语音合成技术,设计与实现了一个辅助英语学习的人机对话系统。重点阐述了系统的语音功能、对话管理和实例库访问。实验表明,系统很好地满足了用户提高英语听力和口语水平的需求。
关键词 人机对话 基于实例的推理 语音识别 语音合成 英语学习
在线阅读 下载PDF
翻译本体研究的哲学思考 被引量:4
11
作者 江治刚 李军花 《北京第二外国语学院学报》 2006年第2期59-63,共5页
尽管翻译研究的学科地位已经基本获得了事实上的认可,然而至少在中国,译学建设还有很长的路。个中原因是不一而足的。就翻译本体的研究而言,关于翻译这个中心术语的厘定就可谓百家争鸣,见仁见智,莫衷一是。基于此种事实,本文试图从哲学... 尽管翻译研究的学科地位已经基本获得了事实上的认可,然而至少在中国,译学建设还有很长的路。个中原因是不一而足的。就翻译本体的研究而言,关于翻译这个中心术语的厘定就可谓百家争鸣,见仁见智,莫衷一是。基于此种事实,本文试图从哲学的基本原理出发,重点以罗曼·雅可布逊总结的翻译类别三分法为切入点,探讨形而上学层面突现的翻译本质和对原文译文及其关系的再认识,旨在深化对翻译现象的理解,最终为译学建设服务。 展开更多
关键词 翻译本体研究 哲学思考 学科建设 文化交流 社会活动 辨证唯物主义 认识论
在线阅读 下载PDF
英文文语转换系统中基于形态规则和机器学习的重音标注算法 被引量:2
12
作者 王永生 李梅 《计算机应用》 CSCD 北大核心 2008年第1期88-91,共4页
在英文TTS系统中,未登录词的重音标注是除字音转换外另一个十分重要的环节。由于主重音的重要性要远远大于次重音,且主重音的情况要比次重音的情况简单一些,因而将主重音的标注与次重音的标注分开进行。主重音的标注采用形态规则和机器... 在英文TTS系统中,未登录词的重音标注是除字音转换外另一个十分重要的环节。由于主重音的重要性要远远大于次重音,且主重音的情况要比次重音的情况简单一些,因而将主重音的标注与次重音的标注分开进行。主重音的标注采用形态规则和机器学习相结合的标注算法;而次重音的标注完全通过机器学习算法来进行。经过10轮交叉验证,主重音的平均标注正确率为94.4%,次重音的平均标注正确率为86.9%,总的标注正确率为83.6%。 展开更多
关键词 文语转换 未登录词 重音标注 机器学习
在线阅读 下载PDF
一种基于决策树模型的音库构建和基元选取方法 被引量:3
13
作者 叶振兴 蔡莲红 《计算机工程》 CAS CSCD 北大核心 2006年第10期189-190,220,共3页
针对嵌入式设备的存储容量小、计算能力有限的特点,设计了一种基于CART(ClassificationandRegressionTrees)决策树模型的基元预选算法和基元选取算法,可以从原始语音语料库中挑选出最有代表性的基元样本,从而有效地降低音库规模和算法... 针对嵌入式设备的存储容量小、计算能力有限的特点,设计了一种基于CART(ClassificationandRegressionTrees)决策树模型的基元预选算法和基元选取算法,可以从原始语音语料库中挑选出最有代表性的基元样本,从而有效地降低音库规模和算法的复杂度,满足了嵌入式TTS(Text-to-Speech)系统的需要。基于以上算法,移动终端上实现了一个嵌入式中文TTS系统,实验结果表明该系统的合成语音具有较高的可懂度和自然度。 展开更多
关键词 基元预选 基元选取 决策树 文语转换 嵌入式系统
在线阅读 下载PDF
动画精灵与中文语音合成关键技术的研究 被引量:2
14
作者 姚涵珍 郭志全 郑盛梓 《工程图学学报》 CSCD 2004年第2期182-185,共4页
研究了Microsoft的“动画精灵”与“中文语音合成”的关键技术,调用自编的VC++动态链接库,用Sendmessage向VB通讯,并开发了MFC类库的多线程功能,实现了多媒体教学系统中的中文语音合成技术。
关键词 计算机应用 中文语音合成 多线程 智能化
在线阅读 下载PDF
语音合成芯片OSYNO6188在车载导航中的应用 被引量:2
15
作者 王明艳 张其善 吴今培 《电子测量技术》 2006年第3期151-152,共2页
OSYNO6188是一款从文字到声音的语音合成芯片。本文介绍了该芯片在GPS导航系统车载终端的应用,包括硬件设计,软件设计等内容。针对车载导航的特殊情况,文章介绍了将该芯片应用到GPS导航系统车载终端时的语音排队方法。
关键词 语音合成芯片 车载终端 语音排队
在线阅读 下载PDF
基于HMM的中英文语音合成技术研究 被引量:2
16
作者 纪正飚 王吉林 赵力 《科学技术与工程》 北大核心 2014年第32期237-240,246,共5页
在SYN6658的中文TTS基础上,结合改进的英文合成技术,经过分析比较中文TTS和英文TTS的特性之后,提出了一种构建简单快速、占用空间小的中英文语音合成系统的方法。构建的系统能够实时快速地合成出中英文语音,系统简单、易实现且合成效果... 在SYN6658的中文TTS基础上,结合改进的英文合成技术,经过分析比较中文TTS和英文TTS的特性之后,提出了一种构建简单快速、占用空间小的中英文语音合成系统的方法。构建的系统能够实时快速地合成出中英文语音,系统简单、易实现且合成效果较好,是中英文语音合成产品的较好选择。 展开更多
关键词 语音合成 隐马尔可夫模型 文语转换系统 混合语音合成
在线阅读 下载PDF
一个基于SGML的面向语音合成的标记语言的分析
17
作者 岳东剑 柴佩琪 宣国荣 《计算机工程》 EI CAS CSCD 北大核心 2000年第8期154-156,共3页
讨论了语音合成系统,在输入文档中加入注释标记的重要性和必要性;以及说明为了实现合成器之间的兼容,便于它们与其他系统集成,而制定一个统一的文本标记注释方案的重要性.在此基础上,着重分析和研究了一个基于SGML的面向语音... 讨论了语音合成系统,在输入文档中加入注释标记的重要性和必要性;以及说明为了实现合成器之间的兼容,便于它们与其他系统集成,而制定一个统一的文本标记注释方案的重要性.在此基础上,着重分析和研究了一个基于SGML的面向语音合成的标记语言SSML(Speech Synthesis Markup Language)的标记设计,特别是实现韵律控制的标记设计等相关问题. 展开更多
关键词 语音合成 标记语言 SGML 韵律控制
在线阅读 下载PDF
基于语料库相似度的语料选择
18
作者 许可 迟名远 +1 位作者 王成友 蔡宣平 《计算机工程》 CAS CSCD 北大核心 2007年第17期231-233,共3页
在基于语料库的文语转换系统中,需要事先选择并合成一定数量的句子得到其MOS评分,通过使拼接损失与MOS分相关系数最大来优化拼接损失函数。该文以清华大学TH-Coss女声语料库为例,提出了归一化语境误差和与语料库相似度的概念,以归一化... 在基于语料库的文语转换系统中,需要事先选择并合成一定数量的句子得到其MOS评分,通过使拼接损失与MOS分相关系数最大来优化拼接损失函数。该文以清华大学TH-Coss女声语料库为例,提出了归一化语境误差和与语料库相似度的概念,以归一化语境误差和最小为准则,从TH-Coss语料库中选出应该事先合成的那批句子,用剩下的句子替代整个语料库。实验结果表明,与随机选取相比,该文的方法选取出来的句子同整个语料库的相似度有较大幅度的提高,剩余句子组成的语料库与整个语料库的相似度达到0.9955,表明这种替代是合理的。 展开更多
关键词 相似语料库 归一化语境误差和 语料库相似度 文语转换系统 拼接损失函数
在线阅读 下载PDF
基于HCSIPA的中英文混合语音合成 被引量:4
19
作者 徐英进 蔡莲红 《计算机工程》 CAS CSCD 2013年第4期14-17,共4页
基于双语说话人的中英文混合合成,提出一种中英文通用音标符号——HCSIPA,采用发音方式和部位为构造标准。在中英文混合聚类中,构造针对HCSIPA的中英文共用问题集,以提高中英文在决策树结构上的区分度。实验结果表明,HCSIPA能提高中文... 基于双语说话人的中英文混合合成,提出一种中英文通用音标符号——HCSIPA,采用发音方式和部位为构造标准。在中英文混合聚类中,构造针对HCSIPA的中英文共用问题集,以提高中英文在决策树结构上的区分度。实验结果表明,HCSIPA能提高中文和英文的发音单元混合度,减少语言差距带来的音色差距,基于HCSIPA的混合合成系统可以合成较高质量的中英文语音,且中英文混合对单种语言合成的质量下降不明显。 展开更多
关键词 HMM混合语音合成 音标符号 HCSIPA符号 双语说话人 音色统一
在线阅读 下载PDF
基于语音卡的呼叫中心通用架构 被引量:8
20
作者 来洪孝 崔颖安 崔杜武 《计算机工程》 CAS CSCD 北大核心 2007年第22期283-284,F0003,共3页
基于分层设计的思想,设计了一种通用程序架构,可通过灵活配置来构建中小规模的呼叫中心,有效缩短了呼叫中心的建设周期,提高了软件的开发效率,为中小型呼叫中心的建设提供了一个参考模型,分析实现了流程控制动态配置技术方案,通过实践... 基于分层设计的思想,设计了一种通用程序架构,可通过灵活配置来构建中小规模的呼叫中心,有效缩短了呼叫中心的建设周期,提高了软件的开发效率,为中小型呼叫中心的建设提供了一个参考模型,分析实现了流程控制动态配置技术方案,通过实践证明了基于语音卡的呼叫中心通用架构设计思想的正确性和可行性。 展开更多
关键词 呼叫中心 计算机电信集成 文语转换 分层设计 流程控制
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部