期刊文献+
共找到195篇文章
< 1 2 10 >
每页显示 20 50 100
大规模语音语料库及其在TTS中应用的几个问题 被引量:12
1
作者 章森 刘磊 刁麓弘 《计算机学报》 EI CSCD 北大核心 2010年第4期687-696,共10页
首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最... 首先介绍了大规模语音语料库以及基于大规模语音语料库的文语转换技术的研究现状,接着介绍了一个大规模连续汉语语音语料库的实例Slib的结构和内容;在此基础上,讨论了面向大规模语音语料库的索引技术,提出了语料库检索中的集合运算和最小包容问题,证明了最小包容问题是NP完全的,给出了求解该问题的贪婪算法以及算法的近似比;最后,讨论了基于集合运算的大规模语音语料库的检索技术在文语转换系统中的应用,特别是在基本语言单位实例的选取问题上实现了一种基于最小包容的优化方法,对提高文语转换系统的自然度有实用价值. 展开更多
关键词 语音语料库 集合运算 文语转换 最小包容 信息检索
在线阅读 下载PDF
汉语文语转换系统(TTS) 被引量:8
2
作者 谌卫军 李建民 +1 位作者 林福宗 张钹 《计算机工程与应用》 CSCD 北大核心 2000年第9期1-3,共3页
文章讨论了一个典型的汉语文语转换系统的实现。首先介绍了系统的整体框架及其各个功能模块,然后分析了系统的特点及其存在的问题,最后从两方面讨论了改进系统的具体思路:提出了一种简单而有效的基音周期提取算法,验证了上下文环境... 文章讨论了一个典型的汉语文语转换系统的实现。首先介绍了系统的整体框架及其各个功能模块,然后分析了系统的特点及其存在的问题,最后从两方面讨论了改进系统的具体思路:提出了一种简单而有效的基音周期提取算法,验证了上下文环境在提高合成语音自然度中的作用。 展开更多
关键词 汉语文语转换系统 语音自然度 标音处理 单音字
在线阅读 下载PDF
中文TTS系统中多音字的一种解决方案 被引量:3
3
作者 张力 薛惠锋 +1 位作者 吴晓军 李慜 《计算机应用与软件》 CSCD 北大核心 2008年第2期143-145,共3页
汉语多音字的情况为中文文语转换TTS(Text To Speech)系统的建立带来了很大的困难。针对中文文语转换系统中的多音字问题,通过构建多音字词库和非多音字词库,将多音字以词汇的形式区分,并且通过对多音字词库和非多音字词库的结构形式的... 汉语多音字的情况为中文文语转换TTS(Text To Speech)系统的建立带来了很大的困难。针对中文文语转换系统中的多音字问题,通过构建多音字词库和非多音字词库,将多音字以词汇的形式区分,并且通过对多音字词库和非多音字词库的结构形式的构造,减少了词库的冗余信息,提高了词汇语音的查找速率。实验证明该方案可以解决中文TTS中的多音字问题。 展开更多
关键词 文语转换 多音字 语音合成
在线阅读 下载PDF
一个TTS系统的实现方案 被引量:6
4
作者 袁嵩 《计算机工程与应用》 CSCD 北大核心 2004年第21期121-122,229,共3页
针对TTS技术在一些小型应用上存在着大量占用系统资源,执行速度慢等问题,该文介绍了一个高效而精简的汉语文语转换系统的实现方案。首先介绍了整个系统的设计思想,然后分步介绍了其具体实现。
关键词 文语转换 GBK WAV文件 语音合成
在线阅读 下载PDF
波形编辑语音合成技术及在汉语TTS中的应用 被引量:7
5
作者 蔡莲红 《小型微型计算机系统》 CSCD 北大核心 1994年第10期11-16,共6页
本文介绍了近几年迅速发展的基于波形编辑的语音合成技术。文中简介了它的研究内容、基本算法,还介绍了用波形编辑方法实现的汉语文一语转换系统。
关键词 语音合成 波形编辑 汉语tts
在线阅读 下载PDF
ZNUTTS语音合成系统的实现方案研究 被引量:1
6
作者 赵建民 朱信忠 《计算机科学》 CSCD 北大核心 2001年第6期110-113,共4页
1 语音合成技术概论当前,语音合成的代表技术是文语转换技术TTS(Text-To-Speech),TTS实现将文本自动转换成语音并加以输出。它在语音文稿校对、多媒体用户界面MUI(Multimedia-User-Interface)、计算机电话集成CTI(Computer-Telephony-In... 1 语音合成技术概论当前,语音合成的代表技术是文语转换技术TTS(Text-To-Speech),TTS实现将文本自动转换成语音并加以输出。它在语音文稿校对、多媒体用户界面MUI(Multimedia-User-Interface)、计算机电话集成CTI(Computer-Telephony-Integration)应用、交互式语音应答IVR(Interactive-Voice-Response)系统、互联网中的语音服务、信息发布系统、信息家电及掌上电脑的中文发音等方面都有着广阔的应用前景。 展开更多
关键词 语音合成系统 ZNUtts 文语转换 计算机
在线阅读 下载PDF
CELP编码器的实现及其在TTS系统中的应用 被引量:1
7
作者 岳东剑 柴佩琪 宣国荣 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2001年第5期571-575,共5页
在对最新的MPEG4中的音频编码中码激励线性预测CELP(codeexcitedlinearpredictive)编码器分析和研究的基础上 ,根据其窄带语音编码器的参数模式 ,建立和实现了一个基于CELP的语音编码实验系统 .将高效的CELP编码技术应用于文语转换TTS(t... 在对最新的MPEG4中的音频编码中码激励线性预测CELP(codeexcitedlinearpredictive)编码器分析和研究的基础上 ,根据其窄带语音编码器的参数模式 ,建立和实现了一个基于CELP的语音编码实验系统 .将高效的CELP编码技术应用于文语转换TTS(text to speech)系统中语音数据库的压缩 。 展开更多
关键词 分析合成法 码激励线性预测编码 文语转换系统 音频编码 语音数据库
在线阅读 下载PDF
MonTTS:完全非自回归的实时、高保真蒙古语语音合成模型 被引量:6
8
作者 刘瑞 康世胤 +2 位作者 高光来 李劲东 飞龙 《中文信息学报》 CSCD 北大核心 2022年第7期86-97,共12页
针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自... 针对现有基于Tacotron模型的蒙古语语音合成系统存在的两个问题:①合成效率较低;②合成语音保真度较低,该文基于FastSpeech2模型提出了完全非自回归的实时、高保真蒙古语语音合成模型MonTTS。为了提高MonTTS模型合成蒙古语语音的韵律自然度/保真度,根据蒙古语声学特点提出以下三点创新改进:①使用蒙古文音素序列来表征蒙古文发音信息;②提出音素级的声学调节器以学习长时韵律变化;③提出基于蒙古语语音识别和自回归语音合成两种时长对齐方法。同时,该文构建了一个当前最大规模的蒙古语语音合成数据库:MonSpeech。实验结果表明,MonTTS在韵律自然度方面的主观平均意见分数(Mean Opinion Score,MOS)达到4.53,显著优于当前最优的基于Tacotron的蒙古语语音合成基线系统和基线FastSpeech2模型;MonTTS合成实时率达3.63×10^(-3),满足实时高保真合成要求。最后,文中涉及的训练脚本和预训练模型全部开源(https://github.com/ttslr/MonTTS)。 展开更多
关键词 蒙古语语音合成 非自回归声学建模 非自回归神经声码器 实时 高保真
在线阅读 下载PDF
基于混沌理论和专利挖掘的技术不连续演化特征研究
9
作者 任海英 梁宇航 《情报杂志》 北大核心 2025年第4期181-189,共9页
[研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,... [研究目的]针对技术不连续演化定量研究的不足,结合混沌理论与专利挖掘方法,揭示技术不连续演化的混沌特征,在技术不连续演化阶段为技术预测提供混沌分析视角。[研究方法]以语音识别技术为例,首先检索专利数据并构建申请数据时间序列,通过关联维数和李亚普洛夫指数识别技术演化系统的混沌特征及其局部混沌期。之后,对不同时间窗口的数据构建LDA主题模型和共词网络,分析技术主题及相关节点在局部混沌期前、中、后的演化特征,并预测潜在新兴技术。[研究结果/结论]实验结果表明,语音识别技术演化过程中,技术不连续演化阶段与局部混沌期高度重合,为“混沌是技术不连续演化的内在特征”提供实证依据。此外,新兴技术在局部混沌期内产生,并表现为技术主题的稳定发展和相关节点中心性的提升。不仅反映新兴技术对语音识别技术系统的深远影响,而且揭示其未来演化方向。 展开更多
关键词 混沌理论 专利文本 专利挖掘 技术演化 主题模型 共词网络 语音识别技术 关联维数 李亚普洛夫指数
在线阅读 下载PDF
基于多模态财务大数据的智能分析预测模型 被引量:2
10
作者 王伯平 王邦平 《无线电通信技术》 北大核心 2025年第3期501-510,共10页
当前,研究者对财务领域的文本情感分析和语音情感识别越来越感兴趣,因其可以捕捉到企业利益相关者(如管理者和投资者)的意图和意见。结合文本情感信息,企业在预测财务绩效方面取得了显著的性能提升。然而,仅考虑文本情感,对管理者的情... 当前,研究者对财务领域的文本情感分析和语音情感识别越来越感兴趣,因其可以捕捉到企业利益相关者(如管理者和投资者)的意图和意见。结合文本情感信息,企业在预测财务绩效方面取得了显著的性能提升。然而,仅考虑文本情感,对管理者的情感状态以及对财务危机预测的关注度远远不够。因此提出了一种基于多模态财务大数据的智能分析预测模型(Multi Modal Financial Intelligent Model,MMFIM),融合了语音情感特征、文本情感特征以及传统财务特征多模态数据以解决上述问题。MMFIM通过卷积神经网络(Convolutional Neural Network,CNN)模型识别管理者的语音情感状态,利用FinBERT模型抽取文本情感特征,将获得的情感信息与传统的财务指标相融合实现对财务危机更准确的预测。在美国40家最大(按市值计算)企业的1278次财报电话会议数据上对MMFIM模型进行验证,实验结果表明,与现有预测模型相比,所提MMFIM模型具有更高的准确率。 展开更多
关键词 多模态 语音情感识别 文本情感分析 卷积神经网络 FinBERT 财务危机预测
在线阅读 下载PDF
基于编辑约束的端到端越南语文本正则化方法
11
作者 蒋铭 王琳钦 +1 位作者 赖华 高盛祥 《计算机应用》 北大核心 2025年第2期362-370,共9页
文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语... 文本正则化是语音合成(TTS)前端分析任务中不可或缺的步骤,而语义歧义性是文本正则化任务面临的主要问题,比如数字、日期、时间等非标准词的语义歧义性。针对该问题,提出一种基于编辑约束的端到端文本正则化方法,并且在充分考虑越南语的语言特点后,设计专门用于越南语的标注方法,以提高模型对上下文语义信息的建模能力。此外,针对神经网络模型容易产生不可恢复性错误的问题,提出一种编辑对齐算法以有效约束非标准词文本的范围,减小解码端的搜索空间,从而避免模型自身局限性所导致的非正则化文本预测错误。选取FastCorrect模型作为基准模型,将各类优化方法应用到基准模型中得到新模型。实验结果表明,所提模型在越南语不同优化方式的对比实验中的精准率相比使用无标注数据的基准模型提高了23.71个百分点,在同类中文实验中的精准率提高了26.24个百分点。可见,所提方法不仅在越南语上表现出色,而且在中文开源数据上也取得了显著的效果,验证了该方法在越南语之外的适用性。而且,与六类基线模型相比,使用所提方法的模型取得了最高的97.14%的精准率,在F1值上超过加权有限状态转换器(WFST)的两阶段方法2.29个百分点,证明了所提方法在文本正则化任务上的优越性。 展开更多
关键词 越南语 文本正则化 编辑对齐算法 语音合成 端到端
在线阅读 下载PDF
基于离散化自监督表征增强的老挝语非自回归语音合成方法
12
作者 冯子健 王琳钦 +2 位作者 高盛祥 余正涛 董凌 《中文信息学报》 北大核心 2025年第7期54-61,共8页
老挝语的语音合成对中老两国合作与交流意义重大,但老挝语语音发音复杂,存在声调、音节及音素等发音特性,现有语音合成方法在老挝语上效果不尽人意。基于注意力机制建模的自回归模型难以拟合复杂的老挝语语音,模型泛化能力差,容易出现... 老挝语的语音合成对中老两国合作与交流意义重大,但老挝语语音发音复杂,存在声调、音节及音素等发音特性,现有语音合成方法在老挝语上效果不尽人意。基于注意力机制建模的自回归模型难以拟合复杂的老挝语语音,模型泛化能力差,容易出现漏字、跳字等灾难性错误,合成音频缺乏自然性和流畅性。该文提出基于离散化自监督表征增强的老挝语非自回归语音合成方法,结合老挝语的语音特点,使用老挝语音素粒度的标注时长信息构建非自回归架构声学模型,通过自监督学习的预训练语音模型来提取语音内容和声调信息的离散化表征,融入到声学模型中增强模型的语音生成能力,增强合成音频的流畅性和自然性。实验证明,本文合成音频达到了4.03的MOS评分,基于离散化自监督表征增强的非自回归建模方法,能更好地在声调、音素时长、音高等细粒度层面刻画老挝语的语音特性。 展开更多
关键词 语音合成 老挝语 非自回归 预训练语音模型
在线阅读 下载PDF
Klatt共振峰合成器的实时化研究 被引量:2
13
作者 赵小杰 谢咏圭 《北京师范大学学报(自然科学版)》 CAS CSCD 1994年第2期212-216,共5页
介绍了Klatt共振峰合成器利用串-并联通道模拟清-浊音的优点和对汉语应用的前景,给出了合成器的结构原理。从实时研究的必要性出发,采用由高速数字信号处理器芯片TMS320C30与PC机构成的主从系统实时实现了Klat... 介绍了Klatt共振峰合成器利用串-并联通道模拟清-浊音的优点和对汉语应用的前景,给出了合成器的结构原理。从实时研究的必要性出发,采用由高速数字信号处理器芯片TMS320C30与PC机构成的主从系统实时实现了Klatt合成器。该合成器达到了实时、音质好的目标,并已应用于汉语文语转换系统的研制中。 展开更多
关键词 共振峰 实时合成 文语转换 合成器
在线阅读 下载PDF
基于语音和文本的双模态情感识别综述 被引量:1
14
作者 韩令敏 陈仙红 熊文梦 《计算机应用》 北大核心 2025年第4期1025-1034,共10页
情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表... 情感识别是一种让计算机识别和理解人类情感的技术,在众多领域都起着重要的作用,也是人工智能领域重要的发展方向。因此,梳理与归纳基于语音和文本的双模态情感识别的研究现状:首先,分类阐述情感表示空间;其次,按照情感数据库的情感表示空间对这些数据库进行分类,并总结常见的多模态情感数据库;再次,介绍基于语音和文本的双模态情感识别方法,包括特征提取、模态融合和决策分类,重点介绍模态融合方法并将这些方法分为特征级融合、决策级融合、模型级融合和多层次融合这4类;此外,比较和分析一系列语音和文本双模态情感识别方法的结果;最后,介绍情感识别的应用场景、面临的挑战与未来的发展方向。以上旨在对多模态情感识别,尤其是对基于语音和文本的双模态情感识别的相关工作进行分析与总结,并为情感识别提供有价值的参考。 展开更多
关键词 情感识别 双模态 模态融合 语音 文本
在线阅读 下载PDF
基于大语言模型和数据增强的中文毒性言论检测
15
作者 陈慧 朱奕竹 +2 位作者 刘明宇 陈镜宇 吴越 《情报杂志》 北大核心 2025年第4期99-107,116,共10页
[研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基... [研究目的]研究中文毒性言论检测模型,不仅有助于提高网络舆情监测的准确性,还有利于推动网络空间环境的现代化治理。[研究方法]在明确无毒、隐毒和显毒标注规则的基础上,构建了三类标签均匀分布的中文毒性言论数据集ImToxCN,搭建了基于大语言模型和数据增强方法的毒性言论检测组合模型。[研究结果/结论]实验结果表明,在ImToxCN数据集上,大语言模型RoBERTa与数据增强方法GeniusAug的组合较其他基线模型的毒性言论检测准确率更高,准确率达到84.34%。此外,该组合模型还能准确地检测隐毒和显毒言论,在其他3个公开数据集上也表现出了最优的毒性检测效果。 展开更多
关键词 毒性言论检测 毒性文本 大语言模型 数据增强 检测模型
在线阅读 下载PDF
Klatt合成器定点实时化及其在汉语文语转换中的应用
16
作者 许可 谢咏圭 《北京师范大学学报(自然科学版)》 CAS CSCD 1995年第3期317-324,共8页
通过对Klatt合成器通道浮点范围的研究和实验,确定了采用单双精度整数混合使用的定点算法来模拟Klatt合成器的浮点运算,以便在TMS320C25上实现实时合成,同时对原合成器在6个方面进行了改进。改进后的合成器一方... 通过对Klatt合成器通道浮点范围的研究和实验,确定了采用单双精度整数混合使用的定点算法来模拟Klatt合成器的浮点运算,以便在TMS320C25上实现实时合成,同时对原合成器在6个方面进行了改进。改进后的合成器一方面满足了实时合成的要求,实时合成的结果基本上达到了原算法的精度和动态范围;另一方面为汉语规则合成提供了更为有效的手段,文语转换系统的硬件部分由一台386微机和一块TMS320C25-D型高速信号处理板组成的主从式系统构成,系统中考虑了汉语中的声调规则、轻声规则等5种韵律规则,提高了系统的自然度和可懂度。 展开更多
关键词 语音合成 文语转换 Klatt合成器 汉语 合成器
在线阅读 下载PDF
用于提升聋哑人语音表现力的语音合成技术 被引量:3
17
作者 马皓天 洪峰 +3 位作者 毛海全 郑立通 牟宏宇 许伟杰 《声学技术》 CSCD 北大核心 2024年第6期843-853,共11页
目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文... 目前,聋哑人主要通过手语的方式与健听人进行沟通,但这对未接受专业手语学习的健听人来说是一种挑战。因此,将手语转换为文本,再将文本转换成带有聋哑人音色的、健听人能理解的语音非常具有研究意义。为研究聋哑人语音合成的可行性,文章首先分析了聋哑人的语音特征,并根据分析的结论,提出了能合成高自然度、高清晰度且带有聋哑人自身声音特色的模型算法以及相应的评估体系。文章根据不同残疾程度的聋哑人语音特征,提出了面向轻度残疾聋哑人的语音转换和合成方法以及面向重度残疾聋哑人的语音克隆方法。根据分析结果,轻度残疾聋哑人语音与健听人语音具有一定的共性,因此使用AdaIN-VC语音转换模型转换出带有聋哑人音色、高可懂度的语音,并将转换好的语音结合Tacotron2语音合成模型进行文本到语音的映射。考虑到重度残疾聋哑人语音的不稳定性,文章基于Zero-shot的SV2TTS语音克隆框架,使用了ECAPA-TDNN作为重度残疾聋哑人音色表征的说话人编码器,以获取准确的聋哑人表征。此外,文章还引入基于基频情感分类的风格迁移模块,对合成语音进行风格上的迁移。实验结果表明,在保证一定相似度的情况下,实验中两位轻残聋哑人的自然度主观意见评分别从原来的2.53和3.06提高至2.88和3.21,并且语音识别的错词率从100%分别降低至80.77%和76.91%。同样,文中提出的主观错词率也有明显的下降。而在语音克隆的实验中,模型合成的重残聋哑人语音与其自身音色的相似度主观相似度意见评分达到3,且聋哑人语音的自然度主观意见评分和情感表达能力均得到了提高。 展开更多
关键词 语音合成 语音转换 语音克隆 风格迁移
在线阅读 下载PDF
基于元学习自适应的小样本语音合成 被引量:1
18
作者 吴郅昊 迟子秋 +1 位作者 肖婷 王喆 《计算机应用》 CSCD 北大核心 2024年第5期1629-1635,共7页
在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人... 在小样本条件下的语音合成(TTS)要求在仅有少量样本的情况下合成与原说话人相似的语音,然而现有的小样本语音合成面临如下问题:如何快速适配新说话人,并且在保证语音质量的情况下提高生成语音与说话人的相似性。现有模型在适配新说话人的过程中,很少考虑到在不同适配阶段模型特征的变化规律,导致生成语音不能在保证语音质量的情况下快速提升语音相似性。为了解决上述问题,提出一种使用元学习指导模型适配新说话人的方法,模型中通过元特征模块对适配过程进行指导,在适配新说话人过程中提升语音相似度的同时保证生成语音质量;并通过步数编码器区分不同的适配阶段,以提升模型适配新说话人的速度。在Libri-TTS与VCTK数据集上通过主观与客观评价指标,在不同的适配步数下对现有快速适配新说话人的方法进行了比较,实验结果表明所提方法动态时间规整的梅尔倒谱失真(DTW-MCD)分别为7.4502与6.5243,在合成语音的相似度上优于其他元学习方法,并且能够更快适配新的说话人。 展开更多
关键词 小样本生成 语音合成 元学习 说话人适配 特征提取
在线阅读 下载PDF
基于层次化Conformer的语音合成
19
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
在线阅读 下载PDF
面向YSU-Ⅱ下肢康复机器人语音交互系统的指令文本校对模型
20
作者 仲美玉 吴培良 +2 位作者 窦燕 张晓丹 孔令富 《计算机集成制造系统》 EI CSCD 北大核心 2024年第10期3633-3642,共10页
针对YSU-Ⅱ下肢康复机器人语音交互系统存在指令误识的问题,构建了基于双向门控循环单元的Seq2Seq模型来检测并纠正指令文本中的错误字符,提出一种基于指令上下文和关键字的注意力机制(CK Attention),用于捕获指令文本的上下文语义和关... 针对YSU-Ⅱ下肢康复机器人语音交互系统存在指令误识的问题,构建了基于双向门控循环单元的Seq2Seq模型来检测并纠正指令文本中的错误字符,提出一种基于指令上下文和关键字的注意力机制(CK Attention),用于捕获指令文本的上下文语义和关键字信息,以提升模型的文本校对能力。面向康复机器人的训练任务自行建立了语料库,并采用5次5折交叉验证法在该语料库上开展了相关实验,以客观评估模型性能。实验结果表明,所建模型适用于指令文本校对任务,CK Attention机制能够有效提升模型的文本校对性能,其检错F_(1)值和纠错F_(1)值分别达到97.72%和93.89%,对常用指令文本的校对时长在0.156 s~0.391 s之间。 展开更多
关键词 文本校对 语音交互 Seq2Seq 双向门控循环单元 注意力机制
在线阅读 下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部