期刊文献+
共找到601篇文章
< 1 2 31 >
每页显示 20 50 100
A Review of Speech Coding 被引量:3
1
作者 Bao ChangchunAssociate professor of Information Engineering, Beijing Polytechnic University, Ph.D, CIE senior member (Department of Electronic Engineering, Beijing Polytechnic University, Beijing 100022) Fan ChangxinProfessor with Xidian University, C 《通信学报》 EI CSCD 北大核心 1998年第5期45-56,共12页
AReviewofSpechCodingBaoChangchun(DepartmentofElectronicEngineering,BeijingPolytechnicUniversity,Beijing10002... AReviewofSpechCodingBaoChangchun(DepartmentofElectronicEngineering,BeijingPolytechnicUniversity,Beijing100022)FanChangxin?.. 展开更多
关键词 语音编码 线性估计 综合分析 波形编码
在线阅读 下载PDF
A Novel Low-bit-rate Speech Coding Based on Decomposition of the Pitch-cycle Waveform of the Linear Predictive Residual
2
作者 Bao ChangchunAssociate professor of Information Engineering, Beijing Polytechnic University, Ph.D, CIE senior member (Department of Electronic Engineering, Beijing Polytechnic University, Beijing 100022) Fan ChangxinProfessor of Information Engineerin 《通信学报》 EI CSCD 北大核心 1998年第5期39-44,共6页
ANovelLowbitrateSpechCodingBasedonDecompositionofthePitchcycleWaveformoftheLinearPredictiveResidualBaoChangc... ANovelLowbitrateSpechCodingBasedonDecompositionofthePitchcycleWaveformoftheLinearPredictiveResidualBaoChangchun(Departm... 展开更多
关键词 线性估计 语音编码 失量量化 分解 节圈波形
在线阅读 下载PDF
人机语言通讯的新进展──Eurospeech’97及其卫星会
3
作者 张家騄 《应用声学》 CSCD 北大核心 1998年第2期44-48,共5页
本文以介绍第五届欧洲言语通讯和技术会议-Eurospeech’97及其卫星会议为主,概述言语科学与技术研究领域的国际学术会议情况以及本领域的最新发展.特别看重介绍语调研讨会、国际言语资料库和语音输入/输出系统评测协调委员会一COCOSD... 本文以介绍第五届欧洲言语通讯和技术会议-Eurospeech’97及其卫星会议为主,概述言语科学与技术研究领域的国际学术会议情况以及本领域的最新发展.特别看重介绍语调研讨会、国际言语资料库和语音输入/输出系统评测协调委员会一COCOSDA以及Eurospeech’97,指出当前围绕口语对话系统而开展的基础研究及实用化方向. 展开更多
关键词 语言识别 语言合成 口语对话 人机语言通讯
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
4
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
基于音素大语言模型及扩散模型的低资源越南语语音合成
5
作者 邹睿 杨鉴 张凯 《计算机科学》 北大核心 2025年第S1期23-28,共6页
随着深度学习技术的发展及语音合成研究的深入,汉语、英语等通用、高资源语言的合成语音已越来越接近于自然语音。越南语与汉语有密切联系,是一种声调语言,属于南亚语系越芒语族越语支。因受制于可获取的语料数据规模以及相关研究的深... 随着深度学习技术的发展及语音合成研究的深入,汉语、英语等通用、高资源语言的合成语音已越来越接近于自然语音。越南语与汉语有密切联系,是一种声调语言,属于南亚语系越芒语族越语支。因受制于可获取的语料数据规模以及相关研究的深入程度,越南语语音合成离自然语音还有明显差距。在低资源前提下,提出了两种提高越南语语音合成自然度的方法:1)基于预训练的音素大语言模型XPhoneBERT构建音素编码器,在数据集有限的情况下,显著提高越南语语音合成的韵律表现力;2)改进轻量化扩散语音合成模型LightGrad中的U-Net结构,增加嵌套跳跃路径,使模型在低资源条件下得到充分训练、捕获更有效的信息、提高噪声预测的准确性,从而提升语音合成质量。实验结果表明,采用上述提出的方法,越南语语音合成系统的客观、主观评测性能有明显的提升,MCD(梅尔倒谱失真)和MOS(平均意见得分)分别达到6.25和4.22,相比于基线系统的7.44和3.56有明显的下降和提升。 展开更多
关键词 语音合成 越南语 低资源 大语言模型 扩散模型
在线阅读 下载PDF
基于藏字构件的低资源多方言藏语语音合成方法研究
6
作者 王嘉文 高定国 +1 位作者 尼琼 巴果 《计算机工程与科学》 北大核心 2025年第8期1503-1510,共8页
藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用... 藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用端到端的语音合成模型,探讨了2种低资源的多方言藏语合成方案。实验结果表明,所提方法通过混合数据集训练能够实现单一模型对多方言的语音合成,提高语音的自然度和表现力,达到了平均MOS为4.56的语音质量。 展开更多
关键词 藏字构件 低资源 多方言 藏语 语音合成
在线阅读 下载PDF
基于音素级韵律建模的自回归零样本语音合成
7
作者 岳焕景 王嘉玮 杨敬钰 《湖南大学学报(自然科学版)》 北大核心 2025年第4期114-123,共10页
为了提升合成韵律的自然度和稳定性,提出了基于音素级韵律建模的自回归语音合成模型.该模型从词级别停顿和音素时长两方面改进韵律建模.为了提升词级别停顿的多样性和准确性,在文本前端提出了停顿预测模块.该模块基于原始文本来预测多... 为了提升合成韵律的自然度和稳定性,提出了基于音素级韵律建模的自回归语音合成模型.该模型从词级别停顿和音素时长两方面改进韵律建模.为了提升词级别停顿的多样性和准确性,在文本前端提出了停顿预测模块.该模块基于原始文本来预测多类停顿标签,从而为语音合成提供停顿时长建模的准确参考.为了提升音素时长的自然度,提出了时长预测模块.该模块预测每个音素的混合高斯分布,并通过随机采样来获得多样化的音素时长.为了提升自回归模型中的音素时长建模的稳定性,提出了注意力判别模块.该模块应用于自回归的每个时间步中,并通过注意力和判断机制来避免对齐紊乱现象.实验结果表明,所提三种模块可有效提升韵律建模的自然度和稳定性,从而提升语音合成的效果. 展开更多
关键词 语音合成 韵律建模 停顿预测
在线阅读 下载PDF
AI语音合成技术在有声出版中的法律风险及其治理策略:域外经验与中国方案
8
作者 张炎坤 《出版科学》 北大核心 2025年第3期27-38,共12页
作为推动有声出版行业数字化转型的新质生产力,AI语音合成技术在重构生产模式与产业生态的同时,衍生出人格权益保护、著作权合规及数据安全治理三重法律风险。比较法研究表明,美国通过分层立法模式构建了有效的风险防控体系,欧盟则依托... 作为推动有声出版行业数字化转型的新质生产力,AI语音合成技术在重构生产模式与产业生态的同时,衍生出人格权益保护、著作权合规及数据安全治理三重法律风险。比较法研究表明,美国通过分层立法模式构建了有效的风险防控体系,欧盟则依托统一立法强化了透明度管理与平台责任落实。借鉴域外治理经验并结合我国治理需求,建议构建“权利界定-规则适配-风险防控”的复合型法律框架,包括:明确声音权的独立法律地位并完善侵权认定标准,制定针对著作权使用与传播的合规规则,以及强化声音数据在采集、存储及跨平台共享中的安全管理。同时,应积极推动国际合作,建立跨国合作机制以应对全球治理挑战。通过国内治理框架与国际协作机制的规则衔接,为有声出版行业的健康、有序发展提供全面的制度保障。 展开更多
关键词 AI语音合成技术 有声出版 法律风险 域外治理经验
在线阅读 下载PDF
短时傅里叶逆变换的苗语语声合成方法
9
作者 蔡姗 王林 +2 位作者 郭胜 邹雪 吴磊 《应用声学》 北大核心 2025年第2期339-349,共11页
少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少... 少数民族语言的语声合成研究作为语声合成研究的一个重要方向,在人机交互领域备受关注。针对现有两阶段语声合成模型复杂度高、演算速度慢的问题,提出一种基于短时傅里叶逆变换的苗语语声合成方法。该方法根据语声特征提取的过程,减少过采样卷积的使用,以降低模型的复杂度,同时结合短时傅里叶逆变换进行语声波形相位和幅度谱的重建,实现从频域到时域的快速转换。此外,文中采用残差编码器对文本进行特征提取,以保留更多的输入文本信息。为了验证所提方法的有效性,以自建苗语语声语料库HmongSpeech(下载链接:http://sxjxsf.gzmu.edu.cn/info/1728/1214.htm)作为基准数据集,与典型的两阶段和单阶段模型进行对比分析。实验结果表明,所提方法在没有降低合成语声质量的同时提高了45倍的演算速度,且实时因子为0.01,满足实时应用要求;同时具有较强的鲁棒性,合成的词错误率仅为1.02%。 展开更多
关键词 苗语语声合成 短时傅里叶逆变换 演算速度 残差编码器
在线阅读 下载PDF
A New Method of Designing Waveform Codebook
10
作者 Zhang Xueying Zhang Gang (TaiYuan University of Technology, TaiYuan 030024) 《通信学报》 EI CSCD 北大核心 1998年第5期93-96,共4页
ANewMethodofDesigningWaveformCodebookZhangXueyingZhangGang(TaiYuanUniversityofTechnology,TaiYuan030024)Abstr... ANewMethodofDesigningWaveformCodebookZhangXueyingZhangGang(TaiYuanUniversityofTechnology,TaiYuan030024)AbstractThecodebooksea... 展开更多
关键词 语音编码 失量量化 编码激励 线性估计 波形编码本
在线阅读 下载PDF
面向域外说话人适应场景的多层级解耦个性化语音合成 被引量:1
11
作者 高盛祥 杨元樟 +3 位作者 王琳钦 莫尚斌 余正涛 董凌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期11-21,共11页
个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不... 个性化语音合成任务旨在合成特定说话人音色的语音。传统方法在合成域外说话人语音时,与真实语音存在明显音色差异,解耦说话人特征仍较为困难。本文提出面向训练时未出现的域外说话人适应场景下的多层级解耦个性化语音合成方法,通过不同粒度特征融合,有效提升零资源条件下域外说话人语音合成性能。本文方法采用快速傅里叶卷积提取说话人全局特征,以提高模型对域外说话人的泛化能力,实现句子粒度的说话人解耦;借助语音识别模型解耦音素粒度说话人特征,并通过注意力机制捕捉音素级音色特征,实现音素粒度的说话人解耦。实验结果表明:在公开数据集AISHELL3上,本文方法对域外说话人在客观评价指标说话人特征向量余弦相似度上达到0.697,相比基线模型提高6.25%,有效提升对域外说话人音色特征建模能力。 展开更多
关键词 语音合成 零资源 说话人表征 域外说话人 特征解耦
在线阅读 下载PDF
基于神经网络的低码率语音编码技术研究综述
12
作者 王晶 徐亮 +2 位作者 陈晓娇 谢湘 费泽松 《信号处理》 CSCD 北大核心 2024年第12期2261-2280,共20页
语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下... 语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验。随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法。在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案。本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足。最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望。基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路。 展开更多
关键词 语音编码 低码率 神经网络 混合式编码器 端到端编码器
在线阅读 下载PDF
基于Unity3D的数字虚拟人交互技术研究与应用 被引量:4
13
作者 李光亚 司占军 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第2期123-134,共12页
目前,数字虚拟人交互技术虽然能够实现与用户的基本交互,但仍然存在着语言理解偏误、缺乏情感表达能力等一系列问题,导致用户的交互体验感不足。在此背景下,本研究首先分析了数字虚拟人技术的发展现状和存在的问题,进而探究了基于Unity3... 目前,数字虚拟人交互技术虽然能够实现与用户的基本交互,但仍然存在着语言理解偏误、缺乏情感表达能力等一系列问题,导致用户的交互体验感不足。在此背景下,本研究首先分析了数字虚拟人技术的发展现状和存在的问题,进而探究了基于Unity3D的数字虚拟人交互技术,并提出了一种由文本直接生成带有情感特征语音的方法。基于此,将其与ChatGPT语言理解与文本生成、文本情感分析和改进后的VITS语音合成技术结合,并使用Kinect 2.0设备模拟全息交互效果,最终构建了一款能够进行准确理解并模拟情感回应的数字虚拟人交互应用。结果表明,该技术可有效提高数字虚拟人的理解与表达能力,为用户提供更好的交互体验,对于数字虚拟人技术的应用和发展具有参考价值。 展开更多
关键词 数字媒体 人工智能 媒体交互 语音合成
在线阅读 下载PDF
基于带阈值的BPE-dropout多任务学习的端到端语音识别 被引量:1
14
作者 马建 朵琳 +1 位作者 韦贵香 唐剑 《吉林大学学报(理学版)》 CAS 北大核心 2024年第3期674-682,共9页
针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类... 针对语音识别任务中出现的未登录词问题,提出一种带阈值的BPE-dropout多任务学习语音识别方法.该方法采用带随机性的字节对编码算法,在形成子词时引入带字数阈值的策略,将子词作为建模单元,编码器部分采用Conformer结构,与链接时序分类和注意力机制相结合.为进一步提升模型性能,引入动态参数对损失函数进行动态调节,并同时进行多任务训练和解码.实验结果表明,该方法采用子词作为建模单元可有效解决未登录词问题,在多任务学习框架下进一步提升了模型的识别性能.在公开数据集THCHS30和ST-CMDS上,该模型实现了超过95%的识别准确率. 展开更多
关键词 语音识别 多任务学习 字节对编码 动态调节参数
在线阅读 下载PDF
基于层次化Conformer的语音合成
15
作者 吴克伟 韩超 +2 位作者 孙永宣 彭梦昊 谢昭 《计算机科学》 CSCD 北大核心 2024年第2期161-171,共11页
语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于... 语音合成需要将输入语句的文本转换为包含音素、单词和语句的语音信号。现有语音合成方法将语句看作一个整体,难以准确地合成出不同长度的语音信号。通过分析语音信号中蕴含的层次化关系,分别设计基于Conformer的层次化文本编码器和基于Conformer的层次化语音编码器,并提出了一种基于层次化文本-语音Conformer的语音合成模型。首先,该模型根据输入文本信号的长度,构建层次化文本编码器,包括音素级、单词级、语句级文本编码器3个层次,不同层次的文本编码器描述不同长度的文本信息;并使用Conformer的注意力机制来学习该长度信号中不同时间特征之间的关系。利用层次化的文本编码器,能够找出语句中不同长度需要强调的信息,有效实现不同长度的文本特征提取,缓解合成的语音信号持续时间长度不确定的问题。其次,层次化语音编码器包括音素级、单词级、语句级语音编码器3个层次。每个层次的语音编码器将文本特征作为Conformer的查询向量,将语音特征作为Conformer的关键字向量和值向量,来提取文本特征和语音特征的匹配关系。利用层次化的语音编码器和文本语音匹配关系,可以缓解不同长度语音信号合成不准确的问题。所提模型的层次化文本-语音编码器可以灵活地嵌入现有的多种解码器中,通过文本和语音之间的互补,提供更为可靠的语音合成结果。在LJSpeech和LibriTTS两个数据集上进行实验验证,实验结果表明,所提方法的梅尔倒谱失真小于现有语音合成方法。 展开更多
关键词 语音合成 文本编码器 语音编码器 层次化模型 CONFORMER
在线阅读 下载PDF
结合轻量卷积的非自回归语音合成方法
16
作者 钟巧霞 曾碧 +1 位作者 林镇涛 林伟 《计算机工程与设计》 北大核心 2024年第4期1166-1172,共7页
对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律... 对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律缺乏问题。训练模型获取梅尔频谱,结合预先训练好的声码器转化为音频。实验结果表明,提出的LCTTS模型优于先前提出的SpeedySpeech模型,在Emotional Speech Database数据集上平均意见得分获得2.8%的提升,梅尔倒谱失真测度下降0.15。 展开更多
关键词 语音合成 轻量级卷积 韵律合成 梅尔频谱生成 非自回归方法 深度学习 自然语言处理
在线阅读 下载PDF
完全端到端的藏语语音合成方法 被引量:1
17
作者 拉巴顿珠 官政先 +2 位作者 德庆卓玛 张恒 珠杰 《中文信息学报》 CSCD 北大核心 2024年第9期82-92,116,共12页
在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性... 在迈向多语言多模态大模型的时代下,藏语语音合成技术的研究意义更加凸显,其目的是将文字信息转化为可听的声音信息,使得人机交互更加便捷和人性化。该文针对目前主流的两段式端到端藏语语音合成方法出现重复吐词、跳词、漏词等鲁棒性差且推理速度慢的问题,研究了基于深度生成模型的完全端到端VITS模型及其在藏语语音合成中的应用。首先,通过自然语音采集、自动标注和声学分析等构建一个7000条中等规模的藏语卫藏方言语音数据库;其次,由于现有开源模型不能很好地表征藏文音节结构特征,且现有相关描述无法全面地刻画藏语语音结构,为此提出了现代藏文存在7种字形结构的主张,并将其转写成对应的音素序列作为模型的输入;最后,经典的开源模型VITS应用在上述语音数据上进行了藏语语音合成试验。同时,为了提高合成系统的鲁棒性,在模型中引入了预训练的音素强制对齐信息。实验结果表明,相比两阶段的方法,通过端到端建模不仅有效减少了模型的推理时间,进一步提高合成语音的质量,而且基于7种藏文字形结构的音素序列作为建模单元,显著提升藏语音段特征的覆盖率,从而缓解低资源且黏着语常见的数据稀疏带来发音错误,以及音素分散导致模型训练困难问题。 展开更多
关键词 语音合成 藏语 音节结构 字音转换 端到端
在线阅读 下载PDF
基于跨语言迁移学习及联合训练的泰语语音合成
18
作者 张欣瑞 杨鉴 王展 《计算机科学》 CSCD 北大核心 2024年第S01期298-304,共7页
随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpe... 随着深度学习和神经网络的快速发展,基于深度神经网络的端到端语音合成系统因性能优异成为主流。然而近年来,泰语语音合成相关研究还不充分,主要原因是大规模泰语数据集稀缺且该语言拼写方式有其特殊性。为此,在低资源前提下基于FastSpeech2声学模型和StyleMelGAN声码器研究泰语语音合成。针对基线系统中存在的问题,提出了3个改进方法以进一步提高泰语合成语音的质量。(1)在泰语语言专家指导下,结合泰语语言学相关知识设计泰语G2P模型,旨在处理泰语文本中存在的特殊拼写方式;(2)根据所设计的泰语G2P模型转换的国际音标表示的音素,选择拥有相似音素输入单元且数据集丰富的语言进行跨语言迁移学习来解决泰语训练数据不足的问题;(3)采用FastSpeech2和StyleMelGAN声码器联合训练的方法解决声学特征失配的问题。为了验证所提方法的有效性,从注意力对齐图、客观评测MCD和主观评测MOS评分3方面进行测评。实验结果表明,使用所提泰语G2P模型可以获得更好的对齐效果进而得到更准确的音素持续时间,采用“所提泰语G2P模型+联合训练+迁移学习”方法的系统可以获得最好的语音合成质量,合成语音的MCD和MOS评分分别为7.43±0.82分和4.53分,明显优于基线系统的9.47±0.54分和1.14分。 展开更多
关键词 语音合成 低资源 泰语G2P模型 迁移学习 联合训练
在线阅读 下载PDF
基于迁移学习双阶段训练的情感语音克隆技术 被引量:1
19
作者 李囡 郭浩 相洁 《计算机工程与设计》 北大核心 2024年第5期1533-1540,共8页
为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段... 为解决传统基于SV2TTS架构的语音克隆系统合成语音缺乏丰富表达能力的问题,提出一种基于迁移学习双阶段训练说话人编码器的情感语音克隆方法。在说话人识别技术基础上,利用迁移学习,对说话人编码器进行音色克隆训练;在情感克隆训练阶段,采用情感语音数据集对其参数进行微调,提取具有情感信息的说话人特征。将此特征作为合成器的输入对梅尔谱的生成过程进行调节,通过声码器将此梅尔谱转换为具有目标说话人信息的情感语音。主客观分析结果表明,该方法所生成的克隆语音的情感相似度更高,音色相似度也有一定改善。 展开更多
关键词 迁移学习 情感语音克隆 情感语音合成 双阶段训练 说话人识别 说话人编码 参数微调
在线阅读 下载PDF
基于GSMDS超指向性波束形成的室内定向语音增强方法
20
作者 雷世伟 刘祖斌 《高技术通讯》 北大核心 2024年第12期1307-1317,共11页
针对室内定向语音增强时常出现的混响干扰、语音失真问题,本文提出一种基于Gram-Schmidt模态波束分解与综合(GSMDS)的超指向性波束形成室内定向语音增强方法。首先进行基于加权预测误差的去混响前处理,然后采用GSMDS超指向性波束形成进... 针对室内定向语音增强时常出现的混响干扰、语音失真问题,本文提出一种基于Gram-Schmidt模态波束分解与综合(GSMDS)的超指向性波束形成室内定向语音增强方法。首先进行基于加权预测误差的去混响前处理,然后采用GSMDS超指向性波束形成进行定向目标语音增强,再利用归一化最小均方误差自动增益控制算法对增强语音信号进行增益调节来控制响度的稳定,从而完成对目标语音的定向增强。以4阵元端射线阵进行数值仿真,结果表明,该方法相比于常规波束形成(CBF)方法增益提高了10.1 d B,最高平均增益达到了22.7 dB,同时端射方向的语音质量感知语音质量评价(PESQ)值相比于原接收混响语音信号PESQ值提高了0.2。在经过装修的房间内进行4阵元端射线阵实验,实验结果表明,该方法能获得较好的定向增强效果。 展开更多
关键词 室内定向语音增强 Gram-Schmidt模态波束分解与综合(GSMDS) 超指向性 自动增益控制 端射线阵
在线阅读 下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部