期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成 被引量:1
1
作者 韩冰 钱彦旻 《信号处理》 北大核心 2025年第9期1537-1546,共10页
借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错... 借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以VALL-E为基础进行构建。具体而言,我们引入了一种音素单调对齐策略,通过约束声学标记与其对应的音素严格匹配,增强了音素与声学序列之间的映射关系,从而确保更精确的对齐。此外,我们采用编解码器合并的方法,在浅层量化层对离散码进行降采样,以减少解码计算量,同时保持语音输出的高质量。受益于这些策略,VALL-E R在音素可控性方面取得了显著提升,并通过逼近真实语音的词错误率展现了卓越的鲁棒性。此外,该系统仅需较少的自回归推理步骤,推理时间降低超过60%,极大提升了推理效率。 展开更多
关键词 零样本语音合成 单调对齐 合并编码 鲁棒性 高效性
在线阅读 下载PDF
基于梅尔谱与压缩激励加权量化的语音神经编解码方法
2
作者 周俊佐 易江燕 +2 位作者 陶建华 任勇 汪涛 《计算机研究与发展》 北大核心 2025年第11期2725-2736,共12页
目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法... 目前,以SoundStream等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能.然而,这些方法需要大量的卷积计算,从而导致较长的编码时间.为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法.该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延.具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程.此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能.在LibriTTS和VCTK数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量.以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍.对于感知质量,以0.75 Kbps为例,短时客观可懂度(shorttime objective intelligibility,STOI)、虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%.此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度. 展开更多
关键词 语音编解码 梅尔谱图 压缩激励网络 残差矢量量化 生成对抗网络
在线阅读 下载PDF
基于残差膨胀卷积与门控编解码网络的语音增强
3
作者 李珂 王雅静 +1 位作者 昝志辉 齐瑞洁 《电子测量与仪器学报》 北大核心 2025年第4期74-83,共10页
语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了... 语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了一种因果卷积层结构,以时序特征建模,捕获语音序列中不同层的特征,并保持语音信号的因果性;中间层设计了残差膨胀卷积网络(RDCN),融合膨胀卷积、残差连接和级联的扩张块使网络拥有更高的感受野,以跨层的方式传递信息并提取语音长时依赖性特征,在此基础上将RDCN与长短时记忆网络相结合,捕获更广泛的上下文信息;解码器引入门控机制,动态调整信息流的门控程度,获得更丰富的全局特征并重建增强语音。分别在TIMIT、UrbanSound8k、VoiceBank及NOISE92数据集上进行消融及性能对照,实验结果表明,RD-EGN相较于卷积循环网络(CRN)、自编码器卷积神经网络(AECNN)、膨胀-密集自动编码器(DDAEC)等具有较少的训练参数和较高的SSNR得分、主观评价指标(CSIG,CBAK和COVL)得分,并且在客观评价指标方面,语音质量客观评价指标(PESQ)提高了2.5%~7.1%,短时客观可懂度(STOI)提高了1%~5.3%,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 深度学习 编解码网络 膨胀卷积 门控机制
在线阅读 下载PDF
基于神经网络的低码率语音编码技术研究综述 被引量:2
4
作者 王晶 徐亮 +2 位作者 陈晓娇 谢湘 费泽松 《信号处理》 CSCD 北大核心 2024年第12期2261-2280,共20页
语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下... 语音编码算法在无线或网络语音的传输过程中具有重要作用,在降低语音编码速率的同时确保编码语音质量不变甚至提升一直是设计者们追求的核心目标。然而,传统语音编解码器在较低速率下经过压缩后的语音音质、可懂度和有效带宽均有明显下降,极大程度上影响了用户的听觉体验。随着人工智能技术的不断进步,深度神经网络模型在语音处理任务中的应用也日益广泛,其性能普遍远超传统方法。在语音编解码领域,近年来很多研究也开始关注如何将神经网络模块融入编解码器,以实现更高效的语音传输,旨在低码率下实现传统方案无法达到的性能,为无线或网络语音传输提供新的解决方案。本文对基于神经网络的低码率语音编解码算法进行全面的整理分析和分类汇总,详细介绍了使用传统方法与神经网络结合的混合式编解码器以及使用编码器-解码器联合训练的端到端编解码器的发展历程、原理、特点及评价指标,并总结了这些方法的优势与不足。最后,结合当前各类编解码器的发展状况,对低速率语音编解码器的未来进行展望。基于神经网络的低码率语音编码技术有望解决实际通话中传输带宽受限时通话质量不佳的问题,为实时语音通信的进一步发展提供有力支持,并为未来压缩编码的研究方向提供新的思路。 展开更多
关键词 语音编码 低码率 神经网络 混合式编码器 端到端编码器
在线阅读 下载PDF
结合残差与双注意力机制的U-Net语音增强方法 被引量:3
5
作者 许春冬 王磊 +2 位作者 胡菁兰 闵源 徐锦武 《计算机工程与设计》 北大核心 2024年第11期3383-3389,共7页
针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注... 针对U-Net语音增强网络深层特征提取能力不足,以及编解码过程中特征信息丢失问题,提出一种结合残差与双注意力机制的DA-Res-Unet语音增强方法。将U-Net编解码部分设计为残差结构来深化网络,增强深层特征提取能力;在网络结构中构造双注意力机制,减少时频特征提取中的细节信息丢失;在网络中融入空洞空间金字塔池化结构,在低参数量情况下融合不同尺度上下文背景信息,提高模型特征捕获能力。实验结果表明,DA-Res-Unet网络模型在可见噪声测试集上的PESQ、STOI和LSD这3种评测指标取得了不同程度的提升,在未知噪声测试集上具备一定优势。 展开更多
关键词 语音增强 深度学习 残差网络 特征提取 编解码结构 注意力机制 空洞空间池化金字塔
在线阅读 下载PDF
SMV语音编码算法及仿真 被引量:7
6
作者 宁更新 方敏群 韦岗 《计算机工程与应用》 CSCD 北大核心 2003年第29期84-86,共3页
介绍了第三代通信系统中的可选模式语音声码器(SMV)语音编码方式,简要描述了SMV的编、解码基本原理。并进行了该算法的定点C代码仿真,给出了算法的性能、计算复杂度及存储空间等仿真结果。
关键词 可选模式 多码皋激励预测 线性预测 语音编码
在线阅读 下载PDF
基于DSP的ITU-TG·729语音编解码实现 被引量:4
7
作者 洪景新 陈国伙 刘光增 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第3期335-338,共4页
详细分析了ITU TG·729CS ACELP语音编解码算法的原理,针对算法特征及DSP体系结构特点,提出了一些有效的优化措施,在TITMS320VC5410DSP平台上实现了该算法的实时编解码.该系统的实现可应用于数字语音存储和网络多媒体通信系统等领域.
关键词 DSP ITU-TG·729 语音编码 语音解码 数字语音存储 CS-ACELP
在线阅读 下载PDF
基于LTE系统的VoIP自适应调度算法 被引量:4
8
作者 宁祥峰 张春业 +2 位作者 李婧卿 万伟 李仁波 《计算机工程》 CAS CSCD 北大核心 2011年第4期116-118,121,共4页
提出一种基于LTE系统的VoIP服务的自适应上行调度算法,该算法采用自适应多速率语音编码器,利用传统MAC通用报头中的2个比特将语音编码的模式告知eNB,eNB根据UE的语音状态转换和语音编码速率动态分配上行链路资源。从系统容量、吞吐量和... 提出一种基于LTE系统的VoIP服务的自适应上行调度算法,该算法采用自适应多速率语音编码器,利用传统MAC通用报头中的2个比特将语音编码的模式告知eNB,eNB根据UE的语音状态转换和语音编码速率动态分配上行链路资源。从系统容量、吞吐量和时延方面对比分析该算法和传统算法的性能。理论分析和仿真结果表明,在时延满足要求的前提下,该算法比传统算法具有更高的系统容量和吞吐量。 展开更多
关键词 LTE系统 上行调度算法 IP语音业务 自适应多速率语音编码器 MAC报头
在线阅读 下载PDF
G.729语音编码器定点DSP的实时实现 被引量:7
9
作者 胡仕兵 向敬成 翟义然 《电子科技大学学报》 EI CAS CSCD 北大核心 2003年第4期362-366,共5页
介绍了G.729语音编码器算法和定点数字信号处理芯片TMS320VC549,重点讨论了低速率语音编码器在TMS320VC549上实时实现过程中软、硬件设计中的关键技术。采用了定点数字信号处理器芯片实时实现G.729语音编解码算法,结果表明,得到了预期的... 介绍了G.729语音编码器算法和定点数字信号处理芯片TMS320VC549,重点讨论了低速率语音编码器在TMS320VC549上实时实现过程中软、硬件设计中的关键技术。采用了定点数字信号处理器芯片实时实现G.729语音编解码算法,结果表明,得到了预期的8 Kb/s的低码速率、较低的算法时延和极高的语音音质。 展开更多
关键词 G.729语音编码器 数字信号处理器 模块化功能设计 实时实现
在线阅读 下载PDF
基于码书关联网络的基音调制信息隐藏检测 被引量:6
10
作者 李松斌 贾已真 +1 位作者 付江云 戴琼兴 《计算机学报》 EI CSCD 北大核心 2014年第10期2107-2117,共11页
基音调制信息隐藏在进行基音预测时嵌入机密信息,可在低速率语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中相邻语音帧自适应码书的关联特性发生改变,文中以此为设计隐写分... 基音调制信息隐藏在进行基音预测时嵌入机密信息,可在低速率语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中相邻语音帧自适应码书的关联特性发生改变,文中以此为设计隐写分析算法的关键线索.为了量化该种关联特性,文中设计了码书关联网络模型并基于该模型得到了对隐写敏感的特征向量.最后,基于所得特征向量并结合SVM(Support Vector Machine,支持向量机)构建了隐写检测器.针对典型的低速率语音编码标准G.729以及G.723.1的实验表明,文中方法性能优于现有检测方法,实现了对基音调制信息隐藏的快速有效检测. 展开更多
关键词 隐写分析 低速率语音编码器 基音调制信息隐藏 码书关联网络 基音预测
在线阅读 下载PDF
基于DSP的G.729A编解码的实时实现 被引量:5
11
作者 周长林 肖赣峰 王玉东 《仪器仪表学报》 EI CAS CSCD 北大核心 2007年第10期1911-1915,共5页
针对实时语音信号的处理和应用,提出了基于可编程DSP芯片和算法的实现方案。分析G.729A编码和解码算法的实现原理,构建TMS320VC5416处理器和TLV320AIC23语音芯片相结合的语音处理硬件平台。通过设计系统应用软件,配置McBSP连接和数据传... 针对实时语音信号的处理和应用,提出了基于可编程DSP芯片和算法的实现方案。分析G.729A编码和解码算法的实现原理,构建TMS320VC5416处理器和TLV320AIC23语音芯片相结合的语音处理硬件平台。通过设计系统应用软件,配置McBSP连接和数据传输,控制音频信号转换处理,优化编写编解码算法程序。最后调试实现了音频信号采集、播放和语音数据编解码功能。实验结果表明该方法是有效和可行的。 展开更多
关键词 实时语音信号处理 G.729A语音编解码器 DSP处理器 AIC23 MCBSP
在线阅读 下载PDF
基于统计模型及SVM的低速率语音编码QIM隐写检测 被引量:4
12
作者 李松斌 黄永峰 卢记仓 《计算机学报》 EI CSCD 北大核心 2013年第6期1168-1176,共9页
QIM(Quantization Index Modulation,量化索引调制)隐写在标量或矢量量化时嵌入机密信息,可在语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变,提出... QIM(Quantization Index Modulation,量化索引调制)隐写在标量或矢量量化时嵌入机密信息,可在语音压缩编码过程中进行高隐蔽性的信息隐藏,文中试图对该种隐写进行检测.文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变,提出了音素向量空间模型和音素状态转移模型对音素分布特性进行了量化表示.基于所得量化特征并结合SVM(Support Vector Machine,支持向量机)构建了隐写检测器.针对典型的低速率语音编码标准G.729以及G.723.1的实验表明,文中方法性能远优于现有检测方法,实现了对QIM隐写的快速准确检测. 展开更多
关键词 QIM隐写 隐写检测 低速率语音编码器 音素分布特性
在线阅读 下载PDF
ITU─T G.723.1双速率语音编解码器定点DSP实现 被引量:7
13
作者 王仁华 徐超 戴礼荣 《信号处理》 CSCD 1997年第3期199-206,共8页
ITU─TG.723.1是GSTN上多媒体通信标准H.324系列中语音编解码器.本文在简单介绍G.723.1编解码算法和定点数字信号处理芯片ADSP-2181后,着重介绍了这种低速率的语音编解码器在ADSP-2181上实现的硬、软件设计和在定点DSP芯片上实... ITU─TG.723.1是GSTN上多媒体通信标准H.324系列中语音编解码器.本文在简单介绍G.723.1编解码算法和定点数字信号处理芯片ADSP-2181后,着重介绍了这种低速率的语音编解码器在ADSP-2181上实现的硬、软件设计和在定点DSP芯片上实现该复杂算法的一些关键技术. 展开更多
关键词 语音编解码器 数字信号处理 DSP
在线阅读 下载PDF
低码率语音编码中过渡帧对合成语音的影响 被引量:2
14
作者 肖东 莫福源 +1 位作者 陈庚 马力 《应用声学》 CSCD 北大核心 2016年第1期77-83,共7页
过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、... 过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、浊音、过渡四大类后分别处理,在以往低码率语音编码(<1 kbps)工作基础上,比较了八种过渡帧划分方法对合成语音PESQ MOS的影响。经分析后发现:不同的过渡帧对PESQ MOS的贡献也不同。由清、静音向浊音变化的过渡帧的贡献最大;介于浊辅音与元音之间的过渡帧的贡献也不应被忽略。 展开更多
关键词 低码率语音编码 混合激励线性预测编码 过渡段
在线阅读 下载PDF
一种应用于音库压缩的低速率编解码方案 被引量:1
15
作者 周斌 双志伟 +1 位作者 王仁华 戴礼荣 《信号处理》 CSCD 2004年第6期650-654,共5页
传统的语音编解码器大多针对通信场合设计,无法很好的满足应用于语音合成中的音库压缩的要求。本文根据音库压缩的特点,提出了一种低码速率的编解码方案,其在3Kbps左右的码率下获得类似G.723.1在5.3Kbps下的效果,并具有解码端算法简单... 传统的语音编解码器大多针对通信场合设计,无法很好的满足应用于语音合成中的音库压缩的要求。本文根据音库压缩的特点,提出了一种低码速率的编解码方案,其在3Kbps左右的码率下获得类似G.723.1在5.3Kbps下的效果,并具有解码端算法简单的优点。作为技术原型,该方案可以广泛应用于各种场合下的语音合成系统,特别对资源受限情况下语音合成,具有重要的意义。 展开更多
关键词 音库 语音编解码器 压缩 语音合成系统 码率 G.723.1 速率 算法 低速 方案
在线阅读 下载PDF
基于G.729b的VOIP流媒体信息隐藏方法 被引量:3
16
作者 吴秋玲 吴蒙 《计算机工程与设计》 北大核心 2016年第3期618-622,共5页
针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特... 针对低速率语音压缩编码隐藏容量低和隐蔽性不强等不足,根据VOIP流媒体语音背景噪声平稳且存在约60%语音静默期的特点,提出一种在G.729b语音编解码过程中隐藏机密信息的方法。通过改进G.729b的编解码原理,在静音检测模块获取背景噪声特征参数后,把静态机密语音信息装载到VOIP语音的静音帧内伪装背景噪声进行信息隐秘传输,在接收端获取机密语音并重构载体语音。实验结果表明,在保证语音质量的前提下,该方法具有960bps以上的隐藏容量和很好的隐蔽性能。 展开更多
关键词 语音编码 信息隐藏 流媒体 静音检测 隐蔽性
在线阅读 下载PDF
基于DSP的语音编解码器的设计及算法优化 被引量:1
17
作者 侯榆青 王宾 +1 位作者 卢艳玲 唐升 《计算机应用与软件》 CSCD 北大核心 2007年第12期49-50,71,共3页
设计了基于TI公司定点DSP芯片TMS320VC5402的语音编解码硬件平台,在此平台上,实时实现了较复杂的G.729语音编解码算法,并对实现过程中C语言级、汇编级和算法级的有效优化方法进行了研究。
关键词 CS—ACELP算法 DSP 优化 语音编解码器
在线阅读 下载PDF
基于DSP的G.729语音编解码器设计 被引量:1
18
作者 聂伟 何心莹 白天石 《现代电子技术》 2011年第9期93-96,共4页
设计了基于DSP的G.729语音编解码器,并针对G.729算法标准源码代码效率低、执行时间长的不足,从算法精简、代码优化等方面进行了优化。优化后的算法在保证了高质量语音输出的同时,提高了编码效率,实现了对语音信号的实时处理。最后对系... 设计了基于DSP的G.729语音编解码器,并针对G.729算法标准源码代码效率低、执行时间长的不足,从算法精简、代码优化等方面进行了优化。优化后的算法在保证了高质量语音输出的同时,提高了编码效率,实现了对语音信号的实时处理。最后对系统性能进行了测试,结果满足设计要求。 展开更多
关键词 G.729 DSP 语音编码 算法优化
在线阅读 下载PDF
基于ARM的码激励线性预测编解码系统的实现 被引量:1
19
作者 李春泉 徐少平 《计算机工程与设计》 CSCD 北大核心 2012年第9期3411-3416,共6页
为了克服单DSP码激励线性预测语音系统通用性差、双处理器系统(ARM和DSP)码激励线性预测语音设计成本高和硬件接口设计复杂及稳定性低等问题,提出使用单片S3c2410处理器芯片实现码激励线性预测语音系统;包括算法分析,系统硬件平台设计... 为了克服单DSP码激励线性预测语音系统通用性差、双处理器系统(ARM和DSP)码激励线性预测语音设计成本高和硬件接口设计复杂及稳定性低等问题,提出使用单片S3c2410处理器芯片实现码激励线性预测语音系统;包括算法分析,系统硬件平台设计和系统软件设计。实验结果表明,在不降低系统语音性能的同时,采用单片S3c2410处理器,能够提高系统通用性和稳定性,降低设计的复杂性和成本。 展开更多
关键词 码激励线性预测 语音信号 编解码 ARM(先进的精简指令计算机微处理器) S3C2410(三星2410ARM处理器)
在线阅读 下载PDF
Frame-bitrate-change based steganography for voice-over-IP 被引量:4
20
作者 刘进 田晖 周可 《Journal of Central South University》 SCIE EI CAS 2014年第12期4544-4552,共9页
Steganography based on bits-modification of speech frames is a kind of commonly used method, which targets at RTP payloads and offers covert communications over voice-over-IP(Vo IP). However, direct modification on fr... Steganography based on bits-modification of speech frames is a kind of commonly used method, which targets at RTP payloads and offers covert communications over voice-over-IP(Vo IP). However, direct modification on frames is often independent of the inherent speech features, which may lead to great degradation of speech quality. A novel frame-bitrate-change based steganography is proposed in this work, which discovers a novel covert channel for Vo IP and introduces less distortion. This method exploits the feature of multi-rate speech codecs that the practical bitrate of speech frame is identified only by speech decoder at receiving end. Based on this characteristic, two steganography strategies called bitrate downgrading(BD) and bitrate switching(BS)are provided. The first strategy substitutes high bit-rate speech frames with lower ones to embed secret message, which introduces very low distortion in practice, and much less than other bits-modification based methods with the same embedding capacity. The second one encodes secret message bits into different types of speech frames, which is an alternative choice for supplement. The two strategies are implemented and tested on our covert communication system Steg Vo IP. The experiment results show that our proposed method is effective and fulfills the real-time requirement of Vo IP communication. 展开更多
关键词 covert communication steganography multi-rate speech codec voice-over-IP(VOIP)
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部