期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
VALL-E R:利用单调对齐策略的鲁棒且高效零样本语音合成 被引量:1
1
作者 韩冰 钱彦旻 《信号处理》 北大核心 2025年第9期1537-1546,共10页
借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错... 借助离散神经音频编解码器的能力,大型语言模型(Large language model,LLM)已被广泛认为是一种零样本语音合成(Text-to-Speech,TTS)的潜在方法。然而,基于采样的解码策略虽然能够为语音生成带来丰富的多样性,但同时也引入了诸如拼写错误、遗漏和重复等鲁棒性问题。为了解决上述问题,我们提出了VALL-E R,一个鲁棒且高效的零样本TTS系统,并以VALL-E为基础进行构建。具体而言,我们引入了一种音素单调对齐策略,通过约束声学标记与其对应的音素严格匹配,增强了音素与声学序列之间的映射关系,从而确保更精确的对齐。此外,我们采用编解码器合并的方法,在浅层量化层对离散码进行降采样,以减少解码计算量,同时保持语音输出的高质量。受益于这些策略,VALL-E R在音素可控性方面取得了显著提升,并通过逼近真实语音的词错误率展现了卓越的鲁棒性。此外,该系统仅需较少的自回归推理步骤,推理时间降低超过60%,极大提升了推理效率。 展开更多
关键词 零样本语音合成 单调对齐 合并编码 鲁棒性 高效性
在线阅读 下载PDF
基于生成式算法的序列到序列目标说话人检测和日志系统 被引量:1
2
作者 陈正阳 钱彦旻 《信号处理》 北大核心 2025年第9期1570-1580,共11页
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可... 通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。 展开更多
关键词 目标说话人检测 说话人日志 生成式算法 扩散算法 流匹配算法
在线阅读 下载PDF
多输入场景通用的一体化语音增强技术 被引量:1
3
作者 张王优 钱彦旻 《信号处理》 北大核心 2025年第9期1494-1512,共19页
智能语音交互系统在实际应用中往往面临着复杂环境中的多样化声学场景特性、麦克风配置等挑战,而基于深度学习的传统语音增强技术往往仅针对单一或有限场景进行设计,难以直接应用于差异较大的应用场景和硬件设备。随着信号处理理论和深... 智能语音交互系统在实际应用中往往面临着复杂环境中的多样化声学场景特性、麦克风配置等挑战,而基于深度学习的传统语音增强技术往往仅针对单一或有限场景进行设计,难以直接应用于差异较大的应用场景和硬件设备。随着信号处理理论和深度学习技术的发展成熟,研究一体化语音增强技术成为解决上述问题的一个重要途径,其旨在构建单个语音增强模型来统一处理来自不同输入场景、具有不同输入形式的语音信号,从而能够克服传统方法适用范围受限的不足。尽管在实际应用中具有巨大潜力和应用价值,这一研究方向仍然处于初步探索阶段,因为大部分语音增强研究仅聚焦于特定场景。为此,本文围绕一体化语音增强方向开展了系统性研究,提出了首个多输入场景通用的一体化语音增强模型──非受限语音增强与分离(Unconstrained Speech Enhancement and Separation,USES),它能够高效处理不同采样率、不同麦克风数量和阵列结构、不同时长以及不同声学场景的语音信号。区别于前人工作,这是首个能够广泛支持不同语音信号输入形式的语音增强研究,在多样化数据准备、模型架构设计、训练框架方面均进行了创新性探索。本文在VoiceBank+DEMAND、DNS-2020、CHiME-4等覆盖多样化场景的经典数据集以及最新的URGENT 2025比赛数据集上进行了广泛实验验证,实验表明本文所提出的模型不仅能够在广泛使用的仿真数据上取得优越性能,也能显著提升在多种真实数据上的增强性能,其中在多通道WSJ0-2mix语音分离数据集和DNS-2020语音降噪数据集上均取得了超过现有方法的最优性能,并首次展现出针对不同采样率、麦克风配置等输入形式的一体化建模能力。进一步分析表明,所提出的一体化方法在实际部署方面也体现出优势,能取得与已有的主流高性能TF-GridNet基线模型接近的性能,同时分别减少52%和51%处理16 kHz和48 kHz语音信号时所需要的计算量。 展开更多
关键词 语音增强 语音分离 去混响 多麦克风 一体化建模
在线阅读 下载PDF
高效的决策树隐私分类服务协议 被引量:5
4
作者 马立川 彭佳怡 +1 位作者 裴庆祺 朱浩瑾 《通信学报》 EI CSCD 北大核心 2021年第8期80-89,共10页
为了有效解决物联网大数据场景中的决策树隐私分类服务问题,将决策树分类模型与安全多方计算技术相结合,提出了一种高效的决策树隐私分类服务协议。该协议包括:决策树分类模型混淆、基于布尔共享的隐私比较和基于不经意传输的隐私分类... 为了有效解决物联网大数据场景中的决策树隐私分类服务问题,将决策树分类模型与安全多方计算技术相结合,提出了一种高效的决策树隐私分类服务协议。该协议包括:决策树分类模型混淆、基于布尔共享的隐私比较和基于不经意传输的隐私分类结果获取3个阶段。该协议能够同时保护服务提供商决策树分类模型参数及结构特征和用户需要进行分类的特征数据不被泄露。安全性分析表明,所提决策树隐私分类服务协议能够抵抗“诚实好奇”的攻击者。将所提协议用于通过公开数据集得到的决策树分类模型,以分类准确率和完成隐私分类服务的时间效率为指标与现有方法进行对比,实验结果验证了所提出隐私分类服务协议的准确性和高效性。 展开更多
关键词 决策树 隐私保护 不经意传输 安全多方计算
在线阅读 下载PDF
一种基于信息增益的产品评价系统模型
5
作者 潘若愚 韩晓峰 《合肥工业大学学报(自然科学版)》 CAS CSCD 2003年第z1期683-687,共5页
如何改善传统电子商务系统在扩展性、智能性、交互性方面的不足 ,已经成为当今电子商务领域内的热点研究课题。该文综合运用了分布对象计算、数据挖掘及数理统计等理论 ,提出了一种产品评价系统模型。该系统能够在对同类商品进行比较。
关键词 WEB服务 产品评价 数据挖掘 电子商务
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部