期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度声纹特征转换网络的说话人识别攻击方法 被引量:2
1
作者 陶子钰 苏兆品 +2 位作者 廉晨思 王年松 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第5期782-794,共13页
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别... 目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。 展开更多
关键词 说话人识别 攻击语音 声纹特征转换 卷积神经网络
在线阅读 下载PDF
基于多级信息嵌入的中文语声转换模型
2
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部