-
题名基于深度声纹特征转换网络的说话人识别攻击方法
被引量:2
- 1
-
-
作者
陶子钰
苏兆品
廉晨思
王年松
张国富
-
机构
合肥工业大学计算机与信息学院
安徽省公安厅物证鉴定管理处
合肥工业大学智能互联系统安徽省实验室
音视频智能防识联合实验室
-
出处
《应用科学学报》
CAS
CSCD
北大核心
2024年第5期782-794,共13页
-
基金
安徽省重点研究与开发计划(No.202104d07020001)
安徽省自然科学基金(No.2208085MF166)资助。
-
文摘
目前主流说话人识别(speaker identification,SID)系统的攻击方法主要基于快速梯度下降或映射式梯度下降算法,这些方法存在攻击效果不稳定、生成的攻击语音听觉质量不高等问题。为此提出一种基于深度声纹特征转换网络的自动说话人识别攻击方法,生成具有目标说话人音色的攻击语音。首先分析了SID系统的攻击流程,确定了攻击语音生成的过程;然后基于二维卷积神经网络设计攻击音频生成器,以有效融合源说话人的语音内容和目标说话人的声纹特征,并基于对抗学习设计了攻击音频的判别器,以提高语音攻击音频的质量。最后分别在基于广义端到端损失和基于AMSoftmax损失的两个自动说话人识别系统上进行对比实验。实验结果表明,所提方法不但提高了攻击效果的稳定性,提升了攻击音频的人耳感受质量,而且适用于短时长数据,满足了实际攻击场景的需求。
-
关键词
说话人识别
攻击语音
声纹特征转换
卷积神经网络
-
Keywords
speaker identification
attack speeches
voiceprint feature conversion
convolutional neural network
-
分类号
TP389.1
[自动化与计算机技术—计算机系统结构]
-
-
题名基于多级信息嵌入的中文语声转换模型
- 2
-
-
作者
张国富
张朋
苏兆品
岳峰
-
机构
合肥工业大学计算机与信息学院
-
出处
《应用声学》
2025年第5期1263-1278,共16页
-
基金
教育部人文社会科学研究规划基金项目(24YJA870011)
安徽省重点研究与开发计划项目(202104d07020001)
安徽省自然科学基金项目(2208085MF166)。
-
文摘
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。
-
关键词
中文语声转换
多级信息嵌入
音色
韵律
生成器HiFi-GAN++
-
Keywords
Chinese voice conversion
Multi-level information embedding
Timbre
Rhythm
A generator HiFi-GAN++
-
分类号
TN912.3
[电子电信]
-