-
题名基于特征融合的音频伪造检测方法
- 1
-
-
作者
盖馨怡
涂国庆
刘树波
蔡朝晖
-
机构
空天信息安全与可信计算教育部重点实验室武汉大学国家网络安全学院
武汉大学计算机学院
-
出处
《计算机应用研究》
北大核心
2025年第7期2109-2115,共7页
-
基金
国家重点研发计划资助项目(2020YFB1805400)。
-
文摘
随着人工智能的发展,合成语音与真实语音的区分变得更加困难,给音频深度伪造检测带来了挑战。现有的检测方法通常存在准确率低、泛化性差、抗干扰性弱等问题,为此,提出一种基于特征融合的音频伪造检测方法MFF-STViT。该方法设计了一个新的特征融合模块,将三种音频特征和作为辅助特征的声码器伪迹进行融合,综合不同特征的信息,提高特征表达能力;然后基于改进的Transformer模型——STViT进一步处理融合特征,减少特征冗余,进而提高音频伪造检测方法的性能。MFF-STViT与基线系统相比,在ASVspoof2019 LA测试集中,等错误率(equal error rate,EER)平均降低71.38%;在ASVspoof2021 LA数据集中,EER和最小串联成本函数(minimum tandem detection cost function,min-tDCF)平均降低44.41%和18.11%;在ASVspoof2021 DF数据集中,EER平均降低57.81%;在LA和DF不同分区下,EER最大降幅均超过80%,显著优于其他对比方法。实验结果表明,MFF-STViT有效提升了检测的准确性、泛化能力、通用性和抗干扰性。
-
关键词
音频深度伪造检测
深度学习
特征融合
声码器伪迹
-
Keywords
audio deepfake detection
deep learning
feature fusion
vocoder artifacts
-
分类号
TN912.3
[电子电信—通信与信息系统]
-