期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
多阶GMM-Res Net融合在语音伪造检测中的研究
1
作者 曹明明 雷震春 +1 位作者 杨印根 周勇 《信息安全学报》 2025年第2期116-126,共11页
近年来,自动说话人识别技术取得了显著进步,但同时也容易受到合成或转换语音的伪造攻击,语音伪造检测系统致力于解决这一问题。本文根据不同阶数GMM中高斯分量之间的相关性和ResNet模型中不同层次残差块输出的特征信息,提出了一种多阶GM... 近年来,自动说话人识别技术取得了显著进步,但同时也容易受到合成或转换语音的伪造攻击,语音伪造检测系统致力于解决这一问题。本文根据不同阶数GMM中高斯分量之间的相关性和ResNet模型中不同层次残差块输出的特征信息,提出了一种多阶GMM-ResNet融合模型进行语音伪造检测。该模型主要包含两部分:多阶对数高斯概率(Log Gaussian Probability, LGP)特征融合和多尺度特征聚合ResNet(Multi-Scale Feature Aggregation ResNet, MFA-ResNet)。GMM描述了语音特征在其空间的分布情况,不同阶数的GMM则具有不同描述能力来形成对特征分布的平滑近似。此外,根据不同阶数GMM计算出来的LGP特征也就在不同阶上捕获语音信息。多阶LGP特征融合将基于不同阶数的GMM得到的三种不同阶LGP特征进行加权融合,从而促进不同阶LGP特征之间的信息交换。另一方面,神经网络模型中第一层或中间层获得的特征信息对于分类任务也是非常有用的。基于这一经验, MFA-ResNet模块通过对每个ResNet块输出的特征进行聚合,充分融合网络内不同层级的特征信息,从而提高网络的特征提取能力。在ASVspoof 2019逻辑访问场景下, LFCC+多阶GMM-ResNet融合系统的min t-DCF和EER分别为0.0353和1.16%,比基线系统LFCC+GMM分别相对降低了83.3%和85.7%。在ASVspoof2021逻辑访问场景下,LFCC+多阶GMM-ResNet融合系统的min t-DCF和EER分别为0.2459和2.50%,比基线系统LFCC+GMM分别相对降低了57.3%和87.1%,比基线系统LFCC+LCNN分别相对降低了28.6%和73.0%。与目前最先进模型相比,本文模型也非常具有竞争力。 展开更多
关键词 多阶GMM-ResNet融合 多阶对数高斯概率特征融合 多尺度特征聚合 语音伪造检测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部