期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
采用自监督对比学习的合成伪造语音检测方法
1
作者 杨曼 简志华 梁承涵 《电信科学》 北大核心 2024年第11期40-49,共10页
为了消除训练数据集中真实语音和伪造语音的样本数量不平衡对合成伪造语音检测系统性能的影响,并进一步提高系统的检测准确率,提出了一种基于自监督对比学习的合成语音检测方法。所提方法将经过音高变换后的样本视为负样本,通过训练神... 为了消除训练数据集中真实语音和伪造语音的样本数量不平衡对合成伪造语音检测系统性能的影响,并进一步提高系统的检测准确率,提出了一种基于自监督对比学习的合成语音检测方法。所提方法将经过音高变换后的样本视为负样本,通过训练神经网络使锚点样本特征与负样本特征不同,从而促使网络提取对于音高变换敏感的特征,再采用深度残差网络作为后端分类器来判决语音真伪。实验结果表明,与传统手工设计的声学特征方法、基于深度学习的伪造语音检测系统以及基于端到端的伪造语音检测系统相比,所提方法显著降低了系统的等错误率。由于自监督对比学习的合成伪造语音检测方法可以训练网络提取对音高变换敏感的特征,并且不受数据集中真伪语音数量不平衡的影响,因此显著提高了合成伪造语音检测的准确率。 展开更多
关键词 伪造语音检测 合成语音检测 自监督对比学习 深度残差网络 音高变换
在线阅读 下载PDF
基于聚类中心的浅层特征融合伪造语音检测
2
作者 吴敦志 陈为真 《计算机工程与设计》 北大核心 2024年第10期2922-2928,共7页
针对现有检测系统在使用wav2vec2.0模型提取特征导致高计算资源消耗和传统打分方法限制泛化性能的问题,提出一种基于聚类中心的浅层特征融合伪造语音检测算法。裁剪wav2vec2.0模型的深层,将浅层特征通过注意力池化以缩短时序长度,用线... 针对现有检测系统在使用wav2vec2.0模型提取特征导致高计算资源消耗和传统打分方法限制泛化性能的问题,提出一种基于聚类中心的浅层特征融合伪造语音检测算法。裁剪wav2vec2.0模型的深层,将浅层特征通过注意力池化以缩短时序长度,用线性层确定融合权重;通过K-means++得到聚类中心,利用当前样本和相应类中心的表示余弦相似度进行训练和打分以判别真伪。实验采用ASVspoof2019和ASVspoof2021挑战赛的逻辑轨道数据集,wav2vec2.0模型参数量减少了60%,等错误率分别达到0.34%和3.67%,在模型精简和泛化性能方面明显优于同类wav2vec2.0模型和传统打分方法。 展开更多
关键词 伪造语音检测 模型压缩 预训练模型 注意力池化 特征融合 聚类中心 余弦相似度
在线阅读 下载PDF
基于自监督预训练和有监督微调的伪造语音检测方法 被引量:2
3
作者 夏翔 方磊 +1 位作者 方四安 柳林 《计算机应用》 CSCD 北大核心 2023年第S01期263-268,共6页
随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而... 随着深度学习技术的发展,合成语音的质量和听感与真实自然语音越来越难以区分,这严重威胁了基于声纹识别相关应用的可靠性和安全性。现有研究从特征提取和后端二分类器两个维度上提出了各种方法用于伪造语音检测,取得了优异的效果。然而,当模型面对未知的伪造类型数据时,模型检测准确率急剧下降,特别是对于跨数据集评估测试场景。受到自监督学习框架在多种语音识别下游任务成功经验的启发,提出一种基于预训练和微调结合的伪造语音检测框架。预训练使用无标签数据学习通用的语音表征,之后利用有标签的真实伪造语音数据集来微调整个网络参数,达到区分真实自然音和伪造语音的目的。该方法在ASVspoof 2019逻辑攻击数据集上的联合检测代价函数值为0.0061,等错误率(EER)值为0.19%,同时在ASVspoof 2015和Fake or Real跨数据集评测上也展现了良好的泛化能力。 展开更多
关键词 反欺骗 伪造语音检测 自监督 预训练 泛化能力
在线阅读 下载PDF
基于Wav2Vec2.0特征融合与联合损失的深度伪造语音检测方法
4
作者 陈飞飞 郭海燕 +2 位作者 郭延民 葛子瑞 陆华庆 《信号处理》 2025年第9期1547-1557,共11页
语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有... 语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有望进一步提升深度伪造语音检测性能。鉴于此,本文基于Wav2Vec2.0深度伪造语音检测架构,提出引入卷积注意力模块(Convolutional Block Attention Module,CBAM)对Wav2Vec2.0各层嵌入特征进行融合,通过结合通道注意力和空间注意力的加权融合方式来自适应地增强关键特征,有效提升模型的特征提取能力。在此基础上,考虑到伪造语音类型复杂多样,不同类型的伪造语音在鉴别难度上可能存在显著差异,为避免模型在处理难鉴别样本时存在的偏倚,同时使得类内特征分布紧凑、类间特征分布疏远。本文提出联合交叉熵损失、中心损失和焦点损失,构造模型的整体损失函数,充分利用各类损失的优势来增强模型在多种伪造语音场景下的判别能力和泛化性能。在ASVspoof 2019 LA、ASVspoof 2021 LA、ASVspoof 2021 DF和CFAD数据集上的实验结果表明,所提出的方法在常用评价指标等错误率(equal error rate,EER)和最小串联检测代价函数(minimum tandem detection cost function,min t-DCF)均表现出色。尤其是在ASVspoof 2021 LA数据集上,相较于AASIST、ECAPA-TDNN、ResNet,以及采用Wav2Vec2.0进行前端特征提取的多种对比方案,本文方法显著优于所有对比方法。 展开更多
关键词 深度伪造语音检测 Wav2Vec2.0 特征融合 联合损失
在线阅读 下载PDF
生成式伪造语音安全问题与解决方案 被引量:2
5
作者 冯畅 吴晓龙 +2 位作者 赵熠扬 徐明星 郑方 《信息安全研究》 CSCD 北大核心 2024年第2期122-129,共8页
生成式人工智能算法的发展使得生成式伪造语音更加自然流畅,人类听力难以分辨真伪.首先分析了生成式伪造语音不当滥用对社会造成的一系列威胁,如电信诈骗更加泛滥、语音应用程序安全性下降、司法鉴定公正性受到影响、综合多领域的伪造... 生成式人工智能算法的发展使得生成式伪造语音更加自然流畅,人类听力难以分辨真伪.首先分析了生成式伪造语音不当滥用对社会造成的一系列威胁,如电信诈骗更加泛滥、语音应用程序安全性下降、司法鉴定公正性受到影响、综合多领域的伪造信息欺骗社会大众等.然后从技术发展角度,对生成式伪造语音的生成算法和检测算法分别进行总结与分类,阐述算法流程步骤及其中的关键点,并分析了技术应用的挑战点.最后从技术应用、制度规范、公众教育、国际合作4方面阐述了如何预防以及解决生成式伪造语音带来的安全问题. 展开更多
关键词 生成式人工智能 伪造语音 伪造语音安全问题 伪造语音检测 伪造语音威胁解决
在线阅读 下载PDF
语音伪造及检测技术研究综述 被引量:26
6
作者 任延珍 刘晨雨 +1 位作者 刘武洋 王丽娜 《信号处理》 CSCD 北大核心 2021年第12期2412-2439,共28页
语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核... 语音承载着人类语言和说话人身份信息,通过语音伪造技术可以精确模仿目标说话人的声音以达到欺骗人或机器听觉的目的。目前,深度伪造(Deepfake)正在对全球的政治经济及社会稳定带来极大的威胁,其中语音伪造是Deepfake实现舆论操控的核心技术之一。近年来语音伪造技术在拟人度、自然度方面有了显著进步,使得语音伪造检测技术面临着更大的挑战。本文对当前主流的语音伪造和伪造语音检测技术研究现状进行综述,主要包括:1)对主流语音伪造技术,包括语音合成、语音转换和语音对抗样本的基本概念、技术发展历程和研究进展进行综述;2)对伪造语音检测技术的基本概念、性能评价指标、主要技术实现原理和性能效果进行综述;3)对伪造语音检测相关的主流竞赛、常用数据集和可用代码工具资源进行介绍;最后对语音伪造和检测技术现存的挑战性问题和未来的研究方向进行讨论。 展开更多
关键词 语音伪造 语音伪造检测 语音合成 语音转换 说话人验证 对抗样本
在线阅读 下载PDF
基于全局时频注意力网络的语音伪造检测 被引量:4
7
作者 王成龙 易江燕 +3 位作者 陶建华 马浩鑫 田正坤 傅睿博 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1466-1475,共10页
语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了... 语音伪造检测是近年的一个研究热点,受到了广泛关注.目前,卷积神经网及其变种的提出,使其在语音伪造检测任务中取得了不错进展.然而,目前仍存在2方面问题:1)当前工作假设送入卷积神经网络的特征图的每一维对结果的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的.2)此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间的关系.为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时频维度做了注意力变换.具体而言,引入了2个并行的注意力模块:1)时频注意力模块;2)全局注意力模块.对于时频注意力模块,可以通过使用加权求和在所有时频特征图上聚合特征来进行更新.对于全局注意力模块,借鉴了SE-Net的思想,通过参数为每个特征通道生成权重.通过这种办法,可以得到特征通道上响应的全局分布.在ASVspoof2019 LA公开数据集上进行了一系列实验,结果显示所提的模型取得不错的效果,最佳模型的等错误率达到4.12%,刷新了单个模型的最好成绩. 展开更多
关键词 语音鉴伪 注意力机制 语音伪造检测 全局注意力 时频注意力
在线阅读 下载PDF
基于混合特征和多通道GRU的伪造语音鉴别方法
8
作者 潘孝勤 杜彦辉 《信息网络安全》 CSCD 北大核心 2021年第10期1-7,共7页
为了解决现有鉴伪模型存在的泛化能力不强、检测准确率较低等难题,文章提出基于混合特征融合的多通道GRU伪造语音鉴别模型。该模型利用多通道挖掘不同输入特征的多尺度信息,同时引入注意力机制对多尺度特征进行融合并决策分类。在ASVspo... 为了解决现有鉴伪模型存在的泛化能力不强、检测准确率较低等难题,文章提出基于混合特征融合的多通道GRU伪造语音鉴别模型。该模型利用多通道挖掘不同输入特征的多尺度信息,同时引入注意力机制对多尺度特征进行融合并决策分类。在ASVspoof2019数据集上进行验证,所提方法对Logical Access伪造样本的检测准确率达到了96.30%,对Physical Access达到了87.33%,优于其他算法。实验结果证明,时频域特征融合的伪造语音检测方法能够学习更有效的真伪鉴别特征,获得更高的检测准确率。 展开更多
关键词 语音伪造检测 多通道GRU 特征融合 深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部