期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向合成语音检测的弹性正交权重修正连续学习算法
1
作者 张晓辉 易江燕 +1 位作者 陶建华 周俊佐 《计算机研究与发展》 北大核心 2025年第2期336-345,共10页
目前,深度学习在合成语音检测领域取得了巨大的成功.然而,通常情况下,深度模型可以在与训练集分布相似的测试集上取得高准确率,但在跨数据集的情境下,其准确率却会显著下降.为了提高模型在新数据集上的泛化能力,通常需要对其进行微调,... 目前,深度学习在合成语音检测领域取得了巨大的成功.然而,通常情况下,深度模型可以在与训练集分布相似的测试集上取得高准确率,但在跨数据集的情境下,其准确率却会显著下降.为了提高模型在新数据集上的泛化能力,通常需要对其进行微调,但这会导致模型遭受灾难性遗忘.灾难性遗忘指的是模型在新数据上的训练会损害其从旧数据中获得的知识,导致对旧数据的识别性能下降.目前,克服灾难性遗忘的主要算法之一是连续学习.面向合成语音检测提出了一种连续学习算法——弹性正交权重修正(elastic orthogonal weight modification,EOWM),用于克服灾难性遗忘.该算法通过修正模型在学习新知识时的参数更新方向和更新幅度,以减少对已学知识的损害.具体来说,该算法在模型学习新知识时要求参数的更新方向与旧任务的数据分布正交,并同时限制对旧任务中重要参数的更新幅度.在合成语音检测领域的跨数据集实验中,算法取得了良好的效果.与微调相比,该算法在旧数据集上的等错误率(equal error rate,EER)从7.334%降低至0.821%,相对下降了90%;在新数据集上的等错误率从0.513%降低至0.315%,相对下降了40%. 展开更多
关键词 合成语音检测 连续学习 弹性正交权重修正 预训练模型 深度神经网络
在线阅读 下载PDF
改进深度残差收缩网络的端到端合成语音检测
2
作者 曾高俊 芦天亮 +2 位作者 任英杰 李御瑾 彭舒凡 《计算机科学与探索》 北大核心 2025年第4期1076-1086,共11页
合成语音的滥用导致了诸多现实问题,研究相应的鉴伪技术对于保护公民人身财产安全、保障社会与国家安全具有重大意义。传统的合成语音检测多采用手工设计特征与后端分类器相结合的方式,前端手工特征设计涉及复杂的先验知识,使用单一手... 合成语音的滥用导致了诸多现实问题,研究相应的鉴伪技术对于保护公民人身财产安全、保障社会与国家安全具有重大意义。传统的合成语音检测多采用手工设计特征与后端分类器相结合的方式,前端手工特征设计涉及复杂的先验知识,使用单一手工特征模型检测效果不理想,而进行多特征融合则导致模型参数量较大。同时,目前多数检测方法还存在跨数据集泛化性差的问题。为解决上述问题,提出了一种基于改进深度残差收缩网络的端到端合成语音检测方法。融合通道注意力机制重新设计自适应阈值学习模块,提高了阈值学习的精度;设计并引入帧注意力机制模块,为不同的帧赋予不同的关注程度,提高了模型的特征选择能力;设计并引入了具有两种超参数的改进小波阈值函数,增强阈值化模块抑制无关特征的能力;设计了一种基于改进深度残差收缩网络端到端合成语音检测网络,输入原始语音即可判别其是否为合成语音。基于ASVspoof2019 LA数据集的对比实验结果显示,所提方法将基线模型的等错误率与最小串联检测成本函数分别降低了85%与84%。基于ASVspoof2015 LA数据集的跨库测试结果验证了所提方法的泛化性能。 展开更多
关键词 合成语音检测 深度残差收缩网络 帧注意力 小波阈值函数
在线阅读 下载PDF
基于倒谱特征数据增强的真实场景合成语音检测
3
作者 万伊 李春国 +1 位作者 杨飞然 杨军 《高技术通讯》 CAS 北大核心 2024年第10期1013-1023,共11页
现有合成语音检测系统在真实场景下性能损失严重。本文提出了一种基于频域掩蔽的倒谱特征数据增强方法。该方法对输入信号的线性滤波器组特征(LFBs)进行频域掩蔽,以引入符合真实场景的语音失真;计算掩蔽特征的线性频率倒谱系数(LFCC),... 现有合成语音检测系统在真实场景下性能损失严重。本文提出了一种基于频域掩蔽的倒谱特征数据增强方法。该方法对输入信号的线性滤波器组特征(LFBs)进行频域掩蔽,以引入符合真实场景的语音失真;计算掩蔽特征的线性频率倒谱系数(LFCC),以降低特征维度,提升检测性能。本文利用轻量级卷积神经网络(LCNN)、深度残差网络(ResNet)和一维卷积Transformer模型(OCT)建立了3种检测系统,用于验证所提方法的有效性。真实场景数据集上的实验结果表明,所提方法可使不同合成语音检测系统的等错误率(EER)相较无增强的基线降低6.39%~25.95%。将所提方法与基于音频编解码的增强技术相结合时,不同系统的EER比基线降低31.71%~42.47%,进一步提升了系统对真实场景的泛化能力,且性能优于现有数据增强方法。 展开更多
关键词 合成语音检测 数据增强 真实场景 频域掩蔽 泛化能力
在线阅读 下载PDF
基于注意力和挤压-激励Inception的双分支合成语音检测
4
作者 王晗 赵腊生 +2 位作者 张强 程银清 邱泽鹏 《计算机应用》 CSCD 北大核心 2024年第10期3217-3222,共6页
合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测... 合成语音攻击给人们的生活带来巨大的威胁。为了解决现有模型从冗余信息中提取关键信息能力不足和单一模型无法综合利用多检测模型优势的问题,提出一种基于注意力和挤压-激励(SE)模块Inception(SE-Inc)的双分支(Dual-ABIB)合成语音检测模型。首先,基于SincNet(Sinc-based convolutional neural Network)提取的初始特征图训练注意力分支合成语音检测模型,并输出注意力图;其次,将注意力图和初始特征图相乘后再叠加,并将结果作为SE-Inc分支的输入进行训练;最后,通过决策级加权融合处理2个分支获得的分类分数,从而实现合成语音检测。实验结果表明,所提模型在参数量为539×10^(3)的情况下,在ASVspoof2019数据集上获得了0.0332的最小串联检测代价函数(mint-DCF)和1.15%的等错误率(EER);与SE-ResABNet(Squeeze-Excitation ResNet Attention Branch Network)相比,所提模型在参数量仅为它的56%的情况下,min t-DCF和EER分别下降了34.5%和39.2%;同时,在ASVspoof2015和ASVspoof2021数据集上所提模型表现了更好的泛化能力。以上结果验证了所提模型能够在参数量较小的情况下,获得更低的min t-DCF和EER。 展开更多
关键词 注意力机制 挤压-激励模块 双分支 合成语音检测 决策级融合
在线阅读 下载PDF
采用局部相位量化的合成语音检测方法 被引量:1
5
作者 徐嘉 简志华 +1 位作者 金宏辉 杨曼 《电信科学》 北大核心 2024年第2期63-71,共9页
由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首... 由于语音合成的便利性,合成伪装语音对说话人认证系统的安全构成了很大的威胁。为了进一步提升说话人认证系统的伪装语音检测能力,提出了一种利用语谱图频域信息的合成语音检测方法,它通过局部相位量化算法对语谱图频域信息进行描述。首先,将语谱图分为若干子块,然后对每个子块进行局部相位量化,经直方图统计分析后获得局部相位量化特征向量并将该特征向量作为随机森林分类器的输入特征,实现合成语音检测。实验结果表明,该方法进一步降低了合成语音检测系统的串联检测代价数值,并且具有更强的泛化能力。 展开更多
关键词 说话人认证 伪装攻击 合成语音检测 局部相位量化
在线阅读 下载PDF
采用圆周局部三值模式纹理特征的合成语音检测方法 被引量:2
6
作者 金宏辉 简志华 +1 位作者 杨曼 吴超 《电信科学》 2023年第6期85-95,共11页
为了进一步提高合成语音检测的准确率,提出了一种采用圆周局部三值模式(CLTP)纹理特征的合成语音检测方法。该方法利用圆周局部三值模式提取语谱图中的纹理信息并作为语音的特征表示,采用深度残差网络作为后端分类器来判决语音真伪。实... 为了进一步提高合成语音检测的准确率,提出了一种采用圆周局部三值模式(CLTP)纹理特征的合成语音检测方法。该方法利用圆周局部三值模式提取语谱图中的纹理信息并作为语音的特征表示,采用深度残差网络作为后端分类器来判决语音真伪。实验结果表明,在ASVspoof 2019数据集上,与传统的常量Q倒谱系数(CQCC)和线性预测倒谱系数(LPCC)两种特征相比,该方法在等错误率(EER)上分别降低了54.29%和2.15%,与局部三值模式(LTP)纹理特征相比,该方法在等错误率上也降低了17.14%。圆周局部三值模式由于综合考虑了邻域内中心像素与周边像素之间以及各周边像素之间的差异,更加全面地获取了语谱图的纹理信息,提高了合成语音检测的准确率。 展开更多
关键词 说话人验证 合成语音检测 圆周局部三值模式 深度残差网络
在线阅读 下载PDF
基于注意力机制的端到端合成语音检测 被引量:9
7
作者 王锦阳 华光 黄双 《信号处理》 CSCD 北大核心 2022年第9期1975-1987,共13页
近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别... 近年来深度伪造(Deepfake)技术的迅猛发展使合成语音的自然度和拟人度有了显著提升,对合成语音检测研究提出了更大挑战。本文将五种轻量级注意力模块中的机制改进为适用于语音序列的通道注意力机制和一维空间注意力机制,然后将模块分别嵌入到Inc-TSSDNet网络中,提出基于注意力机制的端到端合成语音检测系统。结果表明,改进系统能够重点关注某些对于检测真伪更关键的通道或区域来提高检测性能,相比于基线模型,引入注意力机制的十种模型在增加的参数量较少的情况下,ASVspoof2019测试集的等错误率(Equal Error Rate,EER)和最小串联检测代价函数(Minimum Tandem Detection Cost Function,min t-DCF)都有所降低,其中在池化层之前嵌入CBAM(Convolutional Block Attention Module)的模型测试集EER最低且具有较强的泛化性,在池化层之前嵌入ECA(Efficient Channel Attention)模块的模型测试集min t-DCF最低且统计性能较基线模型有显著提升。 展开更多
关键词 合成语音检测 端到端 通道注意力机制 一维空间注意力机制
在线阅读 下载PDF
采用自监督对比学习的合成伪造语音检测方法
8
作者 杨曼 简志华 梁承涵 《电信科学》 北大核心 2024年第11期40-49,共10页
为了消除训练数据集中真实语音和伪造语音的样本数量不平衡对合成伪造语音检测系统性能的影响,并进一步提高系统的检测准确率,提出了一种基于自监督对比学习的合成语音检测方法。所提方法将经过音高变换后的样本视为负样本,通过训练神... 为了消除训练数据集中真实语音和伪造语音的样本数量不平衡对合成伪造语音检测系统性能的影响,并进一步提高系统的检测准确率,提出了一种基于自监督对比学习的合成语音检测方法。所提方法将经过音高变换后的样本视为负样本,通过训练神经网络使锚点样本特征与负样本特征不同,从而促使网络提取对于音高变换敏感的特征,再采用深度残差网络作为后端分类器来判决语音真伪。实验结果表明,与传统手工设计的声学特征方法、基于深度学习的伪造语音检测系统以及基于端到端的伪造语音检测系统相比,所提方法显著降低了系统的等错误率。由于自监督对比学习的合成伪造语音检测方法可以训练网络提取对音高变换敏感的特征,并且不受数据集中真伪语音数量不平衡的影响,因此显著提高了合成伪造语音检测的准确率。 展开更多
关键词 伪造语音检测 合成语音检测 自监督对比学习 深度残差网络 音高变换
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部