期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
噪声环境下基于域对抗图卷积网络和坐标注意力的说话人确认方法 被引量:1
1
作者 陈家辉 葛子瑞 +2 位作者 王天朗 郭海燕 杨震 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期57-67,共11页
为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。... 为了减弱背景噪声对说话人确认(Speaker Verification,SV)性能的影响,提出一种基于域对抗图卷积网络(Domain Adversarial Graph Convolution Network,DA⁃GCN)和坐标注意力(Coordinate Attention,CA)的SV方法来提升噪声环境下的SV性能。首先,针对噪声环境下局部特征变得不稳定这个问题,提出引入CA模块,将全局时间信息和全局频率信息编码到通道注意力中,以强调有用通道,提取鲁棒性的说话人特征。其次,提出构建DA⁃GCN来辅助主网络提取与噪声相关性更小的说话人特征来进行后续的分类。具体而言,将语音信号映射为图信号,利用GCN分别对干净语音图信号特征和含噪语音图信号特征进行聚合,通过域对抗(Domain Adversarial,DA)训练,辅助主网络提取干净语音域和含噪语音域共享的说话人特征,从而降低噪声对SV性能的影响。在VoxCeleb1数据集上的实验结果表明,所提CA⁃DA⁃GCN的性能优于基线模型ExU⁃Net且表现出良好的泛化能力。 展开更多
关键词 噪声环境 说话人确认 域对抗 坐标注意力机制 图卷积神经网络
在线阅读 下载PDF
基于改进Transformer的端到端说话人确认模型
2
作者 周云龙 陈德富 +2 位作者 刘小湖 桑伊健 周晗昀 《计算机应用》 北大核心 2025年第S1期89-94,共6页
基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进T... 基于自注意力机制的Transformer在大多数自然语言处理(NLP)任务中表现出色,但以往的工作表明,将Transformer应用于说话人确认时竞争力不强,特别是在局部建模能力、轻量级的结构以及实时推理能力上。针对这些问题,从3个方面提出一种改进Transformer的端到端说话人确认模型DTF-Transformer(Deep Treatment Fusion-Transformer)。首先,使用一种简化的多尺度注意力代替多头注意力,以提升模型的局部建模能力并降低参数量;其次,设计轻量级的前馈网络(FFN),进一步在降低模型参数量的同时加快推理;最后,对于不同深度下的特征应用融合机制提高模型对深层特征的表达与泛化能力。在公共基准数据集VoxCeleb和CN-Celeb上的实验结果表明,相较于流行的ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network based speaker verification)结构,DTFTransformer在VoxCeleb1-O和CN-Celeb(E)测试集上的等错误率(EER)分别下降了14%、24%和43%、15%,并且,DTFTransformer在不损失精度的情况更轻量,推理速度较优。 展开更多
关键词 说话人确认 说话人嵌入 TRANSFORMER 自注意力机制 特征融合
在线阅读 下载PDF
基于子频带前端模型和反向特征融合的说话人确认方法
3
作者 王萌威 杨哲 《计算机科学》 北大核心 2025年第3期214-221,共8页
现有说话人确认方法中用于提取帧级特征的时延神经网络(TDNN)存在两个问题,一是缺少对局部频率特征的建模能力,二是多层特征融合方式无法对高层和低层特征之间的复杂关系进行有效建模。因此,提出一种新的前端模型以及一种新的多层特征... 现有说话人确认方法中用于提取帧级特征的时延神经网络(TDNN)存在两个问题,一是缺少对局部频率特征的建模能力,二是多层特征融合方式无法对高层和低层特征之间的复杂关系进行有效建模。因此,提出一种新的前端模型以及一种新的多层特征融合方式。在前端模型中,通过将输入特征图划分为多个子频带,并逐层扩大子频带的频率范围,使TDNN可以渐进地对局部频率特征进行建模。同时,在主干模型中新增一条由高层向低层传递的反向路径,对相邻两层输出特征之间的关系进行建模,并将反向路径中每层的输出拼接后作为融合后的特征。此外,在主干模型中使用逆瓶颈层的设计,进一步提升模型的性能。在VoxCeleb1测试集上的实验结果表明,所提方法与目前的TDNN方法相比,等错误率和最小代价检测函数分别降低了9%和14%,而参数量仅为目前方法的52%。 展开更多
关键词 声纹识别 说话人确认 时延神经网络 子频带特征提取 多层特征融合
在线阅读 下载PDF
辅助短语音条件下说话人确认系统的seq2seq模型
4
作者 杨爽 马佰超 +1 位作者 杨宇 陈丹 《计算机应用与软件》 北大核心 2025年第4期223-228,共6页
文本无关的说话人确认系统使用的测试语音时长越短效果越差。针对这种情况,提出增强声学特征的方法。使用基于seq2seq(Sequence to Sequence)的生成模型将短时声学特征生成更长的特征,其中,编码器用于提取深层特征,解码器输出声学特征,... 文本无关的说话人确认系统使用的测试语音时长越短效果越差。针对这种情况,提出增强声学特征的方法。使用基于seq2seq(Sequence to Sequence)的生成模型将短时声学特征生成更长的特征,其中,编码器用于提取深层特征,解码器输出声学特征,使用注意力机制来获取序列之间的关系。在训练时加入余弦距离损失来提升生成模型的泛化性能,将训练好的说话人确认模型作为生成模型训练架构的组件。实验结果表明,在1~3 s语音时长下,采用该模型后等错误率平均降低7.78%。 展开更多
关键词 说话人确认 短时语音 seq2seq 余弦距离损失
在线阅读 下载PDF
基于Group-Res2Block的智能合成语音说话人确认方法
5
作者 李菲 苏兆品 +2 位作者 王年松 杨波 张国富 《应用科学学报》 CAS CSCD 北大核心 2024年第4期709-722,共14页
针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的... 针对现有说话人确认任务基于自然语音条件下并不适用于智能合成语音的问题,提出一种基于Group-Res2Block的智能合成语音说话人确认方法。首先,设计了Group-Res2Block结构,在Res2Block的基础上将当前分组与相邻前后分组进行合并形成新的分组,以增强说话人局部特征的上下文联系;其次,设计了并行结构的多尺度通道注意力特征融合机制,利用不同大小卷积核实现同一层级的特征在通道维度的特征选择,以获取更具表现力的说话人特征,避免信息冗余;最后,设计了串行结构的多尺度层注意力特征融合机制,构建层结构,将深浅层特征整体进行融合并赋予不同权重,以获取最优的特征表达。为验证所提出特征提取网络的有效性,构建了中英文两种智能合成语音数据集进行消融实验和对比实验。结果表明本文方法在该任务的评价指标精确度(accuracy,ACC)、等错误率(equal error rate,EER)和最小检测代价函数(minimum detection cost function,minDCF)上是最优的。此外,通过对模型泛化性能进行测试,验证了本文方法对未知智能语音算法的适用性。 展开更多
关键词 说话人确认 智能合成语音 Group-Res2Block深度神经网络 多尺度特征 注意力机制
在线阅读 下载PDF
面向中文短语音的文本无关说话人确认新框架
6
作者 毛海全 冯海泓 +3 位作者 洪峰 马皓天 徐楚林 郑立通 《声学技术》 CSCD 北大核心 2024年第4期503-510,共8页
相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,... 相较于文本相关说话人确认,文本无关说话人确认由于验证文本内容不受限制,结合语音识别能够有效避免录音欺诈等常见攻击。然而,文本无关说话人确认系统在短语音验证上会出现严重的性能下降。为此,文章首先提出了一种改进的端到端模型,通过长、短语音说话人分类损失增强网络对不同时长语音段的说话人分类识别能力;同时,在嵌入码空间中增大同一说话人的短语音和长语音之间的相似度,减小不同说话人的短语音之间的相似度,增强网络对短语音的特征提取能力。此外,还提出了一种基于注意力机制的验证词选择方法,选择具有高注意力权重的中文词作为系统验证提示词。实验结果表明,文章提出的改进的端到端模型结合softmax预训练使得模型在短测试语音上的等错误率相对降低29%,基于注意力机制的验证词选择方法也能筛选出具有更好识别结果的验证词,二者结合能够有效提升说话人确认系统对于短中文语音的识别性能。 展开更多
关键词 说话人确认 短语音 注意力机制 验证词选择
在线阅读 下载PDF
基于深度学习的说话人确认方法研究现状及展望
7
作者 李建琛 韩纪庆 《数据采集与处理》 CSCD 北大核心 2024年第5期1062-1084,共23页
随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综... 随着深度学习的不断发展,说话人确认(Speaker verification)技术已经取得了长足的进步。该技术相较于其他生物特征识别技术,具有可远程操作、成本低和易于人机交互等优势,在公安刑侦、金融服务等领域展现出广泛的应用前景。本文系统综述了基于深度学习的说话人确认技术的发展脉络。首先,介绍了基于深度学习的说话人特征表示模型在模型输入与结构、池化层、有监督损失函数和自监督学习与预训练模型4个方面的发展历程和研究现状;其次,探讨了说话人确认技术在实际应用中面临的跨域不匹配问题,如噪声干扰、信道不匹配和远场语音等,并概述了相应的领域自适应和领域泛化方法;最后,指出了进一步的研究方向。 展开更多
关键词 说话人识别 说话人确认 深度学习 领域不匹配 自监督学习
在线阅读 下载PDF
基于语音质量自适应和类三元组思想的说话人确认方法
8
作者 王超 姚姗姗 《计算机应用》 CSCD 北大核心 2024年第12期3899-3906,共8页
针对目前的说话人确认(SV)方法在复杂的测试场景或语音质量退化较大时性能下降严重的问题,提出一种基于语音质量自适应和类三元组思想的SV方法(QATM)。首先,利用说话人语音的特征范数关联语音质量;其次,通过判断语音质量好坏选取不同的... 针对目前的说话人确认(SV)方法在复杂的测试场景或语音质量退化较大时性能下降严重的问题,提出一种基于语音质量自适应和类三元组思想的SV方法(QATM)。首先,利用说话人语音的特征范数关联语音质量;其次,通过判断语音质量好坏选取不同的损失函数,以调整不同质量语音样本的重要性,从而关注语音质量高的难样本,忽略语音质量低的难样本;最后,利用类三元组的思想同时改进AM-Softmax(Additive Margin Softmax)损失和AAM-Softmax(Additive Angular Margin Softmax)损失,旨在更关注困难的说话人样本,从而应对语音质量过差的难样本对模型的损害。实验结果表明,当训练集为VoxCeleb2开发集时,在Half-ResNet34、ResNet34和ECAPA-TDNN(Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network)网络架构中,所提方法与基于AAM-Softmax损失的方法相比,在VoxCeleb1-O测试集上的等错误率(EER)分别降低了6.41%、3.89%和7.27%;当训练集为Cn-Celeb. Train时,在Half-ResNet34网络架构中,所提方法与基于AAM-Softmax损失的方法相比,在评估集Cn-Celeb. Eval上的EER降低了5.25%。可见,所提方法在普通和复杂场景下的准确度均有所提高。 展开更多
关键词 说话人确认 难样本 语音质量 自适应 三元组思想
在线阅读 下载PDF
基于GMM的普通话和四川方言独立文本的说话人确认 被引量:2
9
作者 赵靖 龚卫国 杨利平 《计算机应用》 CSCD 北大核心 2008年第3期792-794,共3页
针对训练和测试阶段中的语音数据类型(普通话和四川方言)的不匹配导致说话人确认系统性能下降很大的问题,提出了一种新的建立高斯混合模型(GMM)方法——普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法,并发现使系统针对... 针对训练和测试阶段中的语音数据类型(普通话和四川方言)的不匹配导致说话人确认系统性能下降很大的问题,提出了一种新的建立高斯混合模型(GMM)方法——普通话和四川方言按比例混合建立普通话和四川方言联合GMM的方法,并发现使系统针对普通话和四川方言不匹配导致的性能下降率至很低(2.79%)的比例。实验结果表明,该方法可以有效地加强测试阶段针对语种变化的鲁棒性,可以有效的减少普通话和四川方言在训练和测试阶段的不匹配造成的性能下降率。 展开更多
关键词 说话人确认 高斯混合模型 独立文本 双语种说话人确认
在线阅读 下载PDF
基于SVM-HMM混合模型的说话人确认 被引量:19
10
作者 忻栋 杨莹春 吴朝晖 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第11期1080-1082,共3页
提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更... 提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更多地表达了类别内部的相似性 ,而 SVM则很大程度上反映了类别间的差异 ,因而根据两者不同的侧重点 ,使其组合获得了很好的效果 . 展开更多
关键词 SVM-HMM混合模型 说话人确认 支持向量机 隐式马尔可夫模型 语音信号处理 模式识别
在线阅读 下载PDF
基于PCA和核Fisher判别的说话人确认 被引量:5
11
作者 邢玉娟 李明 张亚芬 《计算机工程与设计》 CSCD 北大核心 2008年第15期3984-3986,共3页
针对核Fisher判别技术在说话人确认中实时性较差的问题,提出了一种基于PCA和核Fisher判别的说话人确认方法。利用PCA进行特征向量的降维、去冗余,以减少后续计算的复杂度,提高说话人确认的速度,使用基于核函数的Fisher判别技术对说话人... 针对核Fisher判别技术在说话人确认中实时性较差的问题,提出了一种基于PCA和核Fisher判别的说话人确认方法。利用PCA进行特征向量的降维、去冗余,以减少后续计算的复杂度,提高说话人确认的速度,使用基于核函数的Fisher判别技术对说话人进行确认,从而在整体上提高系统的实时性。并通过实验验证了该方法的有效性。 展开更多
关键词 PCA 核FISHER判别 说话人确认 SVM 核函教
在线阅读 下载PDF
采用因子分析和支持向量机的说话人确认系统 被引量:5
12
作者 郭武 戴礼荣 王仁华 《电子与信息学报》 EI CSCD 北大核心 2009年第2期302-305,共4页
在文本无关的说话人识别中,采用均值超向量作为特征向量的支持向量机系统性能已经超过了传统的混合高斯-通用背景模型系统,但是信道的影响在均值超向量上仍然存在。该文对因子分析算法进行修改后,可以解决均值超向量的信道问题,能够取... 在文本无关的说话人识别中,采用均值超向量作为特征向量的支持向量机系统性能已经超过了传统的混合高斯-通用背景模型系统,但是信道的影响在均值超向量上仍然存在。该文对因子分析算法进行修改后,可以解决均值超向量的信道问题,能够取得优于扰动属性映射的性能,更重要的是采用因子分析的系统的稳定性可以得到保证。在NIST 2006说话人测试数据库上,利用该文的方法能够取得等错误率6.0%。 展开更多
关键词 说话人确认 超向量 联合因子分析 扰动属性映射
在线阅读 下载PDF
基于对话语音的与文本无关的说话人确认系统的研究 被引量:4
13
作者 陈雁翔 戴蓓倩 +1 位作者 周曦 李辉 《中文信息学报》 CSCD 北大核心 2004年第2期36-43,共8页
本文建立了一个基于对话语音的与文本无关的说话人确认系统 ,它和传统的与文本无关的说话人确认系统的关键不同在于 ,训练及测试语音不再只包含一个人而都是对话语音 ,因此需要分割出属于不同说话人的语音段 ,以建立说话人模型和实现最... 本文建立了一个基于对话语音的与文本无关的说话人确认系统 ,它和传统的与文本无关的说话人确认系统的关键不同在于 ,训练及测试语音不再只包含一个人而都是对话语音 ,因此需要分割出属于不同说话人的语音段 ,以建立说话人模型和实现最终判决。文中详细介绍了高斯混合模型 -背景模型 (GMM UBM)这种说话人确认系统的框架 ,重点讨论了基于GLR(GeneralizedLikelihoodRatio)距离测度的无监督语音分割算法。最终阐述的输出评分的规整方法即ZNORM (ZeroNormalization)和持续时间修正 ,可以使确认系统的性能提高近 10 %。 展开更多
关键词 计算机应用 中文信息处理 对话语音 GLR距离测度 无监督语音分割 说话人确认系统 文本
在线阅读 下载PDF
基于高斯混合模型的说话人确认系统 被引量:5
14
作者 杨澄宇 赵文 杨鉴 《计算机应用》 CSCD 北大核心 2001年第4期7-8,11,共3页
由于在人的话音频谱中 ,低频和较高频段含有较多说话人的个性信息 ,本文提出一种LPC倒谱的改进算法用于与文本无关的说话人识别。该改进算法通过话音频谱的各频段进行加权 ,突出说话人的个性信息 ,从而使说话人更易于区分。
关键词 混合高斯模型 说话人确认系统 语音识别 语音信息处理 LPC倒谱
在线阅读 下载PDF
基于说话人聚类和支持向量机的说话人确认研究 被引量:11
15
作者 侯风雷 王炳锡 《计算机应用》 CSCD 北大核心 2002年第10期33-35,共3页
说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型... 说话人确认系统需要用目标说话人和背景模型说话人的语音数据对模型进行训练。背景模型说话人可随机选取或选取与目标说话人相近的说话人。采用说话人聚类的方法可以有效地解决说话人背景模型的选取问题。支持向量机用作说话人确认模型来训练目标说话人和背景说话人的语音数据。实验表明该方法对与文本无关的说话人确认问题是有效的。 展开更多
关键词 说话人确认 说话人 支持向量机 语音识别系统
在线阅读 下载PDF
基于特征规整和评分规整的说话人确认研究 被引量:3
16
作者 郑榕 张树武 徐波 《中文信息学报》 CSCD 北大核心 2006年第6期75-82,共8页
在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高... 在说话人确认系统中,训练和测试的声学环境不匹配将造成性能急剧下降。本文提出了从特征规整和评分规整两个方面进行补偿的方法。首先,改进了基于分段的倒谱均值方差规整(SCMVN)方法,将倒谱系数都规整到相同的段内高斯统计分布,以提高不同环境条件下特征匹配程度;其次,针对由于不同说话人和不同测试环境引起的输出评分分布变化,提出了两阶段的评分规整方法,即先零规整再测试规整(TZnorm)和先测试规整再零规整(ZTnorm)两种得分变换方法,使得失配条件下与说话人无关的决策门限更加鲁棒。基于NIST2002说话人识别评测库上的实验表明,采用SCMVN的特征规整和ZTnorm的评分规整方法能够明显地提高系统性能。与采用倒谱均值减和零规整的基线系统相比,等错误率和最小检测代价分别降低了20.3%和18.1%。 展开更多
关键词 计算机应用 中文信息处理 说话人确认 特征规整 评分规整 NIST说话人评测
在线阅读 下载PDF
声母发声特点参数的提取及其提高说话人确认鲁棒性的研究 被引量:2
17
作者 许东星 戴蓓蒨 +1 位作者 许敏强 刘青松 《信号处理》 CSCD 北大核心 2009年第9期1479-1483,共5页
本文针对语音信号中的声母语音更易受环境噪声污染而导致识别性能下降的情况,根据普通话声母发声位置特点,提出了一种对发声位置状态描述的发声特点参数(Articulatory Feature,简称AF),采用特征空间映射方法,由短时倒谱参数(MFCC)经MLP... 本文针对语音信号中的声母语音更易受环境噪声污染而导致识别性能下降的情况,根据普通话声母发声位置特点,提出了一种对发声位置状态描述的发声特点参数(Articulatory Feature,简称AF),采用特征空间映射方法,由短时倒谱参数(MFCC)经MLP特征映射网络映射获取,MLP特征映射网络则由语言学先验知识事先训练得到。AF参数具有良好的噪声鲁棒性,并与MFCC参数具有互补性,由MFCC和AF组成的联合特征参数(MFCC-AF)可使系统确认性能的鲁棒性有明显的改善。在微软数据库上的基于GMM-UBM模型的与文本无关的说话人确认实验表明,对于声母语音,采用MFCC-AF参数使系统的鲁棒性有明显的改善:在干净、25dB、20dB条件下,较只采用MFCC参数的系统的EER分别相对降低了5.4%,14.12%,20.27%。 展开更多
关键词 发声特点 多层感知器 文本无关 说话人确认
在线阅读 下载PDF
基于支撑向量机的说话人确认系统 被引量:2
18
作者 何昕 刘重庆 李介谷 《计算机工程与应用》 CSCD 北大核心 2000年第12期70-71,91,共3页
支撑向量机(SVM)是一种新的统计学习方法,和以往的学习方法不同的是SVM的学习原则是使结构风险(Structural Risk)最小,而经典的学习方法遵循经验风险(Empirical Risk)最小原则,这使得SVM具有较好的总体性能.文章提出一种基于支撑向量机... 支撑向量机(SVM)是一种新的统计学习方法,和以往的学习方法不同的是SVM的学习原则是使结构风险(Structural Risk)最小,而经典的学习方法遵循经验风险(Empirical Risk)最小原则,这使得SVM具有较好的总体性能.文章提出一种基于支撑向量机的文本无关的说话人确认系统,实验表明同基于向量量化(VQ)和高斯混合模式(GMM)的经典方法相比,基于SVM的方法具有更高的区分力和更好的总体性能. 展开更多
关键词 支撑向量机 向量量化 语音识别 说话人确认系统
在线阅读 下载PDF
跨域注意力特征融合的说话人确认方法 被引量:4
19
作者 杨震 王天朗 +1 位作者 郭海燕 王婷婷 《通信学报》 EI CSCD 北大核心 2023年第8期89-98,共10页
针对目前说话人确认系统中前端特征的语音信号样点间结构信息缺失问题,提出了跨域注意力特征融合的说话人确认方法。首先,提出了一种基于图信号处理的图频域特征提取方法来有效利用语音信号的结构信息,将语音信号帧的每个样点作为图节点... 针对目前说话人确认系统中前端特征的语音信号样点间结构信息缺失问题,提出了跨域注意力特征融合的说话人确认方法。首先,提出了一种基于图信号处理的图频域特征提取方法来有效利用语音信号的结构信息,将语音信号帧的每个样点作为图节点,构建语音图信号,通过图傅里叶变换以及滤波器组提取图频域特征。其次,提出了一种由残差模块与挤压-激励模块构成的注意力特征融合网络,对传统时频域特征与图频域特征进行跨域融合,来提升说话人确认系统的性能。最后,在VoxCeleb、SITW和CN-Celeb数据集上进行实验。实验结果表明,所提方法在等错误率以及最小检测代价函数的评价指标上,优于基线模型ECAPA-TDNN。 展开更多
关键词 说话人确认 图信号处理 注意力特征融合
在线阅读 下载PDF
采用非监督得分规整和因子分析的说话人确认 被引量:1
20
作者 郭武 李轶杰 +1 位作者 戴礼荣 王仁华 《电子学报》 EI CAS CSCD 北大核心 2009年第4期776-779,共4页
在文本无关的说话人确认中,规整算法能够有效地调整测试得分的分布.另外,利用前面已经得到的测试语句的得分来调整规整的参数可以取得更好的效果,这种规整叫做非监督得分规整.在本文中,借用开发集得分来建立说话人和冒认者得分的两个先... 在文本无关的说话人确认中,规整算法能够有效地调整测试得分的分布.另外,利用前面已经得到的测试语句的得分来调整规整的参数可以取得更好的效果,这种规整叫做非监督得分规整.在本文中,借用开发集得分来建立说话人和冒认者得分的两个先验高斯分布函数,在实际的测试中,利用最大后验概率准则来对规整的模型参数进行调整.在采用因子分析的情况下,在NIST2006说话人识别测试1conv4w-1conv4w数据库上,能够取得等错误率5.26%. 展开更多
关键词 说话人确认 联合因子分析 非监督得分规整
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部