期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
I-vector聚类字典及注意力机制框架的说话人自适应 被引量:5
1
作者 黄俊 蒋兵 +2 位作者 李先刚 郭武生 戴礼荣 《小型微型计算机系统》 CSCD 北大核心 2019年第2期460-464,共5页
近些年来,语音识别任务中的说话人自适应技术在实际工程中得到广泛应用.基于i-vector的说话人自适应是其中最为重要的一种,但是提取i-vector需要用到整句话的信息,并不能用于线上的自适应.因此,本文设计了一种基于i-vector聚类字典及注... 近些年来,语音识别任务中的说话人自适应技术在实际工程中得到广泛应用.基于i-vector的说话人自适应是其中最为重要的一种,但是提取i-vector需要用到整句话的信息,并不能用于线上的自适应.因此,本文设计了一种基于i-vector聚类字典及注意力机制的自适应框架,测试时能够在不提取i-vector和不进行二遍解码的前提下快速实现线上自适应,并且该框架具有灵活性优和可扩展性好的优点,能够方便的用于其他类型的自适应,如地域自适应和性别自适应.在Switchboard任务上,实验结果表明我们提出的框架在不同的声学模型上相对于基线均有性能提升,并且通过说话人识别任务进一步证明了该方法的合理性. 展开更多
关键词 i-vector字典 注意力机制 说话人自适应 语音识别
在线阅读 下载PDF
基于DNN处理的鲁棒性I-Vector说话人识别算法 被引量:12
2
作者 王昕 张洪冉 《计算机工程与应用》 CSCD 北大核心 2018年第22期167-172,共6页
提出了一种将基于深度神经网络(Deep Neural Network,DNN)特征映射的回归分析模型应用到身份认证矢量(identity vector,i-vector)/概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)说话人系统模型中的方法。DNN通过... 提出了一种将基于深度神经网络(Deep Neural Network,DNN)特征映射的回归分析模型应用到身份认证矢量(identity vector,i-vector)/概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)说话人系统模型中的方法。DNN通过拟合含噪语音和纯净语音i-vector之间的非线性函数关系,得到纯净语音i-vector的近似表征,达到降低噪声对系统性能影响的目的。在TIMIT数据集上的实验验证了该方法的可行性和有效性。 展开更多
关键词 说话人识别 深度神经网络 i-vector
在线阅读 下载PDF
基于多特征I-Vector的说话人识别算法 被引量:2
3
作者 赵宏 岳鲁鹏 +1 位作者 常兆斌 王伟杰 《兰州理工大学学报》 CAS 北大核心 2021年第5期93-98,共6页
针对单一声学特征无法精准高效地辨识说话人身份的问题,提出了一种基于多特征I-Vector的说话人识别算法.该算法首先采集不同的声学特征并将其构成一个高维特征向量,然后通过主成分分析法有效地剔除高维特征向量的关联,确保各种特征之间... 针对单一声学特征无法精准高效地辨识说话人身份的问题,提出了一种基于多特征I-Vector的说话人识别算法.该算法首先采集不同的声学特征并将其构成一个高维特征向量,然后通过主成分分析法有效地剔除高维特征向量的关联,确保各种特征之间正交化,最后采用概率线性判别分析进行建模和打分,并在一定程度上降低空间维度.在TIMIT语料库上利用Kaldi进行实验,算法运行结果表明,该算法较当前流行的基于I-Vector的单一梅尔频率倒谱系数和感知线性预测系数的特征系统在等错误率上分别提高了8.18%和1.71%,在模型训练时间上分别减少了60.4%和47.5%,具有更好的识别效果和效率. 展开更多
关键词 说话人识别算法 多特征i-vector 主成分分析 概率线性判别分析 Kaldi
在线阅读 下载PDF
基于贝叶斯主成分分析的i-vector说话人确认方法 被引量:2
4
作者 肜娅峰 陈晨 +1 位作者 陈德运 何勇军 《电子学报》 EI CAS CSCD 北大核心 2021年第11期2186-2194,共9页
身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效... 身份-矢量(identity-vector,i-vector)方法作为说话人确认领域中的主流方法之一,能够通过学习总变化空间来获取有效的低维说话人特征——i-vector特征.但是当开发集数据不充足时,会导致学习到的总变化空间模型误差较大;同时,还无法有效确认此时的总变化空间是否因为预先设置的维度过高而学到了冗余信息.为此,本文将贝叶斯主成分分析(Bayesian Principal Component Analysis,BPCA)引入总变化空间的学习过程中,利用其来为总变化空间引入更多的先验信息,从而对开发集数据中包含的信息进行补充,并在先验信息的约束下削弱总变化空间中无效维的影响.实验结果表明,当开发集数据不充足时,相比于传统的总变化空间学习方法,BPCA方法能够有效提升说话人确认系统的识别性能. 展开更多
关键词 说话人确认 身份-矢量(i-vector) 总变化空间 贝叶斯主成分分析
在线阅读 下载PDF
基于多特征i-vector的短语音说话人识别算法 被引量:7
5
作者 孙念 张毅 +1 位作者 林海波 黄超 《计算机应用》 CSCD 北大核心 2018年第10期2839-2843,共5页
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vec... 当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72. 16%、69. 47%和73. 62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。 展开更多
关键词 说话人识别 i-vector 短语音 多特征 主成分分析 线性判别分析
在线阅读 下载PDF
用说话人相似度i-vector的非负值矩阵分解说话人聚类 被引量:1
6
作者 哈尔肯别克.木哈西 钟珞 达瓦.伊德木草 《计算机应用与软件》 2017年第4期165-168,242,共5页
基于贝叶斯或者全贝叶斯准则的说话人自动聚类或者识别方法,主要采取重复换算全发话语音段的相似量度,再组合相似性较大的语音片段实现说话人的聚类。这种方法中如果发话语音片段数越多,组合计算时间就越长,系统实时性变差,而且各说话... 基于贝叶斯或者全贝叶斯准则的说话人自动聚类或者识别方法,主要采取重复换算全发话语音段的相似量度,再组合相似性较大的语音片段实现说话人的聚类。这种方法中如果发话语音片段数越多,组合计算时间就越长,系统实时性变差,而且各说话人模型用GMM方法建立,发话语音时间短暂时GMM的信赖性降低,最终影响说话人聚类精度。针对上述问题,提出引用i-vector说话人相似度的非负值矩阵分解的高精度快速说话人聚类方法。 展开更多
关键词 说话人分割及聚类 非负值矩阵分解 i-vector GMM 电话语音
在线阅读 下载PDF
说话人识别的不确定性i-vector分析 被引量:5
7
作者 屈召贵 鲁顺昌 《计算机工程与设计》 北大核心 2017年第6期1647-1650,共4页
针对噪声环境中说话人识别性能不稳定问题,提出一种基于不确定性前端因子分析的说话人识别方法。通过不确定性估计改进传统的i-vector特征抽取方式,实现在噪声环境中性能稳定的说话人识别。实验结果表明,该方法具有较高的说话人识别准确... 针对噪声环境中说话人识别性能不稳定问题,提出一种基于不确定性前端因子分析的说话人识别方法。通过不确定性估计改进传统的i-vector特征抽取方式,实现在噪声环境中性能稳定的说话人识别。实验结果表明,该方法具有较高的说话人识别准确率,是高鲁棒性的,可广泛用于语音识别任务。 展开更多
关键词 说话人识别 不确定性 鲁棒性 i-vector 前端因子分析
在线阅读 下载PDF
Hierarchical particle filter tracking algorithm based on multi-feature fusion 被引量:3
8
作者 Minggang Gan Yulong Cheng +1 位作者 Yanan Wang Jie Chen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2016年第1期51-62,共12页
A hierarchical particle filter(HPF) framework based on multi-feature fusion is proposed.The proposed HPF effectively uses different feature information to avoid the tracking failure based on the single feature in a ... A hierarchical particle filter(HPF) framework based on multi-feature fusion is proposed.The proposed HPF effectively uses different feature information to avoid the tracking failure based on the single feature in a complicated environment.In this approach,the Harris algorithm is introduced to detect the corner points of the object,and the corner matching algorithm based on singular value decomposition is used to compute the firstorder weights and make particles centralize in the high likelihood area.Then the local binary pattern(LBP) operator is used to build the observation model of the target based on the color and texture features,by which the second-order weights of particles and the accurate location of the target can be obtained.Moreover,a backstepping controller is proposed to complete the whole tracking system.Simulations and experiments are carried out,and the results show that the HPF algorithm with the backstepping controller achieves stable and accurate tracking with good robustness in complex environments. 展开更多
关键词 particle filter corner matching multi-feature fusion local binary patterns(LBP) backstepping.
在线阅读 下载PDF
A content-aware correlation filter with multi-feature fusion for RGB-T tracking
9
作者 FENG Zihang YAN Liping +2 位作者 BAI Jinglan XIA Yuanqing XIAO Bo 《Journal of Systems Engineering and Electronics》 CSCD 2024年第6期1357-1371,共15页
In challenging situations,such as low illumination,rain,and background clutter,the stability of the thermal infrared(TIR)spectrum can help red,green,blue(RGB)visible spectrum to improve tracking performance.However,th... In challenging situations,such as low illumination,rain,and background clutter,the stability of the thermal infrared(TIR)spectrum can help red,green,blue(RGB)visible spectrum to improve tracking performance.However,the high-level image information and the modality-specific features have not been sufficiently studied.The proposed correlation filter uses the fused saliency content map to improve filter training and extracts different features of modalities.The fused content map is intro-duced into the spatial regularization term of correlation filter to highlight the training samples in the content region.Furthermore,the fused content map can avoid the incompleteness of the con-tent region caused by challenging situations.Additionally,differ-ent features are extracted according to the modality characteris-tics and are fused by the designed response-level fusion stra-tegy.The alternating direction method of multipliers(ADMM)algorithm is used to solve the tracker training efficiently.Experi-ments on the large-scale benchmark datasets show the effec-tiveness of the proposed tracker compared to the state-of-the-art traditional trackers and the deep learning based trackers. 展开更多
关键词 visual tracking RED green blue(RGB)and thermal infrared(TIR)tracking correlation filter content perception multi-feature fusion
在线阅读 下载PDF
基于概率修正PLDA的说话人识别系统 被引量:4
10
作者 李琳 万丽虹 +2 位作者 洪青阳 张君 李明 《天津大学学报(自然科学与工程技术版)》 EI CAS CSCD 北大核心 2015年第8期692-696,共5页
为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度... 为减弱注册语音与测试语音时长不一致对说话人识别性能的负面影响,提出一个概率修正PLDA建模方法.根据语音时长自适应改变传统PLDA模型中i-vector的概率分布函数,提高PLDA对每个说话人每段语音的时长表征能力,以增强说话人类别的区分度.为验证基于概率修正PLDA模型的有效性,进行了NIST SRE10 corecore测试集在3种不同时长的评测实验,以及NIST 2014 i-vector machine learning challenge测试任务.结果表明,相较于传统的PLDA训练模型,通过语音时长的约束提高了说话人识别性能. 展开更多
关键词 高斯PLDA i-vector 语音时长 概率修正 说话人识别
在线阅读 下载PDF
基于深度神经网络的说话人信道自适应方法
11
作者 龙艳花 倪继锋 叶宏 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2016年第2期151-155,共5页
针对说话人确认中的复杂信道环境干扰问题,提出一种基于深度神经网络的信道自适应方法。该方法首先在不同信道类型下训练得到音素信息相关的深度神经网络模型(deep neural networks,DNNs),将说话人语音的声学特征参数在这些DNNs上进行... 针对说话人确认中的复杂信道环境干扰问题,提出一种基于深度神经网络的信道自适应方法。该方法首先在不同信道类型下训练得到音素信息相关的深度神经网络模型(deep neural networks,DNNs),将说话人语音的声学特征参数在这些DNNs上进行自适应,得到各信道类型下的深瓶颈特征(deep bottleneck feature,DBF)。然后将这些参数进行拼接并通过PCA降维,最后采用目前最有效的基于身份认证矢量(identity vector,i-vector)的建模技术对降维后的DBF进行建模,得到目标说话人模型和测试语音段的i-vector矢量用于最终说话人确认打分判决。在NIST SRE2010核心评测数据库上的实验结果表明,利用提出的方法能有效消除信道干扰对说话人确认的影响,在很大程度上提升了基于i-vector的说话人确认基线系统的性能。 展开更多
关键词 信道自适应 深度神经网络 深瓶颈特征 i-vector 说话人确认
在线阅读 下载PDF
基于概率球面判别分析的说话人识别信道补偿算法
12
作者 景维鹏 肖庆欣 罗辉 《计算机应用》 CSCD 北大核心 2024年第2期556-562,共7页
在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能... 在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。 展开更多
关键词 说话人识别 i-vector 概率球面判别分析 信道补偿 冯·米塞斯-费希尔分布 长度归一化
在线阅读 下载PDF
基于降噪自动编码器的语种特征补偿方法 被引量:3
13
作者 苗晓晓 徐及 王剑 《计算机研究与发展》 EI CSCD 北大核心 2019年第5期1082-1091,共10页
在语种识别中,当训练语音与测试语音长度失配时,系统的识别性能会出现严重下降.基于降噪自动编码器(denoising auto-encoder, DAE)的方法对不同长度测试语音的语种特征进行补偿,把不同长度的语音特征都映射为固定长度的语音特征,一定程... 在语种识别中,当训练语音与测试语音长度失配时,系统的识别性能会出现严重下降.基于降噪自动编码器(denoising auto-encoder, DAE)的方法对不同长度测试语音的语种特征进行补偿,把不同长度的语音特征都映射为固定长度的语音特征,一定程度上解决了长度失配和音素分配不平衡的问题.具体分为4个环节:1)语音信号经过分帧、变换得到底层声学特征;2)提取语音信号的原始i-vector,同时计算其音素向量;3)对原始i-vector和音素向量进行拼接,送入基于DAE的语种特征补偿处理单元得到补偿后的i-vector;4)将补偿后的i-vector和原始i-vector分别送入后端分类器得到2个分数向量,并将其在得分域融合后进行判决.在NIST-LRE07上的实验结果表明:所提出的语种特征补偿算法在各种测试语音时长上的识别性能均有提升.相比传统的语种识别系统,测试语音时长为30 s时性能相对提升3.16%,测试语音时长为10 s时性能相对提升2.90%.相比端到端语种识别系统,测试语音时长为3 s时性能相对提升3.21%. 展开更多
关键词 语种识别 i-vector 音素向量 特征补偿 降噪自动编码器
在线阅读 下载PDF
渐进式神经网络多维说话人信息识别技术 被引量:3
14
作者 陈海霞 徐珑婷 杨震 《南京邮电大学学报(自然科学版)》 北大核心 2019年第1期45-51,共7页
提出了一种识别多维语音信息的方法,用来同时识别说话人身份、性别和情感信息,选择身份特征参数I-vector向量表示语句特征。首先基于深度置信网络(DBN)设计了一个性别相关的多维语音识别基线系统,然后在基线系统基础上又提出了一种基于... 提出了一种识别多维语音信息的方法,用来同时识别说话人身份、性别和情感信息,选择身份特征参数I-vector向量表示语句特征。首先基于深度置信网络(DBN)设计了一个性别相关的多维语音识别基线系统,然后在基线系统基础上又提出了一种基于渐进式神经网络技术(Progressive Neural Network,ProgNets)的多维说话人信息识别方法。在性别相关的基础上,将辅助语音识别模型知识迁移学习到主语音识别模型中,进而增强语音识别性能。实验结果表明,基线系统识别结果比非同时识别的单维语音识别DBN模型的平均识别率提升了4.73%,而基于ProgNets系统的多维系统识别精度比基线系统高1.8%。 展开更多
关键词 i-vector特征向量 深度置信网络 渐进式神经网络 多维说话人信息识别
在线阅读 下载PDF
全局信息融合的汉语方言自动辨识
15
作者 邱远航 顾明亮 +4 位作者 马勇 金赟 韩军 赵冬梅 赵呈昊 《计算机工程与应用》 CSCD 北大核心 2017年第17期160-165,共6页
提出身份认证矢量(Identity vector,I-vector)结合韵律信息的汉语方言辨识方法。全差异空间替代本征音与本征信道空间,将高维超矢量映射为低维I-vector表示,并进行信道补偿与特征降维处理。汉语是有调语言,各方言在其韵律结构上具有明... 提出身份认证矢量(Identity vector,I-vector)结合韵律信息的汉语方言辨识方法。全差异空间替代本征音与本征信道空间,将高维超矢量映射为低维I-vector表示,并进行信道补偿与特征降维处理。汉语是有调语言,各方言在其韵律结构上具有明显差异,I-vector特征融合全局韵律信息,可有效增补各方言鉴别性。利用融合信息对闽、粤、吴等五种方言以及普通话进行辨识实验,等错率(Equal Error Rate,EER)达到8.01%,比高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)降低56.2%,表明融合全局韵律信息的Ivector方法可有效提高汉语方言辨识正确率。 展开更多
关键词 汉语方言辨识 韵律特征 i-vector 特征融合
在线阅读 下载PDF
非线性幂变换Gammachirp滤波器的鲁棒语音特征提取 被引量:3
16
作者 李聪 葛洪伟 《计算机科学与探索》 CSCD 北大核心 2019年第8期1351-1359,共9页
针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gam... 针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。 展开更多
关键词 特征提取 说话人识别 伽马啁啾滤波器 高斯混合模型-通用背景模型(GMM-UBM) 辨识向量(i-vector) 概率线性判别分析(PLDA)
在线阅读 下载PDF
使用置信区间的基频特征对Ⅰ-Vector系统的性能补偿
17
作者 琚炜 李锐 李辉 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1629-1632,共4页
采用多系统融合可以降低话者确认系统的等误识率(EER),融合策略一般是将多个系统的得分进行线性加权.这种方式是将每个系统得分情况作统一考虑,没有关注到各个系统自身得分的实际分布,某个系统表现不好的测试得分可能会劣化其他系统的... 采用多系统融合可以降低话者确认系统的等误识率(EER),融合策略一般是将多个系统的得分进行线性加权.这种方式是将每个系统得分情况作统一考虑,没有关注到各个系统自身得分的实际分布,某个系统表现不好的测试得分可能会劣化其他系统的优秀得分,从而对整个系统性能的提升有限.提出一种基于置信区间的融合策略,对I-Vector基线系统和基频辅助系统各设置一个置信区间,只有当基线系统的得分不在置信区间内并且辅助系统得分处于其置信区间时,才将两个系统的得分进行融合,否则仍然采取基线系统的得分.本文的方法充分利用了各系统的得分置信度,在NIST数据库上的实验表明,相对IVector基线系统,融合系统的性能提升了12.37%. 展开更多
关键词 话者确认 置信区间 i-vector系统 得分融合
在线阅读 下载PDF
A novel approach for speaker diarization system using TMFCC parameterization and Lion optimization 被引量:1
18
作者 V.Subba Ramaiah R.Rajeswara Rao 《Journal of Central South University》 SCIE EI CAS CSCD 2017年第11期2649-2663,共15页
In audio stream containing multiple speakers, speaker diarization aids in ascertaining "who speak when". This is an unsupervised task as there is no prior information about the speakers. It labels the speech... In audio stream containing multiple speakers, speaker diarization aids in ascertaining "who speak when". This is an unsupervised task as there is no prior information about the speakers. It labels the speech signal conforming to the identity of the speaker, namely, input audio stream is partitioned into homogeneous segments. In this work, we present a novel speaker diarization system using the Tangent weighted Mel frequency cepstral coefficient(TMFCC) as the feature parameter and Lion algorithm for the clustering of the voice activity detected audio streams into particular speaker groups. Thus the two main tasks of the speaker indexing, i.e., speaker segmentation and speaker clustering, are improved. The TMFCC makes use of the low energy frame as well as the high energy frame with more effect, improving the performance of the proposed system. The experiments using the audio signal from the ELSDSR corpus datasets having three speakers, four speakers and five speakers are analyzed for the proposed system. The evaluation of the proposed speaker diarization system based on the tracking distance, tracking time as the evaluation metrics is done and the experimental results show that the speaker diarization system with the TMFCC parameterization and Lion based clustering is found to be superior over existing diarization systems with 95% tracking accuracy. 展开更多
关键词 SPEAKER diarization Mel FREQUENCY cepstral COEFFICIENT i-vector EXTRACTION LION algorithm
在线阅读 下载PDF
基于最大团的防骗贷算法研究
19
作者 梁宏宇 李通旭 《信息安全研究》 2017年第11期1017-1019,共3页
银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户... 银行等金融机构在用户贷款时需要核实用户身份的真实性,常见的方法是通过电话问询用户个人信息的方式来确认身份.日益严重的信息安全问题导致骗贷人可以通过非法途径获取用户信息,冒充真实用户来骗取贷款.介绍了一种防骗贷算法,从用户的电话录音中提取用户的声纹特征,建立用户的声纹模型库,发现具有高相似度的声纹模型集,鉴别出冒充不同用户身份的骗贷者.最后测试并比较了基于GMM-UBM和i-vector模型的最大团防骗贷算法性能. 展开更多
关键词 防骗贷算法 说话人识别 GMM-UBM算法 i-vector算法 最大团
在线阅读 下载PDF
基于DNN的说话人无关单通道录音分离
20
作者 徐海青 吴立刚 +1 位作者 浦正国 韩涛 《福建茶叶》 2018年第12期303-303,305,共2页
围绕基于深度神经网络的说话人无关单通道录音分离模型,首先根据说话人的i-vector模型距离将说话人聚类,并证明不同类之间具有明显的可分性。然后基于聚类结果,本文训练了基于DNN的说话人组合检测器,通过该检测器网络的输出信号的能量... 围绕基于深度神经网络的说话人无关单通道录音分离模型,首先根据说话人的i-vector模型距离将说话人聚类,并证明不同类之间具有明显的可分性。然后基于聚类结果,本文训练了基于DNN的说话人组合检测器,通过该检测器网络的输出信号的能量特征不同,可以判断当前混合录音的说话人组合类别。选择相应的DNN录音分离器将混合录音进行分离。最后通过本文的分离系统与经典的CASA分离系统在PESQ和STOI指标上的实验对比,证明了本文的基于DNN的说话人无关单通道录音分离系统有着明显优势。 展开更多
关键词 单通道 录音分离 说话人无关 DNN i-vector模型
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部