期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于MFCC与CNN的机械故障声音自动识别
1
作者 黄炜 罗谢飞 《电声技术》 2024年第6期129-131,共3页
针对机械故障自动识别问题,提出一种结合梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)与一维卷积神经网络(Convolutional Neural Networks,CNN)的机械故障声音自动识别方法,并通过实验验证该方法的有效性。实验结果表明... 针对机械故障自动识别问题,提出一种结合梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)与一维卷积神经网络(Convolutional Neural Networks,CNN)的机械故障声音自动识别方法,并通过实验验证该方法的有效性。实验结果表明,该方法在机械故障声音识别中具有较高的准确率、精确率及召回率,能够有效识别故障案例。 展开更多
关键词 机械故障 声音识别 梅尔频率系数(mfcc) 卷积神经网络(CNN)
在线阅读 下载PDF
基于MFCC和HMM的语音识别优化方法研究
2
作者 郭佳淇 张继通 《电声技术》 2024年第10期83-85,共3页
为探究基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别优化方法,首先探讨语音识别系统的基本框架设计,其次分析MFCC特征提取方法,再次引入期望最大化(Expectatio... 为探究基于梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别优化方法,首先探讨语音识别系统的基本框架设计,其次分析MFCC特征提取方法,再次引入期望最大化(Expectation Maximization,EM)算法优化HMM参数,最后利用THCHS-30数据集进行实验验证。结果表明,引入EM算法优化HMM,可有效克服传统HMM在复杂语音环境下的识别困难问题,显著提升系统的识别精度和健壮性。 展开更多
关键词 语音识别 梅尔频率系数(mfcc) 隐马尔可夫模型(HMM) 期望最大化(EM)
在线阅读 下载PDF
藏语语音处理中对MFCC参数提取的研究 被引量:1
3
作者 张金溪 徐慧 李照耀 《无线互联科技》 2012年第11期141-141,共1页
本文在掌握了MFCC参数提取的理论基础上,对基元的选择、HMM建模进行了深入学习与探索,在HTK工具的帮助下完成了MFCC参数的提取,为藏语语音识别系统、藏语语音合成系统的实现奠定了一定的基础。
关键词 梅尔频谱系数(mfcc) mfcc参数提取 HMM建模
在线阅读 下载PDF
基于改进迁移学习的煤矿井下设备音频信号故障诊断方法
4
作者 邱吉尔 王琪 王鹏 《工矿自动化》 北大核心 2025年第2期91-99,共9页
煤矿井下生产运行环境恶劣,其关键设备如瓦斯泵、通风机、采煤机等长期处于启动状态,易产生缺陷性故障。目前端到端音频数据故障诊断方法的模型训练与更新高度依赖于数据标注,尽管可以获取海量原始数据,但这些数据通常未经标注,难以直... 煤矿井下生产运行环境恶劣,其关键设备如瓦斯泵、通风机、采煤机等长期处于启动状态,易产生缺陷性故障。目前端到端音频数据故障诊断方法的模型训练与更新高度依赖于数据标注,尽管可以获取海量原始数据,但这些数据通常未经标注,难以直接用于模型训练,设备运行工况的突变和设备重组等因素可能导致数据分布发生变化,从而引起模型性能下降。针对上述问题,提出了一种基于改进迁移学习的煤矿井下设备音频信号故障诊断方法。首先,对煤矿设备音频信号进行梅尔频率倒谱系数(MFCC)特征提取,捕捉设备运行状态中的关键信息,得到故障特征二维系数图。然后,构建基于改进迁移学习的故障诊断网络模型,以改进最大均值差异,即多核联合最大均值差异作为度量标准,借助伪标签计算联合分布距离,将标签信息通过多重线性映射进行特征匹配,以减少数据分布差异,实现边缘分布和条件分布同时对齐。实验结果表明:所提方法在无标签条件下能够实现高精度的故障诊断,准确率达到96.99%,标准差为0.014;在模型抗噪性能实验中,基于改进迁移学习的故障诊断模型在低信噪比(如10 dB)条件下仍能保持80%的故障诊断准确率,展现出较强的抗噪鲁棒性。 展开更多
关键词 煤矿井下设备 音频信号 故障诊断 迁移学习 梅尔频率系数 mfcc 最大均值差异 多核联合最大均值差异 源域 目标域
在线阅读 下载PDF
声音识别技术在地下人防暖通系统中的应用
5
作者 褚占彪 智凯峰 《电声技术》 2025年第3期80-82,共3页
为实现地下人防暖通系统的智能化监控,探索声音识别技术在该系统中的应用。通过梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)提取声音特征,结合高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov... 为实现地下人防暖通系统的智能化监控,探索声音识别技术在该系统中的应用。通过梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)提取声音特征,结合高斯混合模型(Gaussian Mixture Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)进行模式识别,并构建动态控制反馈系统。实际测试表明,该方法的故障诊断准确率达到96.9%,平均响应时间缩短至12.3 min,系统能耗降低18.8%,具有较好的应用效果。 展开更多
关键词 地下人防暖通系统 声音识别 梅尔频率系数(mfcc) 高斯混合模型(GMM) 隐马尔可夫模型(HMM)
在线阅读 下载PDF
基于MFCC的汽车敲击异响识别 被引量:3
6
作者 黄凯 郑瑶辰 邓兆祥 《振动与冲击》 EI CSCD 北大核心 2022年第13期275-282,共8页
现阶段,汽车异响的诊断主要依赖有经验的工程师进行主观评判,存在不准确、易错判、易漏判的问题。针对汽车敲击异响实测信号进行统计分析得到梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC),并以此作为表征异响来源的特征向量... 现阶段,汽车异响的诊断主要依赖有经验的工程师进行主观评判,存在不准确、易错判、易漏判的问题。针对汽车敲击异响实测信号进行统计分析得到梅尔倒谱系数(Mel frequency cepstrum coefficient,MFCC),并以此作为表征异响来源的特征向量,基于最大似然估计法构建其联合概率分布高斯混合模型(Gaussian mixture model,GMM),从而针对未知实测异响信号可利用该GMM模型进行似然判别。指出了说话人识别技术与敲击异响识别的不同之处即Mel三角滤波器个数和离散余弦变换输出系数个数的选取方式,并对方法的可行性进行分析,最后试验加以验证。结果显示此方法的识别率达100%,拒绝率达100%以上,为汽车异响的客观评价方法打下基础。 展开更多
关键词 说话人识别 敲击异响 梅尔系数(mfcc) 高斯混合模型(GMM)
在线阅读 下载PDF
基于鲁棒主成分分析和MFCC反复结构的歌声分离方法 被引量:1
7
作者 熊天 张天骐 +1 位作者 闻斌 吴超 《声学技术》 CSCD 北大核心 2023年第6期794-803,共10页
针对单一传统方法对歌声分离不彻底的问题,文章提出了一种基于鲁棒主成分分析(Robust Principal Component Analysis,RPCA)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)反复结构的两步歌声伴奏分离模型。该模型有效... 针对单一传统方法对歌声分离不彻底的问题,文章提出了一种基于鲁棒主成分分析(Robust Principal Component Analysis,RPCA)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)反复结构的两步歌声伴奏分离模型。该模型有效地改善了鲁棒主成分分析对歌声分离不完全和梅尔频率倒谱系数反复结构歌声在低频处分离不佳的问题。首先使用鲁棒主成分分析将混合音乐信号分解为低秩矩阵和稀疏矩阵,然后分别对其提取梅尔频率倒谱系数特征参数并且对其进行相似运算,构建相似矩阵及建立梅尔频率倒谱系数反复结构模型并通过反复结构模型分别得到低秩矩阵和稀疏矩阵相关的掩蔽矩阵,最后根据构建的掩蔽矩阵模型以及傅里叶逆变换得到背景音乐和歌声。在公开数据集上进行了实验,实验结果表明本文算法在歌声分离性能上与比较算法相比,平均信号干扰比值最高有接近7 dB的提高。 展开更多
关键词 鲁棒主成分分析(RPCA) 梅尔频率系数(mfcc) 歌声伴奏分离 反复结构
在线阅读 下载PDF
基于GMM模型和LPC-MFCC联合特征的声道谱转换研究 被引量:10
8
作者 曾歆 张雄伟 +2 位作者 孙蒙 苗晓孔 姚琨 《声学技术》 CSCD 北大核心 2020年第4期451-455,共5页
声道谱转换是语音转换中的关键技术。目前,大多数语音转换方法对声道谱的转换都是先提取语音中的某一种声道特征参数,然后对其进行训练转换,进而合成转换语音。由于不同的声道特征参数表征着不同的物理和声学意义,因此这些方法通常忽略... 声道谱转换是语音转换中的关键技术。目前,大多数语音转换方法对声道谱的转换都是先提取语音中的某一种声道特征参数,然后对其进行训练转换,进而合成转换语音。由于不同的声道特征参数表征着不同的物理和声学意义,因此这些方法通常忽略了不同声道特征参数之间可能存在的互补性。针对这一问题,研究了不同声道特征参数之间进行联合建模的方法,引入了一种由线性预测系数(LinearPredictionCoefficient,LPC)和梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)联合构成的LPC-MFCC特征参数,提出了一种基于高斯混合模型(Gaussian Mixture Model, GMM)和LPC-MFCC联合特征参数的语音转换方法。为验证文中方法的有效性,仿真实验选取了基于GMM和LPC的语音转换方法进行对比,对多组实验数据进行主观和客观测试,结果表明,文中提出的语音转换方法可以获得相似度更高的转换语音。 展开更多
关键词 语音转换 声道谱转换 高斯混合模型 联合建模 线性预测系数-梅尔频率系数
在线阅读 下载PDF
试验环境水下声信号的特征提取方法 被引量:1
9
作者 王红滨 王永乐 +1 位作者 何鸣 薛垚 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2024年第3期489-495,共7页
水下试验环境参数的反演是水声学研究领域的重要内容。而当前研究的关键是通过对水下声信号做特征提取从而获取参数信息。针对特征提取较难、模型很难拟合等问题。本文提出了一种试验环境水下声信号的特征提取方法。将水下声信号同时用... 水下试验环境参数的反演是水声学研究领域的重要内容。而当前研究的关键是通过对水下声信号做特征提取从而获取参数信息。针对特征提取较难、模型很难拟合等问题。本文提出了一种试验环境水下声信号的特征提取方法。将水下声信号同时用梅尔频谱倒谱系数及线性预测系数处理,两者运用特征加权组合方法得到新的特征矩阵;再应用映射插值算法对特征矩阵进行处理,获得适应神经网络输入的三通道矩阵。本文选取的网络模型为残差神经网络。利用实验室所录制的对河口水库数据集测试表明,本文提出的特征提取方法普遍优于仅利用梅尔频谱倒谱系数或线性预测系数的特征处理方法。利用单频矩形脉冲信号对环境进行深度5分类,准确率平均提升2%。利用线性调频信号对环境进行深度5分类,准确率平均提升2.03%。本文提出的特征提取方法对线性调频信号在深度分类任务下处理的结果要优于单频矩形脉冲信号处理的结果。 展开更多
关键词 环境反演 特征提取 梅尔频谱系数 线性预测系数 特征加权组合方法 残差神经网络 神经网络 水下声信号
在线阅读 下载PDF
基于MFCC均值特征的电台语言类节目相似度比对算法研究
10
作者 聂晨淅 《电声技术》 2022年第4期50-53,58,共5页
为了提高广播语言类节目的播出安全,提出一种基于梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)的算法,对两段音频信号进行相似度比对。通过对音频频谱特征提取得到均值特征参数,再计算两者的特征参数矩阵的欧式距... 为了提高广播语言类节目的播出安全,提出一种基于梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)的算法,对两段音频信号进行相似度比对。通过对音频频谱特征提取得到均值特征参数,再计算两者的特征参数矩阵的欧式距离,根据欧氏距离的大小判定两段音频的相似度来完成对比任务。实践证明,该方法对于语言类音频比对具有较高的准确性。 展开更多
关键词 播出安全 特征提取 梅尔频率系数(mfcc) 欧氏距离 音频比对
在线阅读 下载PDF
基于MFCC的空中交通管制语音指令的特征提取研究
11
作者 王兴林 《电声技术》 2023年第6期68-72,共5页
随着人工智能技术的不断应用,智能安全与智慧民航不断深入发展,通过科技手段提高空中交通飞行安全成为全球民航的共同选择。空中交通管制语音数据作为民航新型生产要素,对语音信号进行深入研究并合理运用,对于提高飞行安全具有重要意义... 随着人工智能技术的不断应用,智能安全与智慧民航不断深入发展,通过科技手段提高空中交通飞行安全成为全球民航的共同选择。空中交通管制语音数据作为民航新型生产要素,对语音信号进行深入研究并合理运用,对于提高飞行安全具有重要意义。文章介绍空中交通管制指令的基本要求,详细分析语音信号特征提取的各个环节,通过梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)提取语音信号的特征,再使用高斯混合模型(Gaussian Mixture Model,GMM)进行训练和分类,从而实现语音信号的识别,具有一定的实际运用价值。 展开更多
关键词 语音信号 特征提取 梅尔频率系数(mfcc) 高斯混合模型(GMM) 模型训练
在线阅读 下载PDF
基于声音特征的隧道衬砌空洞识别方法研究 被引量:1
12
作者 代晓景 暴学志 +2 位作者 柴雪松 周城光 阎兆立 《声学技术》 CSCD 北大核心 2024年第1期135-141,共7页
目前隧道衬砌空洞检测以人工敲击判断为主,检测过程中由于受到检测人员水平、注意力等主观因素影响,检测结果存在较大不确定性,因此有必要研制一种智能化的检测装置实现空洞自动识别。文章开展了衬砌空洞敲击回声智能识别算法研究,通过... 目前隧道衬砌空洞检测以人工敲击判断为主,检测过程中由于受到检测人员水平、注意力等主观因素影响,检测结果存在较大不确定性,因此有必要研制一种智能化的检测装置实现空洞自动识别。文章开展了衬砌空洞敲击回声智能识别算法研究,通过提取隧道衬砌冲击回波的梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)作为特征,针对敲击回声脉冲信号长度不一的特点,提出了变帧长MFCC优化算法,并面向小样本条件,建立了支持向量机(Support Vector Machine,SVM)的识别模型。试验结果表明,该模型对衬砌空洞识别准确率可达89.9%。 展开更多
关键词 隧道衬砌空洞 声学信号处理 梅尔系数(mfcc) 支持向量机(SVM)
在线阅读 下载PDF
基于音频特征的水车室工作状态异常检测 被引量:2
13
作者 曾广栋 魏学锋 +2 位作者 何林 孙长江 张旋 《水电能源科学》 北大核心 2024年第8期168-172,共5页
水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采... 水电站的水车室包含轴承和顶盖等机械设备,受水力因素影响,水车室的异常工作会带来较大的安全隐患,基于大数据分析的精确维护对于水车室的可靠运行至关重要。针对水车室的异常工作状态,通过模型训练、特征工程和分类模型的开发等过程,采用STFT、Log-Mel、MFCC等方法对音频数据进行了预处理,建立了基于音频数据的异常检测模型,并对溪洛渡水电站水车室工作状态进行了异常检测。结果表明,Log-Mel方法具有有效性。研究结果不仅降低了异常检测的成本,还为水电机组的健康监测提供了参考。 展开更多
关键词 音频数据 水车室 STFT Log-Mel 梅尔频率频谱系数(mfcc) 时域特征 支持向量机
在线阅读 下载PDF
基于LSTM模型的音乐推荐系统研究
14
作者 范凯燕 胡彦红 《电声技术》 2024年第9期136-138,共3页
随着音乐推荐技术的快速发展,如何提升音乐推荐系统的准确性和用户满意度成为研究的重点。研究一种结合梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、长短期记忆(Long Short-Term Memory,LSTM)网络、内容推荐方法的音... 随着音乐推荐技术的快速发展,如何提升音乐推荐系统的准确性和用户满意度成为研究的重点。研究一种结合梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)、长短期记忆(Long Short-Term Memory,LSTM)网络、内容推荐方法的音乐推荐系统,并通过MATLAB平台进行测试。结果表明,该推荐系统表现良好。 展开更多
关键词 音乐推荐 梅尔频率系数(mfcc) 长短期记忆(LSTM) 内容推荐
在线阅读 下载PDF
基于用户语音情感分析的景区反馈评估方法
15
作者 胡辉 《电声技术》 2024年第10期95-97,共3页
提出一种基于用户语音情感分析的景区反馈评估方法。首先,构建一个面向景区评估的情感分析框架,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)提取语音特征。其次,利用长短期记忆(Long Short-Term Memory,LSTM)网络... 提出一种基于用户语音情感分析的景区反馈评估方法。首先,构建一个面向景区评估的情感分析框架,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)提取语音特征。其次,利用长短期记忆(Long Short-Term Memory,LSTM)网络对提取的特征进行情感极性分类,将情感分为积极、消极、中性。最后,在交互式情感二元动作捕捉(Interactive Emotional Dyadic Motion Capture,IEMOCAP)数据集上进行实验。实验结果显示,本方法在精确率、召回率、准确率等指标上均表现出色,特别是在中性情感分类中达到了较高的识别性能。 展开更多
关键词 语音情感分析 景区评估 梅尔频率系数(mfcc) 长短期记忆(LSTM)网络
在线阅读 下载PDF
基于声纹识别技术的电力调度系统设计
16
作者 沈亚玲 《电声技术》 2024年第12期1-3,共3页
为提升电力调度的效率与安全性,探讨声纹识别技术在电力调度系统中的应用。采用梅尔频率倒谱系数(Mel Frequency Ceptral Coefficient,MFCC)特征提取与高斯混合模型(Gaussian Mixture Model,GMM)建模方法,结合大词汇量连续语音识别(Larg... 为提升电力调度的效率与安全性,探讨声纹识别技术在电力调度系统中的应用。采用梅尔频率倒谱系数(Mel Frequency Ceptral Coefficient,MFCC)特征提取与高斯混合模型(Gaussian Mixture Model,GMM)建模方法,结合大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)技术和改进的蚁群优化(Ant Colony Optimization,ACO)算法,设计基于声纹识别的电力调度系统。实验结果显示,该系统在身份验证和指令处理方面表现出色,具备较高的准确率与响应速度,能够有效保障电网运行的安全性与稳定性。 展开更多
关键词 声纹识别 电力调度 梅尔频率系数(mfcc)
在线阅读 下载PDF
一种舰载低信噪比环境下的音频端点检测算法 被引量:2
17
作者 王中正 王鉴 +1 位作者 韩焱 韩星程 《兵器装备工程学报》 CAS CSCD 北大核心 2023年第3期197-203,共7页
针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再... 针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再利用多窗谱谱减法提升待测含噪信号信噪比,提取信号相关特征,朴素贝叶斯分类器根据待测信号特征判断该信号的类别。仿真实验结果表明,该算法针对舰载低信噪比含噪音频信号与传统方法相比有效降低了虚检和漏检,具有更好的准确性及鲁棒性。 展开更多
关键词 音频端点检测 多窗谱谱减法 Mel频率系数(mfcc) Gammatone频率系数(GFCC) 朴素贝叶斯
在线阅读 下载PDF
基于集成学习的铁路隧道空洞敲击检查声音识别 被引量:5
18
作者 高磊 刘振奎 +2 位作者 张昊宇 魏晓悦 张奎 《振动与冲击》 EI CSCD 北大核心 2022年第14期58-63,83,共7页
隧道衬砌空洞敲击检查方法是目前铁路隧道中应用最多的检查方法,但其空洞识别和数据的记录均靠人工完成。为实现铁路隧道空洞敲击检查声音智能识别,将采集到的隧道敲击检查音频文件进行预处理,选取645个声音样本,提取24维梅尔频率倒谱系... 隧道衬砌空洞敲击检查方法是目前铁路隧道中应用最多的检查方法,但其空洞识别和数据的记录均靠人工完成。为实现铁路隧道空洞敲击检查声音智能识别,将采集到的隧道敲击检查音频文件进行预处理,选取645个声音样本,提取24维梅尔频率倒谱系数(Mel frequency cepstrum coefficients,MFCC)作为声音样本的声学特征参数,通过集成算法(梯度提升决策树GBDT)训练样本声学特征,建立隧道空洞敲击检查声音分类模型,最后将该模型应用于实际铁路隧道空洞敲击检查声音识别分类。实例研究表明:与优化的支持向量机(cross-validation-support vector machine,CV-SVM)模型和改进径向基神经网络(particle swarm optimization algorithm-radial basis function neural network,PSO-RBF)模型相比,GBDT集成算法模型具有更高的准确率和更少的运算时间,在面对异常数据时具有更强的稳定性,能够准确地根据铁路隧道空洞敲击检查声音诊断衬砌后是否存在空洞。 展开更多
关键词 铁路隧道 声音识别 梅尔频率系数(mfcc) 梯度提升决策树 支持向量机(SVM) 改进RBF神经网络
在线阅读 下载PDF
基于DSP的语音识别系统的研究与实现 被引量:3
19
作者 钟颖 《数字技术与应用》 2017年第5期48-49,共2页
本文介绍了基于DSP TMS320VC5509A的语音识别系统,主要通过采用DTW算法,初步研究和探讨在MATLAB软件环境下实现孤立词语的语音识别。系统由TMS320VC5509A芯片控制和TLV320AD50对原始语音进行采样和A/D转换,内部存储器用来存放程序数据,... 本文介绍了基于DSP TMS320VC5509A的语音识别系统,主要通过采用DTW算法,初步研究和探讨在MATLAB软件环境下实现孤立词语的语音识别。系统由TMS320VC5509A芯片控制和TLV320AD50对原始语音进行采样和A/D转换,内部存储器用来存放程序数据,外部存储器用来存放各种语音数据。 展开更多
关键词 语音识别 DSP Mel频率系数(mfcc) 动态时间规整(DTW)
在线阅读 下载PDF
基于均值特征和改进深度神经网络的说话人识别算法 被引量:2
20
作者 罗春梅 张风雷 《声学技术》 CSCD 北大核心 2021年第4期503-507,共5页
为提高神经网络在说话人识别应用中的识别性能,提出基于高斯增值矩阵特征和改进深度卷积神经网络的说话人识别算法。算法首先通过最大后验概率提取基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的高斯均值矩阵,... 为提高神经网络在说话人识别应用中的识别性能,提出基于高斯增值矩阵特征和改进深度卷积神经网络的说话人识别算法。算法首先通过最大后验概率提取基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征的高斯均值矩阵,并对特征进行噪声适应性补偿,以增强信号的帧间关联和说话人特征信息,然后采用改进的深度卷积神经网络进一步对准帧间信息,以提高说话人识别特征对背景噪声的适应性。实验结果表明,相比于高斯混合模型-通用背景模型等识别框架及传统MFCC等特征,该算法可取得更高的识别准确率和最小的识别均方误差。 展开更多
关键词 说话人识别 梅尔频率系数(mfcc) 深度卷积神经网络 高斯均值矩阵
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部