期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于改进EfficientNet的煤矸音频分类方法
1
作者 宋庆军 焦守悦 +2 位作者 姜海燕 宋庆辉 郝文超 《工矿自动化》 北大核心 2025年第1期138-144,共7页
针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特... 针对煤矸音频特征提取过程中设备运行噪声干扰严重及单一提取方法易导致信息丢失的问题,提出了一种基于改进EfficientNet的煤矸音频分类方法。采用基于Mel频谱和Gammatone倒谱系数的特征提取方法,有效捕捉矸石声音中的低频信息和细节特征。选择EfficientNet-B0作为骨干网络,并对其进行以下改进:将原有的多尺度通道注意力模块换成卷积块注意力模块,得到卷积注意力特征融合(CAFF)模块,通过网络自学习为不同空间位置的特征分配不同的权重信息,生成新的有效特征;在原有的MBConv模块中并行嵌入频域通道注意力(FCA)模块,加强特征图的表达能力,从而提高整个网络的性能。实验结果表明:引入CAFF模块后,模型准确率提升了0.61%,F1得分提升了0.52%,且模型收敛更快,说明CAFF模块有效提升了模型对频谱特征的捕捉能力;引入FCA模块后,准确率提升了0.45%,F1得分提升了0.62%,说明模块的叠加可以进一步提高模型的泛化能力和处理复杂特征的能力;改进EfficientNe模型的准确率为91.90%,标准差为0.108,显著优于同类对比音频分类模型。 展开更多
关键词 综放开采 煤矸识别 音频特征提取 EfficientNet Mel频谱特征 gammatone倒谱系数 注意力机制
在线阅读 下载PDF
基于MFCC与GFCC混合特征参数的说话人识别 被引量:46
2
作者 周萍 沈昊 郑凯鹏 《应用科学学报》 CAS CSCD 北大核心 2019年第1期24-32,共9页
针对说话人识别中单一参数表征不够全面的特点,将抗噪性能一般的传统MFCC参数与鲁棒性更强的GFCC参数相互融合,并结合它们的动态特性构成一种新的混合参数.针对特征参数维数过高造成的冗余,研究了每种特征参数各分量与识别结果的关系,... 针对说话人识别中单一参数表征不够全面的特点,将抗噪性能一般的传统MFCC参数与鲁棒性更强的GFCC参数相互融合,并结合它们的动态特性构成一种新的混合参数.针对特征参数维数过高造成的冗余,研究了每种特征参数各分量与识别结果的关系,舍弃其中贡献较低的分量以实现特征参数降维的目的,并将混合参数应用于基于高斯混合模型的说话人识别系统.仿真实验表明,该混合特征参数具有更好的识别性能和抗噪性. 展开更多
关键词 说话人识别 混合特征参数 MEL频率倒谱系数 gammatone滤波器
在线阅读 下载PDF
基于双通道特征的含噪声纹识别方法研究
3
作者 伍雄 陈为真 《计算机应用与软件》 北大核心 2025年第7期205-211,共7页
针对声纹识别在噪声环境下准确率不高的问题,提出一种基于双通道声纹特征(Dual-Channel Voiceprint Feature,DCVF)的含噪声纹识别方法。将处理后的语音信号分别通过梅尔滤波器组和伽马通滤波器组,得到梅尔频率倒谱系数特征、伽马通倒谱... 针对声纹识别在噪声环境下准确率不高的问题,提出一种基于双通道声纹特征(Dual-Channel Voiceprint Feature,DCVF)的含噪声纹识别方法。将处理后的语音信号分别通过梅尔滤波器组和伽马通滤波器组,得到梅尔频率倒谱系数特征、伽马通倒谱系数特征,结合它们的差分谱构成混合特征,融合成双通道声纹特征(DCVF)。实验结果表明:在纯净语音数据集中,双通道声纹特征可达到99.5%的识别率;在含噪语音数据集下,DCVF的识别效果有明显提升。 展开更多
关键词 声纹识别 梅尔频率倒谱系数 伽马通倒谱系数 特征融合 抗噪性
在线阅读 下载PDF
基于深度自编码网络语音识别噪声鲁棒性研究 被引量:9
4
作者 黄丽霞 王亚楠 +1 位作者 张雪英 王洪翠 《计算机工程与应用》 CSCD 北大核心 2017年第13期49-54,共6页
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,... 为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。 展开更多
关键词 语音识别 鲁棒性 深度自编码网络 gfcc特征 MFCC特征
在线阅读 下载PDF
基于听觉感知特性的语音质量客观评价方法 被引量:6
5
作者 谭晓衡 许可 秦基伟 《西南交通大学学报》 EI CSCD 北大核心 2013年第4期756-760,共5页
讨论了基于MFCC(Mel-frequency cepstral coefficients)特征参数的语音质量客观评价方法 Mel-CD(Mel-cepstral distance measure).根据心理声学原理将Johannesma提出的人耳听觉模型和非线性压缩变换引入MFCC特征参数的提取过程,用Gammat... 讨论了基于MFCC(Mel-frequency cepstral coefficients)特征参数的语音质量客观评价方法 Mel-CD(Mel-cepstral distance measure).根据心理声学原理将Johannesma提出的人耳听觉模型和非线性压缩变换引入MFCC特征参数的提取过程,用Gammatone滤波器组对人耳基底膜进行仿真.利用改进后的MFCC作为语音信号特征参数,提出了一种更加符合人耳听觉感知特性的客观评价方法——Mel-GD(Mel-cepstral gammatone filter bankdistance measure).性能测试结果表明:所提算法与Mel-CD算法在时间复杂度上保持一致,评价结果的主观与客观的相关度提高了4.9%,平均估计偏差改善了45.5%. 展开更多
关键词 语音质量 MFCC gammatone滤波器组 非线性变换
在线阅读 下载PDF
法庭语音比对中话者自身变化性建模方法研究 被引量:2
6
作者 王华朋 姜囡 +1 位作者 刘恩 晁亚东 《计算机工程与应用》 CSCD 北大核心 2019年第8期110-115,214,共7页
针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人... 针对法庭说话人识别中待鉴定人员语音样本不足的问题,提出了一种新的对说话人自身变化性建模的替代性方法以及相应的方差控制算法。使用同条件下的参考数据库构建识别系统的多个相同说话人得分模型,代替检验需要的多个非同期的带检验人员语音样本比较时的得分模型,以获得能反映说话人自身变化性的统计模型。基于目前最新的法庭证据评估的似然比证据强度评估体系,使用MFCC(Mel Frequency Cepstral Coefficients)和GFCC(Gammatone Frequency Cepstral Coefficients)特征对该方法的有效性进行了验证,并对上述特征进行了特征级和决策级融合。实验结果表明:该方法在纯净语音环境和噪声环境下都具有很高的识别率和稳定性,并且特征级融合能进一步提高识别系统的性能。 展开更多
关键词 似然比 证据强度 建模 梅尔频率倒谱系数(MFCC) 伽马通频率倒谱系数(gfcc)
在线阅读 下载PDF
多类型语音特征进化选择算法
7
作者 张小恒 谢文宾 李勇明 《计算机工程与应用》 CSCD 北大核心 2016年第14期150-155,219,共7页
基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式... 基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法(FSF-Wr GAF),该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标(识别率,EER,DET曲线)上都有显著提高。 展开更多
关键词 说话人识别 多类型语音特征 链式智能体遗传算法 伽马通滤波器倒谱系数(gfcc) 梅尔频率倒谱系数(MFCC) 线性预测倒谱系数(LPCC)
在线阅读 下载PDF
一种舰载低信噪比环境下的音频端点检测算法 被引量:3
8
作者 王中正 王鉴 +1 位作者 韩焱 韩星程 《兵器装备工程学报》 CAS CSCD 北大核心 2023年第3期197-203,共7页
针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再... 针对舰载环境下音频端点检测准确率及鲁棒性较低的问题,提出了一种谱减法和朴素贝叶斯分类器相结合的音频端点检测算法。首先提取纯净音频信号MFCC0与GFCC0构建融合特征,与能熵比特征一同作为朴素贝叶斯分类器的输入进行训练及建模,再利用多窗谱谱减法提升待测含噪信号信噪比,提取信号相关特征,朴素贝叶斯分类器根据待测信号特征判断该信号的类别。仿真实验结果表明,该算法针对舰载低信噪比含噪音频信号与传统方法相比有效降低了虚检和漏检,具有更好的准确性及鲁棒性。 展开更多
关键词 音频端点检测 多窗谱谱减法 Mel频率倒谱系数(MFCC) gammatone频率倒谱系数(gfcc) 朴素贝叶斯
在线阅读 下载PDF
基于CASA的噪声环境下的话者辨认
9
作者 李冬冬 唐建 +1 位作者 李然军 李辉 《小型微型计算机系统》 CSCD 北大核心 2016年第5期1107-1111,共5页
传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码... 传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码来设定阈值,从而对测试特征的帧进行选取,将测试特征的帧划分为三类,分别用于重建、保留和丢弃.最终使用重建后的帧和保留的帧进行后续处理,并用于识别过程.实验结果表明,相较于原来的重建系统,该算法的识别率有了一定的提高. 展开更多
关键词 计算听觉场景分析 gammatone频率倒谱系数(gfcc) 理想二值掩码(IBM) 阈值
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部