期刊文献+
共找到117篇文章
< 1 2 6 >
每页显示 20 50 100
Voice activity detection based on deep belief networks using likelihood ratio 被引量:3
1
作者 KIM Sang-Kyun PARK Young-Jin LEE Sangmin 《Journal of Central South University》 SCIE EI CAS CSCD 2016年第1期145-149,共5页
A novel technique is proposed to improve the performance of voice activity detection(VAD) by using deep belief networks(DBN) with a likelihood ratio(LR). The likelihood ratio is derived from the speech and noise spect... A novel technique is proposed to improve the performance of voice activity detection(VAD) by using deep belief networks(DBN) with a likelihood ratio(LR). The likelihood ratio is derived from the speech and noise spectral components that are assumed to follow the Gaussian probability density function(PDF). The proposed algorithm employs DBN learning in order to classify voice activity by using the input signal to calculate the likelihood ratio. Experiments show that the proposed algorithm yields improved results in various noise environments, compared to the conventional VAD algorithms. Furthermore, the DBN based algorithm decreases the detection probability of error with [0.7, 2.6] compared to the support vector machine based algorithm. 展开更多
关键词 voice activity detection likelihood ratio deep belief networks
在线阅读 下载PDF
Speech enhancement through voice activity detection using speech absence probability based on Teager energy 被引量:2
2
作者 PARKYun-sik LEE Sang-min 《Journal of Central South University》 SCIE EI CAS 2013年第2期424-432,共9页
In this work, a novel voice activity detection (VAD) algorithm that uses speech absence probability (SAP) based on Teager energy (TE) was proposed for speech enhancement. The proposed method employs local SAP (... In this work, a novel voice activity detection (VAD) algorithm that uses speech absence probability (SAP) based on Teager energy (TE) was proposed for speech enhancement. The proposed method employs local SAP (LSAP) based on the TE of noisy speech as a feature parameter for voice activity detection (VAD) in each frequency subband, rather than conventional LSAP. Results show that the TE operator can enhance the abiTity to discriminate speech and noise and further suppress noise components. Therefore, TE-based LSAP provides a better representation of LSAP, resulting in improved VAD for estimating noise power in a speech enhancement algorithm. In addition, the presented method utilizes TE-based global SAP (GSAP) derived in each frame as the weighting parameter for modifying the adopted TE operator and improving its performance. The proposed algorithm was evaluated by objective and subjective quality tests under various environments, and was shown to produce better results than the conventional method. 展开更多
关键词 speech enhancement Teager energy speech absence probability voice activity detection
在线阅读 下载PDF
综采工作面对讲系统非平稳噪声低功耗去噪方法
3
作者 杨艺 谭晓 +3 位作者 常亚军 王科平 刘斌斌 王田 《煤炭学报》 北大核心 2025年第7期3692-3706,共15页
综采工作面语音对讲系统面临严重的非平稳噪声干扰。在功耗限制条件下,实现对讲系统的超低信噪比语音去噪,是确保工作面语音信息正确传输的核心技术之一。基于IMCRA算法,提出一种面向综采工作面语音特点的非平稳噪声去除方法 MIMCRA。其... 综采工作面语音对讲系统面临严重的非平稳噪声干扰。在功耗限制条件下,实现对讲系统的超低信噪比语音去噪,是确保工作面语音信息正确传输的核心技术之一。基于IMCRA算法,提出一种面向综采工作面语音特点的非平稳噪声去除方法 MIMCRA。其中,针对先验信噪比估计延迟导致的非平稳噪声估计不准的问题,引入改进2步噪声去除方法。即利用前一帧的先验信噪比和当前帧的纯净语音来滚动估计当前帧的先验信噪比和下一帧的纯净语音,实现了先验信噪比实时估计。针对固定平滑因子对含噪功率谱进行平滑处理容易引起噪声过估计,从而导致语音信息难以提取的问题,引入帧-频动态平滑因子调节机制。以平滑功率谱密度和噪声功率谱密度的最小均方差为依据,对含噪语音的功率谱实现动态平滑处理。针对信噪比过低,噪声去除不彻底的问题,提出一种面向弱语音分量保护的噪声存在概率检测机制。根据2~4 kHz频率范围内,噪声与弱语音能量分布的统计特性差别,对去噪后的信号再进行噪声检测,并消除存在的残余噪声。对比试验结果表明:当输入语音信噪比为-5~10 dB时,MIMCRA算法与IMCRA算法相比,分段信噪比提高约3 dB,分段误差降低约0.3,对数谱距离降低约0.2。特别当语音信噪比为-5 dB时,MIMCRA算法仍然能将分段信噪比提高到-2.799 5 dB,表明该算法对超低信噪比含噪语音有较强的去噪能力。MIMCRA算法在郑煤机最新研发的综采工作面对讲系统中实现了低功耗部署,芯片功耗为16.5~66.0 mW;处理32 ms帧长的语音帧耗时约16 ms,达到实时性要求。 展开更多
关键词 单通道语音降噪 非平稳噪声 语音活动检测 先验信噪比 帧-频动态平滑因子
在线阅读 下载PDF
基于复高斯混合模型的鲁棒VAD算法 被引量:2
4
作者 雷建军 杨震 +1 位作者 刘刚 郭军 《天津大学学报》 EI CAS CSCD 北大核心 2009年第4期353-356,共4页
针对语音激活检测的鲁棒性问题,提出在非平稳噪声环境下使用基于复高斯混合模型的鲁棒语音激活检测算法.算法中假设纯净语音谱满足复高斯混合模型,先验信噪比利用预先训练好的复高斯混合模型计算得到.复高斯混合模型的引入一方面提高了... 针对语音激活检测的鲁棒性问题,提出在非平稳噪声环境下使用基于复高斯混合模型的鲁棒语音激活检测算法.算法中假设纯净语音谱满足复高斯混合模型,先验信噪比利用预先训练好的复高斯混合模型计算得到.复高斯混合模型的引入一方面提高了语音激活检测的性能,另一方面避免了使用基于最小均方误差语音增强的先验信噪比估计过程.实验中使用NOISEX-92噪声库来验证系统在噪声环境下的性能.结果表明,该种算法在非平稳噪声环境下具有良好的检测性能. 展开更多
关键词 复高斯混合模型 语音激活检测 似然比测试
在线阅读 下载PDF
孤独症访谈场景下融入角色信息的说话人日志方法
5
作者 王康月 程铭 +2 位作者 谢奕香 邹小兵 李明 《计算机科学》 北大核心 2025年第2期231-241,共11页
说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然... 说话人日志技术在智能语音转写领域扮演着关键的角色,其核心任务是按照说话人的身份对多人音频进行分割和聚类,以便更好地对音频内容及转写文本进行整理。在医疗访谈领域,说话人日志技术是自动化评估的前置条件。医疗交互对话领域天然存在角色信息,以孤独症辅助诊断为例,典型的情境包括医生、家长和接受诊断的孩子这3种明确定义的角色。但在实际对话中,角色和说话人之间的对应关系可能并非一一对应。例如,在孤独症诊断过程中,每次会话仅涉及一个孩子,而医生或家长的数量却是不确定的。文中认为语音片段中隐含的角色信息与声纹信息可以进行有效的互补,进而降低错误率,故提出一种将角色信息引入序列到序列目标说话人语音活动检测(Seq2Seq-TSVAD)中的方法。在CPEP-3数据集上,说话人日志的错误率(DER)为20.61%,相比Seq2Seq-TSVAD方法降低了9.8%,相比模块化说话人日志方法降低了19.3%,表明孤独症访谈场景下角色信息在提升说话人日志性能方面具有明显的作用。 展开更多
关键词 说话人日志 角色分类 特定说话人语音活动检测 声纹特征提取 孤独症谱系障碍
在线阅读 下载PDF
高干扰环境下基于分布式光纤声波传感的微弱语音信号检测
6
作者 张晨思 王茂宁 +5 位作者 钟羽中 张建伟 刘严才 闫海卫 王伟 晏世伟 《工程科学与技术》 北大核心 2025年第2期29-39,共11页
分布式光纤声波传感器(DAS)可用于隧道塌陷事故中的人员搜救、人声信号定位。但在基于DAS的语音活动检测(VAD)中,使用户外采集的真实数据进行语音提取面临着以下问题:受限于嘈杂的现场环境和有限的采集信号方式,收集到的语音易被复杂强... 分布式光纤声波传感器(DAS)可用于隧道塌陷事故中的人员搜救、人声信号定位。但在基于DAS的语音活动检测(VAD)中,使用户外采集的真实数据进行语音提取面临着以下问题:受限于嘈杂的现场环境和有限的采集信号方式,收集到的语音易被复杂强噪声干扰,无法获得干净的语音数据用于监督训练。为了解决上述问题,本文提出一种基于短期自相关特征的算法(ST-ACF)进行语音活动检测,结合了音高信息和自相关函数检测语音帧的相关谐波特征,使得算法在极低信噪比(小于-10 dB)的DAS环境下仍能提取所有有效人声。ST-ACF算法包括预去噪阶段和语音检测阶段。在预去噪阶段,基于对语音音高信息周期性的研究,设计双通道时间窗口,对两类典型噪声进行预去噪。在语音检测阶段,提出一种改进式自相关函数,考虑特征值和变化幅度两个维度,通过其乘积最大化语音和噪音之间的距离,提高了算法对临界数据的处理能力。算法改进后能得到与特征出现频率匹配的最佳频谱窗口,可利用其寻找局部谐波,并通过分析局部谐波区分语音和非语音。实验使用DAS真实数据和NOISEX-92数据集中的6类噪声,采用指标误帧率对算法进行评估。结果表明,ST-ACF在高能噪声环境中表现优异,误帧率仅为19.74%,相较于基线算法提升了5.91%;同时,在DAS数据集上,ST-ACF也表现出最佳性能。总体而言,通过时间窗口和自相关函数的改进,ST-ACF在处理DAS语音数据时表现出色,对不同噪声环境都具有良好的检测性能,展现出应用于多种复杂场景的潜力,拓展了基于分布式光纤语音信号处理方向的研究。 展开更多
关键词 分布式光纤声波传感 语音端点检测 低信噪比 音高信息 自相关函数
在线阅读 下载PDF
基于双门限的语音端点检测算法改进
7
作者 郭子漾 李国勇 《计算机应用》 北大核心 2025年第S1期101-105,共5页
为了解决语音激活检测(VAD)中传统双门限算法在低信噪比(SNR)时准确率较低的问题,在近年双门限算法研究的基础上提出一种改进算法。首先,设置合适的帧长和帧移,对语音信号进行加窗分帧,并计算整条语音的短时能量和短时过零率(ZCR);其次... 为了解决语音激活检测(VAD)中传统双门限算法在低信噪比(SNR)时准确率较低的问题,在近年双门限算法研究的基础上提出一种改进算法。首先,设置合适的帧长和帧移,对语音信号进行加窗分帧,并计算整条语音的短时能量和短时过零率(ZCR);其次,利用语音信号的前置或结尾静音段的短时特性估计语音的噪声特性,以此设置算法的阈值,并改进增设的过渡和疑似辅音阈值;最后,比较计算结果和阈值,并使用改进后的判断方法确定语音段的起始和结束点位置。理论分析和实验仿真结果表明,与传统的双门限算法相比,改进算法在高SNR环境下性能相似,在低SNR环境下有较大提升。具体地,在SNR为15 dB、10 dB、5 dB和0 dB时,相较于传统双门限算法,改进算法的准确率、召回率和F1值有很大提高。可见,改进算法无论在高SNR还是低SNR环境下的VAD都有较好的效果。 展开更多
关键词 语音激活检测 双门限 动态阈值 短时能量 短时过零率
在线阅读 下载PDF
利用语音VAD和DTX增强Abis接口传输能力的可能性探讨 被引量:1
8
作者 傅永根 陈慧剑 《南京邮电学院学报(自然科学版)》 2003年第1期38-42,共5页
提出了一种提高目前GSM系统中Abis接口线路传输能力的方法———利用语音通信的VAD和DTX进行话音的倍增复用,并对其原理、实现方法、传输性能和影响进行了较为深入的探讨。
关键词 移动通信 ABIS接口 语音活性检测 不连续传输 vad DTX GSM
在线阅读 下载PDF
多模型融合的VoxSRC22说话人日志系统
9
作者 杜雨轩 周若华 《计算机工程与应用》 CSCD 北大核心 2024年第10期164-172,共9页
为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)... 为有效解决“谁在什么时候说话”的问题,提出一种说话人日志方法。该方法由六个模块组成,包括语音活动检测(voice activity detection,VAD)、语音增强、说话人嵌入提取器、说话人聚类、重叠语音检测(overlapping speech detection,OSD)和结果融合。利用语音增强技术可以改善语音活动检测的性能。有效地结合不同的说话人嵌入提取器和聚类算法可以进一步降低系统错误率。在系统融合后处理重叠语音展示了最佳结果。实验结果表明,最佳系统的性能相对基线提升了72%,并在VoxCeleb说话人识别挑战赛(VoxCeleb speaker recognition challenge,VoxSRC)2022评估集上分别实现了5.48%的说话人日志错误率(diarization error rate,DER)和32.10%的杰卡德错误率(Jaccard error rate,JER),排名第四。 展开更多
关键词 说话人日志 语音活动检测 声纹嵌入 说话人聚类 结果融合
在线阅读 下载PDF
一种自适应语音端点检测算法 被引量:6
10
作者 孙战先 储飞黄 王江 《计算机工程与应用》 CSCD 2014年第1期206-210,共5页
针对基于短时能量和短时过零率的语音端点检测算法不能自适应环境,在低信噪比时性能较差问题,提出了一种新算法。该算法利用最小短时能量评估环境噪声,优化参数提取算法,提高了参数本身的抗噪能力和自适应能力,再通过参数融合有效平衡... 针对基于短时能量和短时过零率的语音端点检测算法不能自适应环境,在低信噪比时性能较差问题,提出了一种新算法。该算法利用最小短时能量评估环境噪声,优化参数提取算法,提高了参数本身的抗噪能力和自适应能力,再通过参数融合有效平衡了音节之间的差异,放大了语音与噪声之间的差异,最后通过一个动态检测门限,实现了不同信噪比下的端点检测。 展开更多
关键词 语音活动检测(端点检测) 自适应 噪声评估 特征融合 voice activity detection(vad)
在线阅读 下载PDF
基于Fisher线性判别分析的语音信号端点检测方法 被引量:20
11
作者 王明合 张二华 +1 位作者 唐振民 许昊 《电子与信息学报》 EI CSCD 北大核心 2015年第6期1343-1349,共7页
传统的语音端点检测方法对辅音,特别是受到噪声污染的清音部分与背景噪声之间分离能力不足。针对上述问题,该文提出一种基于Fisher线性判别分析的梅尔频率倒谱系数(F-MFCC)端点检测方法。将清音信号和背景噪声视为两类分类问题,采用Fis... 传统的语音端点检测方法对辅音,特别是受到噪声污染的清音部分与背景噪声之间分离能力不足。针对上述问题,该文提出一种基于Fisher线性判别分析的梅尔频率倒谱系数(F-MFCC)端点检测方法。将清音信号和背景噪声视为两类分类问题,采用Fisher准则求解具有判别信息的最佳投影方向,使得投影后的特征参数具有最小类内散度和最大类间散度,从而增大清音与背景噪声的可分离性。在不同语音库上的实验结果表明,F-MFCC能够在不同信噪比和背景噪声条件下提高语音端点检测的准确率。 展开更多
关键词 语音处理 语音端点检测 梅尔频率倒谱系数 FISHER线性判别分析
在线阅读 下载PDF
语音端点检测技术研究进展 被引量:39
12
作者 韩立华 王博 段淑凤 《计算机应用研究》 CSCD 北大核心 2010年第4期1220-1226,共7页
总结了语音端点检测技术的基本原理、步骤及发展情况,介绍了当前主要语音端点检测算法的研究进展;并对各主要算法的检测性能进行了较详细的分析和比较。最后,总结了语音端点检测技术的发展特征,并展望了该技术的未来发展趋势。
关键词 端点检测 研究进展 发展趋势
在线阅读 下载PDF
基于动态特性的D-LTSV语音端点检测方法 被引量:3
13
作者 赵欢 冯璐 +1 位作者 陈佐 张希翔 《计算机工程》 CAS CSCD 2014年第12期277-281,共5页
端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的... 端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的熵,利用倒谱的动态特性分析方法提取连续帧熵值的动态变化特征。实验结果表明,D-LTSV综合考虑了语音的非平稳性和帧间非平稳性的动态变化情况,具有比LTSV更好的分辨能力,特别是在低性噪比和非平稳噪声的环境下,D-LTSV的分辨能力提升了50.77%,能够准确地进行端点检测,具有更强的鲁棒性。 展开更多
关键词 语音端点检测 语音谱 长时特征 动态特性 分辨力
在线阅读 下载PDF
基于倒谱距离的语音端点检测改进算法 被引量:10
14
作者 王博 郭英 +1 位作者 李宏伟 韩立峰 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2006年第1期59-63,共5页
在讨论传统倒谱距离语音端点检测算法不足的基础上,提出了一种改进方案,该方法首先估计短时信噪比,然后由统计方法确定短时信噪比与门限的关系,进而完成正确的语音端点判决。通过对3种典型噪声环境下信噪比从-5 dB到20 dB的带噪语音信... 在讨论传统倒谱距离语音端点检测算法不足的基础上,提出了一种改进方案,该方法首先估计短时信噪比,然后由统计方法确定短时信噪比与门限的关系,进而完成正确的语音端点判决。通过对3种典型噪声环境下信噪比从-5 dB到20 dB的带噪语音信号进行的仿真实验结果表明,所提方法能更为准确地检测到语音端点。 展开更多
关键词 端点检测 倒谱距离 判决准则 语音增强
在线阅读 下载PDF
基于熵函数的语音端点检测算法研究 被引量:16
15
作者 王博 郭英 韩立峰 《信号处理》 CSCD 北大核心 2009年第3期368-373,共6页
本文在分析基本谱熵端点检测算法局限的基础上,引入基于二阶累积量的门限更新方法,加入短时能量参数,提出基于加权谱熵的检测方法;此外,引入特征空间能量熵定义,建立新的门限确定准则,提出基于特征空间能量熵的检测方法。通过对平稳高... 本文在分析基本谱熵端点检测算法局限的基础上,引入基于二阶累积量的门限更新方法,加入短时能量参数,提出基于加权谱熵的检测方法;此外,引入特征空间能量熵定义,建立新的门限确定准则,提出基于特征空间能量熵的检测方法。通过对平稳高斯白噪声、M109坦克噪声和F16战斗机噪声这三种典型噪声环境下信噪比(SNR)从-5dB到20dB的带噪语音信号进行的仿真实验分析表明,所提两种方法能更为准确地检测到语音的端点。 展开更多
关键词 端点检测 判决准则 语音增强
在线阅读 下载PDF
基于静音检测的ITU-TG.729算法 被引量:5
16
作者 郑洪英 郭东辉 +1 位作者 黄国和 陈彩生 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第4期431-434,共4页
提出了一种能够提高ITU TG .72 9算法性能的静音检测技术 .该技术的引入不仅可以降低G .72 9的语音通讯平均传输比特率 ,而且可以大量节省G .72 9压缩和解压过程的实际运算量 .通过在不同噪声背景下的性能分析 ,该静音检测技术的引入不... 提出了一种能够提高ITU TG .72 9算法性能的静音检测技术 .该技术的引入不仅可以降低G .72 9的语音通讯平均传输比特率 ,而且可以大量节省G .72 9压缩和解压过程的实际运算量 .通过在不同噪声背景下的性能分析 ,该静音检测技术的引入不会对G .72 展开更多
关键词 静音检测 ITU-TG.729算法 语音压缩 语音编码 语音合成 语音通讯 传输比特率
在线阅读 下载PDF
一种新的基于混沌的语音、噪声判别方法 被引量:6
17
作者 林嘉宇 王跃科 +1 位作者 黄芝平 沈振康 《通信学报》 EI CSCD 北大核心 2001年第2期123-128,共6页
语音通信中 ,区别发音段和非发音段具有一定的意义 ,其关键在于提取发音段和非发音段的不同特征参数。本文基于混沌信号处理 ,提出了一种新的语音、噪声判别方法。该方法提取信号在不同相空间重构维下的虚邻点 ,从而根据信号高维虚邻点... 语音通信中 ,区别发音段和非发音段具有一定的意义 ,其关键在于提取发音段和非发音段的不同特征参数。本文基于混沌信号处理 ,提出了一种新的语音、噪声判别方法。该方法提取信号在不同相空间重构维下的虚邻点 ,从而根据信号高维虚邻点平台的不同 ,判别发音段和非发音段 (背景噪声 )以及发音段所含噪声的强弱。本文阐述了该方法的原理 ,讨论了其性能。仿真实验表明 。 展开更多
关键词 话音活动检测 混沌 嵌入维 虚邻点 语音通信 噪声
在线阅读 下载PDF
分组预约多址(PRMA)的性能仿真 被引量:10
18
作者 李建东 李明远 李维英 《通信学报》 EI CSCD 北大核心 1996年第3期114-118,共5页
本文首先给出了分组预约多址(PRMA)的定义和基本性能,然后通过计算机仿真的方法,分析了话音统计特性对PRMA性能的影响。结果表明PRMA系统容量对话音通信过程中的平均有声期的长度变化不敏感,而对话音通信过程中话音激... 本文首先给出了分组预约多址(PRMA)的定义和基本性能,然后通过计算机仿真的方法,分析了话音统计特性对PRMA性能的影响。结果表明PRMA系统容量对话音通信过程中的平均有声期的长度变化不敏感,而对话音通信过程中话音激活因子的变化非常敏感。 展开更多
关键词 分组预约多址 性能仿真 移动通信
在线阅读 下载PDF
基于盲源分离理论的麦克风阵列信号有音/无音检测方法 被引量:4
19
作者 马晓红 梁丽丽 殷福亮 《电子与信息学报》 EI CSCD 北大核心 2007年第3期589-592,共4页
该文提出一种在方向性噪声场中多路麦克风信号同时进行有音/无音检测(VAD)的方法。在方向性噪声场中,由于各个麦克风接收信号中的噪声彼此之间相关,因而,可以利用盲源分离理论将方向噪声与语音源信号分离,从而获得相对比较纯净的语音源... 该文提出一种在方向性噪声场中多路麦克风信号同时进行有音/无音检测(VAD)的方法。在方向性噪声场中,由于各个麦克风接收信号中的噪声彼此之间相关,因而,可以利用盲源分离理论将方向噪声与语音源信号分离,从而获得相对比较纯净的语音源信号。对分离出的语音源信号进行有音/无音检测,获得VAD结果,同时估计出各个麦克风信号相对于该信号的时延值。以相对纯净语音源信号的VAD检测结果为参考,将其分别平移相应的时延值,即可同时获得多路麦克风信号的VAD结果。计算机模拟结果表明,在方向性噪声场的多种情况下,该方法对具有加性噪声的多路麦克风信号均具有较好的有音/无音检测能力。 展开更多
关键词 有音/无音检测 盲源分离 时延估计 广义互相关 四阶统计量
在线阅读 下载PDF
基于幅度谱高阶统计量的鲁棒语音端点检测算法 被引量:6
20
作者 徐耀华 郭英 +2 位作者 王刚 王博 杨旺高 《数据采集与处理》 CSCD 北大核心 2008年第4期390-396,共7页
在频域应用高阶统计量(High order statistics,HOS),提出一种基于幅度谱HOS新特征的语音端点检测(Voice activity detection,VAD)算法。算法利用相邻帧获取当前帧的统计信息,并用幅度谱构造独立零均值高斯随机序列,通过计算此序列的归... 在频域应用高阶统计量(High order statistics,HOS),提出一种基于幅度谱HOS新特征的语音端点检测(Voice activity detection,VAD)算法。算法利用相邻帧获取当前帧的统计信息,并用幅度谱构造独立零均值高斯随机序列,通过计算此序列的归一化偏度来得到HOS特征。新特征利用了噪声的长时平稳特性和无序性的先验信息,借用语音生成模型来分析噪声模型,并通过合理的假定,提取潜藏在幅度谱中的高斯信息。因此相比传统HOS特征只能用于高斯或准高斯白噪声检测,幅度谱HOS适用范围扩展到包括有色噪声在内的所有平稳随机噪声。同时新特征表现出许多优异的特性,如:平稳噪声的特征值趋近于零;语音间隙噪声段和语音结束时呈现出负峰特性等。利用这些特性可以建立适用于不同类型、不同信噪比、且具有随机切入点的强鲁棒性能的VAD算法。文章详细阐述了新特征的原理以及特性,并结合判决准则构造了一个简单的VAD算法。实验结果表明,对于平稳噪声基于幅度谱HOS的VAD算法,在检测的准确性和算法鲁棒性的综合性能上优于基于传统特征的算法。 展开更多
关键词 语音端点检测 高阶累计量 偏度 集成双谱
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部