期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
基于生成式算法的序列到序列目标说话人检测和日志系统 被引量:1
1
作者 陈正阳 钱彦旻 《信号处理》 北大核心 2025年第9期1570-1580,共11页
通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可... 通常来说,神经网络说话人日志系统都是通过判别式算法来实现,也就是说给定固定的输入会得到固定的输出。这种方法可能会存在一定的问题,因为说话人日志的标签往往是区域标注,这种标注的说话人区域边界往往存在一定的误差,这些误差也可能会影响判别式算法的训练。最近,生成式算法吸引了很多研究人员的关注,生成式算法的推理过程往往是一个迭代的过程,可以得到更精细的结果。同时,生成式算法对分布建模的本质也会使其受到说话人标签误差的影响比较小。基于神经网络的说话人日志系统大体可分为两类,端到端说话人日志系统和目标说话人活动检测系统。在这篇文章中,我们尝试将生成式算法用到序列到序列的目标说话人检测系统中。在这种目标说话人活动检测系统的实现基础上,实现了两种生成式算法来预测结果的分布,分别是扩散算法(Diffusion)和流匹配算法(Flow-Matching)。在实验中,我们发现在语音活动的二值标签空间上实现生成式算法效果不佳。为此,提出了一个标签自编码器将二值标签序列压缩到一个更加低维且连续的隐空间。在这个隐空间上,我们提出的基于流匹配的算法超过了基线系统。此外,由于生成式算法预测的是结果的分布,因此多次采样生成式算法的结果并不相同。我们发现将流匹配算法多次采样的结果做结果融合还能进一步提升系统,最终系统相比于基线系统取得了大约12%的相对提升。 展开更多
关键词 目标说话人检测 说话人日志 生成式算法 扩散算法 流匹配算法
在线阅读 下载PDF
基于复高斯混合模型的鲁棒VAD算法 被引量:2
2
作者 雷建军 杨震 +1 位作者 刘刚 郭军 《天津大学学报》 EI CAS CSCD 北大核心 2009年第4期353-356,共4页
针对语音激活检测的鲁棒性问题,提出在非平稳噪声环境下使用基于复高斯混合模型的鲁棒语音激活检测算法.算法中假设纯净语音谱满足复高斯混合模型,先验信噪比利用预先训练好的复高斯混合模型计算得到.复高斯混合模型的引入一方面提高了... 针对语音激活检测的鲁棒性问题,提出在非平稳噪声环境下使用基于复高斯混合模型的鲁棒语音激活检测算法.算法中假设纯净语音谱满足复高斯混合模型,先验信噪比利用预先训练好的复高斯混合模型计算得到.复高斯混合模型的引入一方面提高了语音激活检测的性能,另一方面避免了使用基于最小均方误差语音增强的先验信噪比估计过程.实验中使用NOISEX-92噪声库来验证系统在噪声环境下的性能.结果表明,该种算法在非平稳噪声环境下具有良好的检测性能. 展开更多
关键词 复高斯混合模型 语音激活检测 似然比测试
在线阅读 下载PDF
基于双门限的语音端点检测算法改进
3
作者 郭子漾 李国勇 《计算机应用》 北大核心 2025年第S1期101-105,共5页
为了解决语音激活检测(VAD)中传统双门限算法在低信噪比(SNR)时准确率较低的问题,在近年双门限算法研究的基础上提出一种改进算法。首先,设置合适的帧长和帧移,对语音信号进行加窗分帧,并计算整条语音的短时能量和短时过零率(ZCR);其次... 为了解决语音激活检测(VAD)中传统双门限算法在低信噪比(SNR)时准确率较低的问题,在近年双门限算法研究的基础上提出一种改进算法。首先,设置合适的帧长和帧移,对语音信号进行加窗分帧,并计算整条语音的短时能量和短时过零率(ZCR);其次,利用语音信号的前置或结尾静音段的短时特性估计语音的噪声特性,以此设置算法的阈值,并改进增设的过渡和疑似辅音阈值;最后,比较计算结果和阈值,并使用改进后的判断方法确定语音段的起始和结束点位置。理论分析和实验仿真结果表明,与传统的双门限算法相比,改进算法在高SNR环境下性能相似,在低SNR环境下有较大提升。具体地,在SNR为15 dB、10 dB、5 dB和0 dB时,相较于传统双门限算法,改进算法的准确率、召回率和F1值有很大提高。可见,改进算法无论在高SNR还是低SNR环境下的VAD都有较好的效果。 展开更多
关键词 语音激活检测 双门限 动态阈值 短时能量 短时过零率
在线阅读 下载PDF
一种自适应语音端点检测算法 被引量:6
4
作者 孙战先 储飞黄 王江 《计算机工程与应用》 CSCD 2014年第1期206-210,共5页
针对基于短时能量和短时过零率的语音端点检测算法不能自适应环境,在低信噪比时性能较差问题,提出了一种新算法。该算法利用最小短时能量评估环境噪声,优化参数提取算法,提高了参数本身的抗噪能力和自适应能力,再通过参数融合有效平衡... 针对基于短时能量和短时过零率的语音端点检测算法不能自适应环境,在低信噪比时性能较差问题,提出了一种新算法。该算法利用最小短时能量评估环境噪声,优化参数提取算法,提高了参数本身的抗噪能力和自适应能力,再通过参数融合有效平衡了音节之间的差异,放大了语音与噪声之间的差异,最后通过一个动态检测门限,实现了不同信噪比下的端点检测。 展开更多
关键词 语音活动检测(端点检测) 自适应 噪声评估 特征融合 voice activity detection(vad)
在线阅读 下载PDF
基于Fisher线性判别分析的语音信号端点检测方法 被引量:20
5
作者 王明合 张二华 +1 位作者 唐振民 许昊 《电子与信息学报》 EI CSCD 北大核心 2015年第6期1343-1349,共7页
传统的语音端点检测方法对辅音,特别是受到噪声污染的清音部分与背景噪声之间分离能力不足。针对上述问题,该文提出一种基于Fisher线性判别分析的梅尔频率倒谱系数(F-MFCC)端点检测方法。将清音信号和背景噪声视为两类分类问题,采用Fis... 传统的语音端点检测方法对辅音,特别是受到噪声污染的清音部分与背景噪声之间分离能力不足。针对上述问题,该文提出一种基于Fisher线性判别分析的梅尔频率倒谱系数(F-MFCC)端点检测方法。将清音信号和背景噪声视为两类分类问题,采用Fisher准则求解具有判别信息的最佳投影方向,使得投影后的特征参数具有最小类内散度和最大类间散度,从而增大清音与背景噪声的可分离性。在不同语音库上的实验结果表明,F-MFCC能够在不同信噪比和背景噪声条件下提高语音端点检测的准确率。 展开更多
关键词 语音处理 语音端点检测 梅尔频率倒谱系数 FISHER线性判别分析
在线阅读 下载PDF
基于动态特性的D-LTSV语音端点检测方法 被引量:3
6
作者 赵欢 冯璐 +1 位作者 陈佐 张希翔 《计算机工程》 CAS CSCD 2014年第12期277-281,共5页
端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的... 端点检测是语音信号处理的一个关键环节。为提高语音在低性噪比以及非平稳噪声环境下的端点检测性能,在长时信号变化特征(LTSV)的基础上提出一种新的D-LTSV语音端点检测方法。采用Bartlett-Welch方法估计语音谱,分析语音谱在长时域上的熵,利用倒谱的动态特性分析方法提取连续帧熵值的动态变化特征。实验结果表明,D-LTSV综合考虑了语音的非平稳性和帧间非平稳性的动态变化情况,具有比LTSV更好的分辨能力,特别是在低性噪比和非平稳噪声的环境下,D-LTSV的分辨能力提升了50.77%,能够准确地进行端点检测,具有更强的鲁棒性。 展开更多
关键词 语音端点检测 语音谱 长时特征 动态特性 分辨力
在线阅读 下载PDF
基于盲源分离理论的麦克风阵列信号有音/无音检测方法 被引量:4
7
作者 马晓红 梁丽丽 殷福亮 《电子与信息学报》 EI CSCD 北大核心 2007年第3期589-592,共4页
该文提出一种在方向性噪声场中多路麦克风信号同时进行有音/无音检测(VAD)的方法。在方向性噪声场中,由于各个麦克风接收信号中的噪声彼此之间相关,因而,可以利用盲源分离理论将方向噪声与语音源信号分离,从而获得相对比较纯净的语音源... 该文提出一种在方向性噪声场中多路麦克风信号同时进行有音/无音检测(VAD)的方法。在方向性噪声场中,由于各个麦克风接收信号中的噪声彼此之间相关,因而,可以利用盲源分离理论将方向噪声与语音源信号分离,从而获得相对比较纯净的语音源信号。对分离出的语音源信号进行有音/无音检测,获得VAD结果,同时估计出各个麦克风信号相对于该信号的时延值。以相对纯净语音源信号的VAD检测结果为参考,将其分别平移相应的时延值,即可同时获得多路麦克风信号的VAD结果。计算机模拟结果表明,在方向性噪声场的多种情况下,该方法对具有加性噪声的多路麦克风信号均具有较好的有音/无音检测能力。 展开更多
关键词 有音/无音检测 盲源分离 时延估计 广义互相关 四阶统计量
在线阅读 下载PDF
改进的参数自适应的维纳滤波语音增强算法 被引量:8
8
作者 孟欣 马建芬 张雪英 《计算机工程与设计》 北大核心 2017年第3期714-718,共5页
为探究不同的噪声对语音增强算法性能的不同影响,提出一种参数自适应维纳滤波语音增强算法,根据不同的噪声类型,设置不同的参数初始值,做不同的噪声功率谱评估。使用深度神经网络对噪声进行分类,得到准确的分类结果;对不同的噪声,得到... 为探究不同的噪声对语音增强算法性能的不同影响,提出一种参数自适应维纳滤波语音增强算法,根据不同的噪声类型,设置不同的参数初始值,做不同的噪声功率谱评估。使用深度神经网络对噪声进行分类,得到准确的分类结果;对不同的噪声,得到维纳滤波算法与使用声音活动检测(VAD)进行噪声功率谱评估相结合的语音增强算法的最优系数组合。进行系列实验,客观的评价结果表明,该算法在Babble噪声下,5db的信噪比时,能够将PESQ值提高0.25,针对其它的噪声与不同信噪比情况,PESQ值也有相应的提高。 展开更多
关键词 深度神经网络 噪声分类 语音增强 维纳滤波算法 声音活动检测
在线阅读 下载PDF
基于噪声倒谱阈值频谱估计的语音活动检测 被引量:3
9
作者 李宇 郭雷勇 谭洪舟 《计算机工程》 CAS CSCD 北大核心 2011年第14期140-142,共3页
针对低方差频谱估计的语音活动检测(VAD)中Welch频谱估计方法计算量大的问题,提出利用倒谱阈值方法估计VAD中的噪声功率谱。该方法在静音时期为噪声的倒谱设置阈值,利用快速傅里叶变换计算频谱,再更新VAD中的判决阈值。算法复杂度分析... 针对低方差频谱估计的语音活动检测(VAD)中Welch频谱估计方法计算量大的问题,提出利用倒谱阈值方法估计VAD中的噪声功率谱。该方法在静音时期为噪声的倒谱设置阈值,利用快速傅里叶变换计算频谱,再更新VAD中的判决阈值。算法复杂度分析与仿真结果表明,该方法的检测性能与Welch方法相当,计算量降低约18%,同时降低整个VAD的时间复杂度。 展开更多
关键词 语音活动检测 频谱估计 倒谱阈值方法 功率谱密度 快速傅里叶变换
在线阅读 下载PDF
基于小波变分辨率频谱特征的静音检测 被引量:2
10
作者 薛卫 都思丹 叶迎宪 《计算机工程》 CAS CSCD 北大核心 2009年第13期232-233,236,共3页
针对静音检测提出基于小波变分辨率频谱特征的检测算法。算法采用多门限过零率对静音进行初判,并提取多个语音感觉特征与基于小波变分辨率频谱的Mel频率倒谱系数(MFCC)组合成语音特征,通过二分类支持向量机对该特征进行分类实现静音检... 针对静音检测提出基于小波变分辨率频谱特征的检测算法。算法采用多门限过零率对静音进行初判,并提取多个语音感觉特征与基于小波变分辨率频谱的Mel频率倒谱系数(MFCC)组合成语音特征,通过二分类支持向量机对该特征进行分类实现静音检测。测试结果表明,该算法在不同信噪比下语音识别正确率高于G.729b,MFCC特征静音检测算法,基于该算法的视频会议服务器运算量低于使用G.729b静音检测算法的视频系统。 展开更多
关键词 静音检测 小波 变分辨率频谱 支持向量机
在线阅读 下载PDF
基于小波变换C_0复杂度的语音端点检测方法 被引量:3
11
作者 王纲金 赵欢 胡炼 《计算机工程与应用》 CSCD 北大核心 2010年第29期134-136,195,共4页
对传统的C0复杂度语音端点检测方法改进,提出一种基于小波变换的C0复杂度(WC0)方法,其特征门限估计采用模糊C均值聚类算法和贝叶斯信息准则算法,并采用双门限法进行语音端点检测。在TIMIT连续语音库上的实验表明,在低信噪比环境下,WC0... 对传统的C0复杂度语音端点检测方法改进,提出一种基于小波变换的C0复杂度(WC0)方法,其特征门限估计采用模糊C均值聚类算法和贝叶斯信息准则算法,并采用双门限法进行语音端点检测。在TIMIT连续语音库上的实验表明,在低信噪比环境下,WC0法的检测性能明显优于基于传统的C0复杂度法,特别是在车辆噪声和车内噪声环境下,WC0法表现出更好的检测性能。 展开更多
关键词 语音端点检测 C0复杂度 小波变换 模糊C均值聚类算法 贝叶斯信息准则算法
在线阅读 下载PDF
一种用于3G系统中复杂背景噪声环境下的话音激活检测算法 被引量:2
12
作者 陈东 赵胜辉 匡镜明 《通信学报》 EI CSCD 北大核心 2001年第4期45-50,共6页
本文讨论了一种新的应用在 3G自适应多速率系统中复杂背景噪声环境下的话音激活检测算法。这种算法基于谱估计理论和周期信号检测方法 ,应用一个IIR滤波器组把输入窄带语音信号分成九个频带 ,进而估计每个频带的语音信号和背景噪声的电... 本文讨论了一种新的应用在 3G自适应多速率系统中复杂背景噪声环境下的话音激活检测算法。这种算法基于谱估计理论和周期信号检测方法 ,应用一个IIR滤波器组把输入窄带语音信号分成九个频带 ,进而估计每个频带的语音信号和背景噪声的电平 ,结合基音和音调检测 ,在区分语音和移动环境中的大多数背景噪声时表现得足够健壮。最后 ,基于欧洲电信标准委员会建议的 3G平台对这种算法进行了仿真评估 。 展开更多
关键词 话音激活检测 复杂背景噪声估计 第三代移动通信 CDMA
在线阅读 下载PDF
基于隐马尔可夫模型的语音激活检测算法 被引量:4
13
作者 李强 陈浩 陈丁当 《计算机应用》 CSCD 北大核心 2016年第11期3212-3216,共5页
针对现有基于隐马尔可夫模型(HMM)的语音激活检测(VAD)算法对噪声的跟踪性能不佳的问题,提出采用Baum-Welch算法对具有不同特性的噪声进行训练,并生成相应噪声模型,建立噪声库的方法。在语音激活检测时,根据待测语音背景噪声的不同,动... 针对现有基于隐马尔可夫模型(HMM)的语音激活检测(VAD)算法对噪声的跟踪性能不佳的问题,提出采用Baum-Welch算法对具有不同特性的噪声进行训练,并生成相应噪声模型,建立噪声库的方法。在语音激活检测时,根据待测语音背景噪声的不同,动态地匹配噪声库中的噪声模型;同时,为了适应语音信号的实时处理,降低了语音参数提取的复杂度,并对判决阈值提出改进,以保证语音信号帧间的相关性。在不同噪声环境下对改进算法进行性能测试并与自适应多速率编码(AMR)标准、国际电信联盟电信标准分局(ITU-T)的G.729B标准比较,测试结果表明,改进算法在实时语音信号处理中能够有效提高检测的准确率及噪声跟踪能力。 展开更多
关键词 隐马尔可夫模型 语音激活检测 Baum-Welch算法 噪声库 阈值
在线阅读 下载PDF
基于概率密度并联距离的话音检测算法 被引量:1
14
作者 吴其前 张雄伟 邹霞 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2886-2889,共4页
该文提出了一种基于概率密度并联距离的话音激活检测算法。算法根据语音信号和噪声信号的Mel域子带能量概率密度的不同特性,引入并联距离定义构造判决函数,通过判断该函数的值来进行语音激活检测。实验结果表明,在不同信噪比情况下,该... 该文提出了一种基于概率密度并联距离的话音激活检测算法。算法根据语音信号和噪声信号的Mel域子带能量概率密度的不同特性,引入并联距离定义构造判决函数,通过判断该函数的值来进行语音激活检测。实验结果表明,在不同信噪比情况下,该文算法性能优于G.729BVAD算法。 展开更多
关键词 话音激活检测 概率密度 并联距离
在线阅读 下载PDF
基于EEMD域统计模型的话音激活检测算法 被引量:2
15
作者 吴其前 张雄伟 《数据采集与处理》 CSCD 北大核心 2012年第1期51-56,共6页
提出了一种基于EEMD域统计模型的话音激活检测算法。算法首先利用总体平均经验模态分解(Ensemble empirical mode decomposition,EEMD)对带噪语音进行分解,得到信号的本征模式函数(Intrinsicmode function,IMF)分量,选择与原信号的相关... 提出了一种基于EEMD域统计模型的话音激活检测算法。算法首先利用总体平均经验模态分解(Ensemble empirical mode decomposition,EEMD)对带噪语音进行分解,得到信号的本征模式函数(Intrinsicmode function,IMF)分量,选择与原信号的相关性最高的两个分量相加组成主分量;然后对主分量进行频域分解,引入统计模型,求出EEMD域特征参数;最后利用噪声与语音的EEMD域特征参数的不同来进行语音激活检测。实验结果表明,在不同信噪比情况下,本文算法性能优于目前常用的VAD算法,特别在噪声强度大时体现出明显的优势。 展开更多
关键词 话音激活检测 经验模式分解 总体平均经验模式分解 EEMD域统计模型
在线阅读 下载PDF
语音噪声压缩新算法 被引量:1
16
作者 于洪涛 徐静波 冉崇森 《计算机工程与科学》 CSCD 2006年第10期71-73,共3页
本文提出了一种基于VAD的语音噪声抑制方法。这种新算法源于VAD技术及谱减法,它先对含噪声信号进行VAD处理,而后是基于感知掩蔽阈值的谱减法运算,降低噪声,获得清晰的增强信号。与其它算法相比,其效果更好,语音听测试证明了这一点。
关键词 vad 噪声抑制 谱减 感知掩蔽阈值
在线阅读 下载PDF
基于概率决策的自适应跨平台多方会议方案
17
作者 张历卓 贾维嘉 曹慧玲 《计算机应用》 CSCD 北大核心 2010年第10期2825-2827,共3页
针对多方会议的实际应用需求,同时兼顾PDA等小设备的个性特征,提出一种新颖而简单的快速实时自适应跨平台多方会议方案。该方案采用概率决策优先权的方式,即各客户端根据语音能量值和编码后帧长度计算其语音概率值,服务器由语音概率值... 针对多方会议的实际应用需求,同时兼顾PDA等小设备的个性特征,提出一种新颖而简单的快速实时自适应跨平台多方会议方案。该方案采用概率决策优先权的方式,即各客户端根据语音能量值和编码后帧长度计算其语音概率值,服务器由语音概率值决策出当前发言者的语音流,并使用叠加原理将选出的多路流进行混音,最后转发混音后的语音包。该方案弥补了PDA等小设备计算能力弱的缺陷,同时又降低了服务器进行混音操作的运算量。实验结果表明该方案具有算法复杂度低、听觉主观效果好、易在PDA以及手机等硬件设备上实现等特点,可广泛应用在多媒体多方会议跨平台系统的实现中。 展开更多
关键词 3G 跨平台 多方会议 静音检测 混音
在线阅读 下载PDF
基于子频带加权的语音活动检测算法
18
作者 张玲 顾彦飞 何伟 《计算机应用》 CSCD 北大核心 2010年第5期1262-1265,1279,共5页
为了降低噪声及决策导向(DD)参数估计算法的帧延迟特性对语音活动检测(VAD)算法鲁棒性的影响,首先采用两步降噪(TSNR)技术估计算法提高语音瞬变时刻参数估计准确性,并针对语音噪声的频率选择性,通过频带分割,将噪声污染限制到孤立子频带... 为了降低噪声及决策导向(DD)参数估计算法的帧延迟特性对语音活动检测(VAD)算法鲁棒性的影响,首先采用两步降噪(TSNR)技术估计算法提高语音瞬变时刻参数估计准确性,并针对语音噪声的频率选择性,通过频带分割,将噪声污染限制到孤立子频带中,构建了由子频带特征与可靠性因子结合提供判别结果的子频带加权VAD算法。实验表明,此子频带加权算法优于Sohn算法、Cho算法以及G.729B等全频带算法。 展开更多
关键词 统计模型 语音活动检测 两步降噪技术 子频带 决策导向
在线阅读 下载PDF
基于静音识别的改进型ADDPCM语音压缩算法的研究
19
作者 王涌 贾立新 何剑春 《浙江工业大学学报》 CAS 2006年第6期660-663,共4页
针对语音信号振幅较大时传统压缩算法的跟踪性较差的情况,提出了一种新型的改进型自适应ADDPCM语音压缩算法.同时,根据语音信号不连续的特点,压缩算法具有静音识别功能,进一步提高了语音信号的压缩率.压缩算法在8 kHz的A/D采样速率下,... 针对语音信号振幅较大时传统压缩算法的跟踪性较差的情况,提出了一种新型的改进型自适应ADDPCM语音压缩算法.同时,根据语音信号不连续的特点,压缩算法具有静音识别功能,进一步提高了语音信号的压缩率.压缩算法在8 kHz的A/D采样速率下,将实时传输和处理的语音数据减少到了3 kb/s的数据流量,并且解码后的语音恢复信号具有良好的可懂度和较高的语音能量,取得了良好的语音压缩效果.在语音信号压缩算法研究的基础上,利用片上系统单片机C8051F005实现了语音信号的压缩编码和解码,并进行了效果的比较.实验表明,该语音压缩算法有效降低了编码率,提高了传输带宽的利用率,并且恢复的语音信号在振幅较大时取得较好的动态跟踪效果. 展开更多
关键词 语音压缩算法 静音识别 片上系统单片机
在线阅读 下载PDF
基于DSP的实时语音检测的设计与实现 被引量:3
20
作者 杨永超 付中华 蒋冬梅 《计算机应用》 CSCD 北大核心 2008年第2期491-493,498,共4页
提出了一种基于DSP的实时语音检测的方法,通过设置中断服务程序实现DSP与DMA的并行处理,采用双缓冲加一缓冲的方法保持语音连续性,利用短时能量状态转换图的方法对语音进行检测及存储,最后利用自制控制板实现程序控制和状态显示。实验... 提出了一种基于DSP的实时语音检测的方法,通过设置中断服务程序实现DSP与DMA的并行处理,采用双缓冲加一缓冲的方法保持语音连续性,利用短时能量状态转换图的方法对语音进行检测及存储,最后利用自制控制板实现程序控制和状态显示。实验结果表明,检测的语音数据和标注的语音数据相比较平均正确率可达94.98%,有效地实现了语音的实时处理。 展开更多
关键词 数字信号处理器 中断服务程序 语音检测 短时能量
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部