期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种采用振荡器神经网络的CASA计算模型语音分离算法 被引量:3
1
作者 胡光锐 虞晓 茅晓泉 《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第11期1640-1644,共5页
基于听觉现象分析 (CASA)模型的基本原理 ,在仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA改进模型语音分离算法结构 .文中利用一个实例说明了新算法的具体实现步骤 .讨论了新算法机构中语音听觉外围处理部分和... 基于听觉现象分析 (CASA)模型的基本原理 ,在仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA改进模型语音分离算法结构 .文中利用一个实例说明了新算法的具体实现步骤 .讨论了新算法机构中语音听觉外围处理部分和分割神经网络处理部分 .通过上述两个部分的处理可以将输入混合语音信号在时频域上分割为若干有听觉感知意义的语音听觉感知成分分段 Segments,以便于新算法后续处理部分中语音 Segments的聚类和分离重构输出处理 ,最终完成语音分离任务 . 展开更多
关键词 语音分离 听觉现象分析 振荡器神经网络 听觉感知成分分段 casa模型 语音识别
在线阅读 下载PDF
基于CASA的噪声环境下的话者辨认
2
作者 李冬冬 唐建 +1 位作者 李然军 李辉 《小型微型计算机系统》 CSCD 北大核心 2016年第5期1107-1111,共5页
传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码... 传统的说话人识别系统在噪声环境下的识别率较低.基于计算听觉场景分析得到的二值掩码可以对噪声占主导部分进行重建,从而将与说话人相关的被破坏的信息重建起来.但是重建的效果受到该帧中可靠帧的比例的影响.因此,根据提取的二值掩码来设定阈值,从而对测试特征的帧进行选取,将测试特征的帧划分为三类,分别用于重建、保留和丢弃.最终使用重建后的帧和保留的帧进行后续处理,并用于识别过程.实验结果表明,相较于原来的重建系统,该算法的识别率有了一定的提高. 展开更多
关键词 计算听觉场景分析 Gammatone频率倒谱系数(GFCC) 理想二值掩码(IBM) 阈值
在线阅读 下载PDF
基于计算听觉场景分析的混合语音分离 被引量:2
3
作者 张磊 刘继芳 项学智 《计算机工程》 CAS CSCD 北大核心 2010年第14期24-25,31,共3页
基于计算听觉场景分析的理论,使用onset/offset线索完成混合语音分离研究。将经过外围模型处理后的数据,在时域和频域上分别检测并匹配onset/offset,利用时频图上的onset/offset信息合并片段,实现语音分离。通过对3类混合语料进行实验分... 基于计算听觉场景分析的理论,使用onset/offset线索完成混合语音分离研究。将经过外围模型处理后的数据,在时域和频域上分别检测并匹配onset/offset,利用时频图上的onset/offset信息合并片段,实现语音分离。通过对3类混合语料进行实验分析,得出onset/offset线索可以同时处理清音和浊音,对声音混合类型没有限制,能得到较好的分离效果。 展开更多
关键词 计算听觉场景分析 起始和结束时间 片段
在线阅读 下载PDF
基于过零点双耳时间差的运动声源定位 被引量:3
4
作者 李冰 夏秀渝 +1 位作者 申庆超 周宁 《计算机工程与应用》 CSCD 2012年第9期127-130,共4页
人耳听觉定位的一个主要因素是ITD。在传统的计算声场景分析方法中,对ITD的估计采用对双耳神经发放率做互相关求得。但该方法具有计算量大和抗噪声能力弱两大缺陷,给实现运动声源实时定位带来了巨大瓶颈。对较新的过零时间差(ZCTD)方法... 人耳听觉定位的一个主要因素是ITD。在传统的计算声场景分析方法中,对ITD的估计采用对双耳神经发放率做互相关求得。但该方法具有计算量大和抗噪声能力弱两大缺陷,给实现运动声源实时定位带来了巨大瓶颈。对较新的过零时间差(ZCTD)方法进行了改进,采用Teager能量算子(TEO)提取语音包络截取可靠语音段估计ITD,避免了ZCTD方法中用信噪比的估值提取可靠ITD的繁琐步骤,能够更快速、准确地估计ITD,具有较强的抗噪声能力。将该方法运用到运动声源定位上,提出了基于过零点双耳时间差的运动声源定位模型,通过仿真实验验证了其实现运动声源实时定位的可行性。 展开更多
关键词 计算声场景分析 运动声源定位 过零点 TEAGER能量算子 双耳时间差
在线阅读 下载PDF
基于多基音跟踪的单声道混合语音分离 被引量:1
5
作者 李鹏 关勇 +1 位作者 刘文举 徐波 《计算机应用研究》 CSCD 北大核心 2008年第6期1660-1662,共3页
针对许多计算听觉场景分析系统无法很好地解决多说话人混合语音信号分离的问题,提出了一种基于多基音跟踪的单声道混合语音分离系统。该系统充分利用了多基音跟踪研究的最新成果,通过将多基音跟踪得到的目标语音和干扰语音的基音轨迹信... 针对许多计算听觉场景分析系统无法很好地解决多说话人混合语音信号分离的问题,提出了一种基于多基音跟踪的单声道混合语音分离系统。该系统充分利用了多基音跟踪研究的最新成果,通过将多基音跟踪得到的目标语音和干扰语音的基音轨迹信息结合到分离系统中,有效地改善了分离系统在包括多说话人混合在内的多种干扰情况下的分离效果,为多说话人语音分离问题的解决提供了新的思路。 展开更多
关键词 计算听觉场景分析 多基音跟踪 语音分离
在线阅读 下载PDF
采用聚类神经网络与分离输出语音重构的语音分离算法 被引量:1
6
作者 虞晓 胡光锐 徐雄 《上海交通大学学报》 EI CAS CSCD 北大核心 2000年第6期748-751,共4页
基于听觉现象分析计算模型 ( CASA)的基本原理 ,对仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA计算模型语音分离算法结构 .利用实例说明了算法的具体实现步骤和参数设置 .讨论了该算法结构中各语音听觉感知成分... 基于听觉现象分析计算模型 ( CASA)的基本原理 ,对仅有单通道输入混合语音信号时 ,采用振荡器神经网络 ,提出了一种 CASA计算模型语音分离算法结构 .利用实例说明了算法的具体实现步骤和参数设置 .讨论了该算法结构中各语音听觉感知成分 Segments的聚类过程和对分离输出语音的重构处理部分 ,以及如何采用合适的听觉感知成分聚类规则设计相应的聚类神经网络 ,以完成对应不同输入独立语音源信号的各 Segments的聚类 。 展开更多
关键词 语音分离 聚类神经网络 casa 算法 语音重构
在线阅读 下载PDF
基于计算听觉场景分析的语音混叠信号分离 被引量:1
7
作者 王珊 许刚 《计算机工程》 CAS CSCD 北大核心 2007年第18期211-213,共3页
基于计算听觉场景原理,提出了一种混叠语音信号分离算法模型,对两个说话者的混叠声音进行分离。该模型对低频区和高频区的分离分别采用了不同方法,避免了因采用同样方法处理低频高频区而导致对高频段语音不能很好分离的结果。实验结果表... 基于计算听觉场景原理,提出了一种混叠语音信号分离算法模型,对两个说话者的混叠声音进行分离。该模型对低频区和高频区的分离分别采用了不同方法,避免了因采用同样方法处理低频高频区而导致对高频段语音不能很好分离的结果。实验结果表明,该模型具有很好的应用效果。 展开更多
关键词 计算听觉场景分析 语音分离 基音估计 幅度调制
在线阅读 下载PDF
一种基于上升缘与下降缘的语音分割方法
8
作者 郑荔平 《计算机工程与应用》 CSCD 2012年第5期127-130,共4页
听觉场景分析(Auditory Scene Analysis,ASA)系统能将一个场景分解为与不同声源对应的语音流。分割是ASA的主要步骤,借助分割可将一个听觉场景分解成多个片断。实现基于上升缘和下降缘分析的语音分割系统需检测上升缘与下降缘,通过匹配... 听觉场景分析(Auditory Scene Analysis,ASA)系统能将一个场景分解为与不同声源对应的语音流。分割是ASA的主要步骤,借助分割可将一个听觉场景分解成多个片断。实现基于上升缘和下降缘分析的语音分割系统需检测上升缘与下降缘,通过匹配对应的上升缘与下降缘的波前来生成语音片断,将这些片断重构成语音流。 展开更多
关键词 语音分割 事件检测 多尺度分析 上升缘 下降缘 计算听觉场景分析
在线阅读 下载PDF
基于计算听觉场景分析和语者模型信息的语音识别鲁棒前端研究 被引量:2
9
作者 关勇 李鹏 +1 位作者 刘文举 徐波 《自动化学报》 EI CSCD 北大核心 2009年第4期410-416,共7页
传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition,ASR)系统的鲁棒性问题.本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis,CASA)和语者模型信息的混合语音分离系统.该系统在CASA框架... 传统抗噪算法无法解决人声背景下语音识别(Automatic speech recognition,ASR)系统的鲁棒性问题.本文提出了一种基于计算听觉场景分析(Computational auditory scene analysis,CASA)和语者模型信息的混合语音分离系统.该系统在CASA框架下,利用语者模型信息和因大子最大矢量量化(Factorial-max vector quantization,MAXVQ)方法进行实值掩码估计,实现了两语者混合语音中有效地分离出目标说话人语音的目标,从而为ASR系统提供了鲁棒的识别前端.在语音分离挑战(Speech separation challenge,SSC)数据集上的评估表明,相比基线系统,本文所提出的系统的语音识别正确率提高了15.68%,相关的实验结果也验证了本文提出的多语者识别和实值掩码估计的有效性. 展开更多
关键词 计算听觉场景分析 语音分离 鲁棒语音识别 因子最大矢量量化 语者识别
在线阅读 下载PDF
基于计算听觉场景分析的说话人转换检测 被引量:1
10
作者 杨登舟 刘加 夏善红 《计算机工程》 CAS CSCD 北大核心 2018年第2期316-321,共6页
在短时语音说话人快速转变的说话人转换检测中,用于训练说话人模型的连续语音较短导致模型不稳健,致使说话人转换检测的性能较差。为此,提出一种新的说话人转换检测方法。借鉴人耳听觉处理机制将语音信号分解为多个子带,可以得到准确的... 在短时语音说话人快速转变的说话人转换检测中,用于训练说话人模型的连续语音较短导致模型不稳健,致使说话人转换检测的性能较差。为此,提出一种新的说话人转换检测方法。借鉴人耳听觉处理机制将语音信号分解为多个子带,可以得到准确的浊、清音边界,实现对零散清、浊音子段的拼接。利用贝叶斯信息准则判决语音子段间的疑似转换点,并运用音高特征做区间验证。实验结果表明,该方法在平均语音子段时长为1.34 s的极短语音条件下,可使说话人转换检测的等错率降至23.2%,F1值达到70%。 展开更多
关键词 说话人转换检测 计算听觉场景分析 伽马通能量倒谱系数 音高 贝叶斯信息准则
在线阅读 下载PDF
基于起始和截止时刻的听觉分段
11
作者 申庆超 夏秀渝 +1 位作者 李冰 周宁 《计算机应用》 CSCD 北大核心 2011年第A02期176-180,共5页
分段是计算声场景分析中的一个重要步骤。传统分段是基于响应能量和相邻通道的互相关性,易受干扰,会忽略清音,且计算量大。研究了另一种分段方式:基于语音的起始截止时刻分段。采用一种可纠正失真的包络求取算法获得较准确的信号包络,... 分段是计算声场景分析中的一个重要步骤。传统分段是基于响应能量和相邻通道的互相关性,易受干扰,会忽略清音,且计算量大。研究了另一种分段方式:基于语音的起始截止时刻分段。采用一种可纠正失真的包络求取算法获得较准确的信号包络,然后通过卷积高斯函数和低通滤波器进行频域时域平滑处理,并提出一种简单实用的去除系统延迟的方法,最后检测起始截止时刻并将其组合成段。仿真实验表明此分段方法能准确提取起止时刻,完成强噪声环境下语音信号的分段。 展开更多
关键词 计算声场景分析 分段 起始和截止时刻 包络提取 去除系统延迟
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部