-
题名基于模型的单通道语音分离综述
被引量:4
- 1
-
-
作者
杨海滨
张军
-
机构
国防科学技术大学信息系统与管理学院
-
出处
《计算机应用研究》
CSCD
北大核心
2010年第11期4025-4031,共7页
-
文摘
语音分离是实现机器听觉的一个重要而基础性的任务,单通道语音分离是语音分离中最为困难的问题。讨论了基于模型的单通道语音分离方法,对说话人依赖的、说话人选择的和说话人独立的三类单通道语音分离问题展开分析,并指出当前方法存在的问题和影响算法性能的关键因素。最后对基于模型的单通道语音分离研究发展方向进行了展望。
-
关键词
单通道语音分离
基于模型
说话人依赖
说话人选择
说话人独立
-
Keywords
single-channel speech separation
model-based
speaker-dependent
speaker-selection
speaker-independent
-
分类号
TP391.42
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于卷积神经网络的端到端语音分离方法
被引量:14
- 2
-
-
作者
范存航
刘斌
陶建华
温正棋
易江燕
-
机构
中国科学院自动化研究所模式识别国家重点实验室
中国科学院大学人工智能学院
中国科学院脑科学与智能技术卓越创新中心
-
出处
《信号处理》
CSCD
北大核心
2019年第4期542-548,共7页
-
基金
国家重点研发计划(2017YFC0820602)
国家自然科学基金(61425017,61831022,61773379,61771472)
中国科学院-法国国家信息与自动化研究所联合研究项目(173211KYSB20170061)
-
文摘
大部分的语音分离系统仅仅增强混合的幅值谱(短时傅里叶变换的系数),但是对于相位谱却不做任何处理。然而,最近的研究表明相位信息对于语音分离的质量起着很重要的作用。为了同时利用幅值和相位信息,本文提出了一种有效的端到端分离方法。这种方法是直接利用原始语音波行点作为特征,是一种基于编解码器的卷积神经网络结构。跟其他的说话人独立的语音分离系统不同,本文提出的方法其神经网络只输出一个说话人的信号,其他的语音可以由混合语音与网络输出信号的差值获得。我们在TIMIT数据集上验证本文提出的方法。实验结果表明,本文提出的方法明显优于句子级别的排列不变性训练(utterance-level permutation invariant training,uPIT)基线方法,对于信号失真比(signal-to-distortion ratio,SDR)相对提高了16.06%。
-
关键词
说话人独立语音分离
鸡尾酒会问题
端到端
卷积编解码器
-
Keywords
speaker independent speech separation
cocktail party problem
end-to-end
convolution encoder decoder
-
分类号
TN912
[电子电信—通信与信息系统]
-