期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于全卷积神经网络多任务学习的时域语音分离
1
作者 孙林慧 王春艳 张蒙 《信号处理》 CSCD 北大核心 2024年第12期2228-2237,共10页
基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳。针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Net... 基于深度神经网络时频掩码进行语音分离时,目标信号相位一般采用混合信号的相位谱,且对性别组合缺乏针对性处理,这导致分离语音的质量不佳。针对该问题,本文提出一种基于全卷积神经网络联合性别组合检测(Fully Convolutional Neural Network-Gender Combination Detection,FCN-GCD)多任务学习的时域语音分离方法。该方法首先在语音分离支路构建全卷积神经网络,该网络的输入为时域两人混合语音信号,输出为目标讲话者的纯净语音信号,运用卷积编码器和反卷积解码器对特征进行压缩和重建,实现端到端的语音分离。其次将混合语音性别组合检测任务整合到语音分离网络中,在两个任务联合约束下获取辅助信息特征和语音分离特征,并将这些深度特征相结合来提升语音分离质量。该FCN-GCD方法是一种时域语音分离方法,不需要进行相位恢复和频域到时域的重构,相比频域处理方法,该处理过程简单,从而提高了运算效率。另外,该方法从混合语音性别组合检测任务中提取有效的辅助信息特征,利用联合特征实现了更有效的语音分离。实验结果表明,与单任务的语音分离方法相比,本文所提出的FCN-GCD方法在男男、女女和男女三种性别组合下均有效提高了语音质量,在语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、信号干扰比(Signalto-Interference Ratio,SIR)、信号失真比(Signal-to-Distortion Ratio,SDR)和信号伪像比(Signal-to-Artifact Ratio,SAR)评价指标上均获得更佳的表现。 展开更多
关键词 深度神经网络 语音分离 卷积神经网络 特征融合 多任务学习
在线阅读 下载PDF
基于时域全卷积网络的语音增强 被引量:7
2
作者 李文志 屈晓旭 《舰船科学技术》 北大核心 2022年第15期139-144,共6页
目前基于深度学习的语音增强方法一般是通过在频域中对语音信号幅度谱进行处理,相位信息受到损失。针对这一问题,提出一种基于时域全卷积网络的语音增强方法。该方法通过设计全卷积神经网络在时域中对语音信号进行处理,保留了信号的原... 目前基于深度学习的语音增强方法一般是通过在频域中对语音信号幅度谱进行处理,相位信息受到损失。针对这一问题,提出一种基于时域全卷积网络的语音增强方法。该方法通过设计全卷积神经网络在时域中对语音信号进行处理,保留了信号的原始相位信息,以含噪语音和纯净语音作为网络的输入和输出,建立时域上的非线性关系,实现以端到端的方式进行语音增强。通过仿真实验表明,提出的基于时域全卷积神络语音增强方法在低信噪比的情况下,能够有效地提高语音质量。 展开更多
关键词 语音增强 时域信号 深度学习 卷积神经网络 卷积网络
在线阅读 下载PDF
基于时间卷积网络的深度聚类说话人语音分离 被引量:1
3
作者 王昕 蒋志翔 +3 位作者 张杨 寇金桥 常新旭 徐冬冬 《计算机工程与设计》 北大核心 2020年第9期2630-2635,共6页
“鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等提出的深度聚类方法,在其基础上进行改进,提出基于时间卷及网络的深度聚类模... “鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等提出的深度聚类方法,在其基础上进行改进,提出基于时间卷及网络的深度聚类模型,以理想二值掩蔽作为分离目标并在公开中文语音数据集下进行实验。实验结果表明,相比传统深度聚类模型,所提模型在训练速度、分离后的语音质量和语音客观可懂度方面都得到了提升。 展开更多
关键词 语音分离 深度聚类模型 时间卷积网络 膨胀卷积 因果卷积 理想二值掩蔽
在线阅读 下载PDF
基于生成对抗网络联合训练的语音分离方法 被引量:3
4
作者 王涛 全海燕 《信号处理》 CSCD 北大核心 2020年第6期1013-1019,共7页
基于深度神经网络的语音分离方法大都在频域上进行训练,并且在训练过程中往往只关注目标语音特征,不考虑干扰语音特征。为此,提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入,保留了信号时延导致的相... 基于深度神经网络的语音分离方法大都在频域上进行训练,并且在训练过程中往往只关注目标语音特征,不考虑干扰语音特征。为此,提出了一种基于生成对抗网络联合训练的语音分离方法。该方法以时域波形作为网络输入,保留了信号时延导致的相位信息。同时,利用对抗机制,使生成模型和判别模型分别训练目标语音和干扰语音的特征,提高了语音分离的有效性。实验中,采用Aishell数据集进行对比测试。结果表明,本文所提方法在三种信噪比条件下都有良好的分离效果,能更好地恢复出目标语音中的高频频段信息。 展开更多
关键词 语音分离 时域波形 生成对抗网络 联合训练
在线阅读 下载PDF
分离通道联合卷积神经网络的自动调制识别 被引量:11
5
作者 郭有为 蒋鸿宇 +1 位作者 周劼 苏建中 《电讯技术》 北大核心 2018年第6期702-707,共6页
针对通信信号的自动调制识别需要大量特征提取的问题,提出了一种分离通道卷积神经网络自动调制识别算法。该算法通过结合深度学习中卷积神经网络(CNN),分别提取时域信号的多通道和分离通道调制特征,再利用融合特征实现不同信号的分类。... 针对通信信号的自动调制识别需要大量特征提取的问题,提出了一种分离通道卷积神经网络自动调制识别算法。该算法通过结合深度学习中卷积神经网络(CNN),分别提取时域信号的多通道和分离通道调制特征,再利用融合特征实现不同信号的分类。仿真结果表明,相比基于CNN的算法,所提算法在高信噪比下针对两个数据集的识别率分别提升7%和18%;此外,相比于基于特征提取的传统识别算法,其高阶调制识别性能平均提升3 d B。 展开更多
关键词 时域信号 自动调制识别 深度学习 卷积神经网络 分离通道
在线阅读 下载PDF
基于卷积编解码器和门控循环单元的语音分离算法 被引量:7
6
作者 陈修凯 陆志华 周宇 《计算机应用》 CSCD 北大核心 2020年第7期2137-2141,共5页
在大部分基于深度学习的语音分离和语音增强算法中,把傅里叶变换后的频谱特征作为神经网络的输入特征,并未考虑到语音信号中的相位信息。然而过去的一些研究表明,尤其是在低信噪比(SNR)条件下,相位信息对于提高语音质量是必不可少的。... 在大部分基于深度学习的语音分离和语音增强算法中,把傅里叶变换后的频谱特征作为神经网络的输入特征,并未考虑到语音信号中的相位信息。然而过去的一些研究表明,尤其是在低信噪比(SNR)条件下,相位信息对于提高语音质量是必不可少的。针对这个问题,提出了一种基于卷积编解码器网络和门控循环单元(CED-GRU)的语音分离算法。首先,利用原始波形既包含幅值信息也包含相位信息的特点,在输入端以混合语音信号的原始波形作为输入特征;其次,通过结合卷积编解码器(CED)网络和门控循环单元(GRU)网络,可以有效解决语音信号中存在的时序问题。提出的改进算法在男性和男性、男性和女性、女性和女性的语音质量的感知评价(PESQ)和短时目标可懂度(STOI)方面,与基于排列不变训练(PIT)算法、基于深度聚类(DC)算法、基于深度吸引网络(DAN)算法相比,分别提高了1.16和0.29、1.37和0.27、1.08和0.3;0.87和0.21、1.11和0.22、0.81和0.24;0.64和0.24、1.01和0.34、0.73和0.29个百分点。实验结果表明,基于CED-GRU的语音分离系统在实际应用中具有较大的价值。 展开更多
关键词 卷积神经网络 卷积编解码器 门控循环单元 端到端 语音分离
在线阅读 下载PDF
一种面向自组织麦克风网络的多通道语音分离方法 被引量:3
7
作者 张盛 杨剑鸣 《信号处理》 CSCD 北大核心 2021年第5期757-762,共6页
针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通... 针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题。本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通道对应特征的权重,以增加少量的额外计算代价达到增强语音分离的效果。压缩激励脊髓模块通过将多通道的特征信息压缩到通道维度,获得全局通道依赖关系的表征,利用激活函数根据通道关系表征对瓶颈单元筛选出有价值的特征信息。瓶颈单元由脊髓网络组成,通过逐步输入的方式生成全局信息和重新配置权重,更有效地处理数据。本文在基于LibriSpeech仿真的多通道版本数据中进行实验,在评估指标SDR和SI-SDR上相比于单通道基线获得了明显的提升,并取得超越最先进的自组织麦克风多通道方法的效果。 展开更多
关键词 多通道语音分离 自组织麦克风网络 深度学习 时域卷积
在线阅读 下载PDF
信号分离在深海定位中的应用
8
作者 袁博 钱鹏 +2 位作者 赵猛 杨馥锦 鹿力成 《应用声学》 北大核心 2025年第1期155-161,共7页
声波在深海中远距离传播时海水吸收、扩展导致传播损失大,接收到的声波能量非常小,同时受到航船风浪等强噪声干扰,声波信号的信噪比非常低。在低信噪比的情况下,信号增强、信号降噪等数据处理方法的效果均降低,对水下目标定位、检测和... 声波在深海中远距离传播时海水吸收、扩展导致传播损失大,接收到的声波能量非常小,同时受到航船风浪等强噪声干扰,声波信号的信噪比非常低。在低信噪比的情况下,信号增强、信号降噪等数据处理方法的效果均降低,对水下目标定位、检测和识别造成很大影响。该文针对水下目标低信噪比定位问题,应用全卷积时域网络,基于信号幅度和相位的解耦,提出了一种快速信噪分离方法。该方法利用了端到端时域分离的深度学习框架,通过线性编码器编码信号,编码之后的信号波形可以通过一组加权函数分离出信号和噪声,最后再使用线性编码器将分离后的信号反转到时域进行目标定位。通过数据仿真验证了该方法的可行性,并对海上实验数据进行处理,取得较好结果。 展开更多
关键词 卷积时域网络 信噪分离 被动定位系统 深海定位
在线阅读 下载PDF
基于循环神经网络的藏语语音识别声学模型 被引量:17
9
作者 黄晓辉 李京 《中文信息学报》 CSCD 北大核心 2018年第5期49-55,共7页
探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与... 探索将循环神经网络和连接时序分类算法应用于藏语语音识别声学建模,实现端到端的模型训练。同时根据声学模型输入与输出的关系,通过在隐含层输出序列上引入时域卷积操作来对网络隐含层时域展开步数进行约简,从而有效提升模型的训练与解码效率。实验结果显示,与传统基于隐马尔可夫模型的声学建模方法相比,循环神经网络模型在藏语拉萨话音素识别任务上具有更好的识别性能,而引入时域卷积操作的循环神经网络声学模型在保持同等识别性能的情况下,拥有更高的训练和解码效率。 展开更多
关键词 循环神经网络 藏语语音识别 声学建模 时域卷积
在线阅读 下载PDF
基于深度学习特征融合和联合约束的单通道语音分离方法 被引量:5
10
作者 孙林慧 王灿 +1 位作者 梁文清 李平安 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3266-3276,共11页
为了提高单通道语音分离性能,该文提出基于深度学习特征融合和联合约束的单通道语音分离方法。传统基于深度学习的分离算法的损失函数只考虑了预测值和真实值的误差,这使得分离后的语音与纯净语音之间误差较大。该文提出一种新的联合约... 为了提高单通道语音分离性能,该文提出基于深度学习特征融合和联合约束的单通道语音分离方法。传统基于深度学习的分离算法的损失函数只考虑了预测值和真实值的误差,这使得分离后的语音与纯净语音之间误差较大。该文提出一种新的联合约束损失函数,该损失函数不仅约束了理想比值掩蔽的预测值和真实值的误差,还惩罚了相应幅度谱的误差。另外,为了充分利用多种特征的互补性,提出一种含特征融合层的卷积神经网络(CNN)结构。利用该CNN提取多通道输入特征的深度特征,并在融合层中将深度特征与声学特征融合用来训练分离模型。由于融合构成的特征含有丰富的语音信息,具有强的语音信号表征能力,使得分离模型预测的掩蔽更加准确。实验结果表明,从信号失真比(SDR)、主观语音质量评估(PESQ)和短时客观可懂度(STOI)3个方面评价,相比其他优秀的基于深度学习的语音分离方法,该方法能够更有效地分离目标语音。 展开更多
关键词 语音分离 联合约束 特征融合 损失函数 卷积神经网络
在线阅读 下载PDF
轻量型胶囊网络语音情感识别方法 被引量:4
11
作者 王颖 高胜 《电子科技大学学报》 EI CAS CSCD 北大核心 2023年第3期423-429,共7页
针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层... 针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层图像特征,利用语谱图来微调整个网络,减弱模型在小数据集上的过拟合现象。再利用夹角余弦来计算动态路由结构中向量的相似度,提高动态路由算法性能。实验结果表明,轻量型胶囊网络的识别率和运算速度均优于对比的7种深度学习网络模型。 展开更多
关键词 胶囊网络 深度可分离卷积 语音情感识别 迁移学习
在线阅读 下载PDF
基于CNN-SVM性别组合分类的单通道语音分离 被引量:2
12
作者 孙林慧 张蒙 梁文清 《信号处理》 CSCD 北大核心 2022年第12期2519-2531,共13页
实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两... 实际语音分离时,混合语音的说话人性别组合相关信息往往是未知的。若直接在普适的模型上进行分离,语音分离效果欠佳。为了更好地进行语音分离,本文提出一种基于卷积神经网络-支持向量机(CNN-SVM)的性别组合判别模型,来确定混合语音的两个说话人是男-男、男-女还是女-女组合,以便选用相应性别组合的分离模型进行语音分离。为了弥补传统单一特征表征性别组合信息不足的问题,本文提出一种挖掘深度融合特征的策略,使分类特征包含更多性别组合类别的信息。本文的基于CNN-SVM性别组合分类的单通道语音分离方法,首先使用卷积神经网络挖掘梅尔频率倒谱系数和滤波器组特征的深度特征,融合这两种深度特征作为性别组合的分类特征,然后利用支持向量机对混合语音性别组合进行识别,最后选择对应性别组合的深度神经网络/卷积神经网络(DNN/CNN)模型进行语音分离。实验结果表明,与传统的单一特征相比,本文所提的深度融合特征可以有效提高混合语音性别组合的识别率;本文所提的语音分离方法在主观语音质量评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR)指标上均优于普适的语音分离模型。 展开更多
关键词 性别组合识别 卷积神经网络-支持向量机 单通道语音分离 深度特征
在线阅读 下载PDF
基于DCNN和BiLSTM的单通道视听融合语音分离方法研究 被引量:6
13
作者 兰朝凤 王顺博 +2 位作者 郭小霞 韩玉兰 康守强 《电子学报》 EI CAS CSCD 北大核心 2023年第4期914-921,共8页
近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实... 近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的“鸡尾酒会”等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(Dilated Convolutions Neural Network,DCNN)和双向长短时记忆(Bi-directional Long Short-Term Memory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(Perceptual Eval-uation of Speech Quality)、STOI(Short-Time Objective Intelligibility)和SDR(Signal-to-Distortion Ratio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37 dB. 展开更多
关键词 视听融合 空洞卷积 双向长短时记忆网络 单通道 语音分离
在线阅读 下载PDF
基于时域波形映射-频域谐波损失的语音增强 被引量:3
14
作者 董宏越 马建芬 张朝霞 《计算机工程与设计》 北大核心 2021年第6期1677-1683,共7页
当前大多数基于时域波形映射的语音增强算法,其损失函数的设计没有考虑到语音频谱谐波结构,为此提出一种基于时域波形映射-频域谐波损失的语音增强算法。使用谐波噪声模型(HNM)对纯净语音进行建模,将建模后得到的频域中的HNM分量作为损... 当前大多数基于时域波形映射的语音增强算法,其损失函数的设计没有考虑到语音频谱谐波结构,为此提出一种基于时域波形映射-频域谐波损失的语音增强算法。使用谐波噪声模型(HNM)对纯净语音进行建模,将建模后得到的频域中的HNM分量作为损失函数中的训练目标;通过最小化频域谐波损失函数,训练全卷积神经网络(FCN),使之产生时域增强语音。实验结果表明,使用频域谐波损失函数训练的时域波形映射语音增强模型具有更好的去噪能力,语音质量和语音可懂度显著提高。 展开更多
关键词 语音增强 谐波噪声模型 卷积神经网络 时域波形映射 频域谐波损失
在线阅读 下载PDF
基于TasNet和NGCC的变压器局放声源定位
15
作者 刘扬 严天峰 +1 位作者 郑礼 张卓 《现代雷达》 北大核心 2025年第5期52-58,共7页
针对变压器局放声源定位准确率较低且延时较长的问题,文中提出了一种基于时域语音分离卷积网络(TasNet)和神经网络类的广义互相关的变压器局放声源定位方法。首先通过麦克风阵列和TasNet对音频序列的特征进行识别并分离,然后基于卷积神... 针对变压器局放声源定位准确率较低且延时较长的问题,文中提出了一种基于时域语音分离卷积网络(TasNet)和神经网络类的广义互相关的变压器局放声源定位方法。首先通过麦克风阵列和TasNet对音频序列的特征进行识别并分离,然后基于卷积神经网络获取局放声源对应的到达时间差估计值,最后通过构建定位框架对变压器局放声源进行定位,从而输出局放声源的位置信息。实验证明,与传统的基于广义互相关-相位变换的方法相比,文中提出的方法显著提高了局放声源定位的准确性和效率。 展开更多
关键词 局放声源定位 神经网络类的广义互相关 时域语音分离卷积网络 到达时间差
在线阅读 下载PDF
基于Stacked-TCN的空间混叠信号单通道盲源分离方法 被引量:8
16
作者 赵孟晨 姚秀娟 +1 位作者 王静 董苏惠 《系统工程与电子技术》 EI CSCD 北大核心 2021年第9期2628-2636,共9页
针对空间互联网星地通信场景中的混叠信号分离精度不足问题,提出了基于深度学习的堆叠时域卷积网络(stacked time-domain convolutional network,Stacked-TCN)分离方法。首先,对混合信号提取编码特征表示。然后,通过时域卷积网络训练得... 针对空间互联网星地通信场景中的混叠信号分离精度不足问题,提出了基于深度学习的堆叠时域卷积网络(stacked time-domain convolutional network,Stacked-TCN)分离方法。首先,对混合信号提取编码特征表示。然后,通过时域卷积网络训练得到源信号的深层特征掩模,将每个信号源的掩模与混合信号编码特征做Hadamard乘积,得到源信号的编码特征表示。最后,使用1-D卷积,对源信号特征进行解码,得到原始波形。实验采用负的比例不变信噪比作为网络训练的损失函数,即单通道盲源分离性能的评价指标。结果表明,Stacked-TCN方法与其他4种算法相比,所提方法具有更好的分离精度和噪声鲁棒性。 展开更多
关键词 欠定盲源分离 同频干扰 单通道 时域卷积网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部