为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征...为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。展开更多
计算机辅助肝脏肿瘤分割可减少医生工作量,提高手术成功率,因而具有重要的临床诊疗价值。为获得精确的肝脏肿瘤自动分割结果,该文结合医学影像分割领域近年新兴的U-Net模块提出了基于级联可分离空洞残差U-Net(cascaded separable and di...计算机辅助肝脏肿瘤分割可减少医生工作量,提高手术成功率,因而具有重要的临床诊疗价值。为获得精确的肝脏肿瘤自动分割结果,该文结合医学影像分割领域近年新兴的U-Net模块提出了基于级联可分离空洞残差U-Net(cascaded separable and dilated residual U-Net, CSDResU-Net)的肝脏肿瘤分割方法。CSDResU-Net采用了级联操作,解决了因肿瘤在整幅图像中占比小而造成的肿瘤分割数据不平衡问题;通过在分割网络中整合残差单元、深度可分离卷积和空洞卷积,能够增加卷积核感受野并快速提取更具判别性的肝脏肿瘤图像特征,从而提高肝脏肿瘤分割精度。在国际医学图像计算和计算机辅助干预协会肝脏肿瘤分割数据库上的实验结果表明,CSDResU-Net比基线方法的Dice系数指标提升了1.3%,同时发现空洞率对分割网络的性能表现影响较大。展开更多
为解决现有医学图像超分辨率重建中存在的图像细节模糊、全局信息利用不充分等问题,提出一种基于空洞卷积与改进的混合注意力机制的医学图像超分辨率重建算法。首先,将深度可分离卷积与空洞卷积相结合,使用不同大小的感受野对图像进行...为解决现有医学图像超分辨率重建中存在的图像细节模糊、全局信息利用不充分等问题,提出一种基于空洞卷积与改进的混合注意力机制的医学图像超分辨率重建算法。首先,将深度可分离卷积与空洞卷积相结合,使用不同大小的感受野对图像进行不同尺度的特征提取,从而增强特征表达能力;其次,引入边缘通道注意力机制,在提取图像高频特征的同时融合边缘信息,从而提高模型的重建精度;再次,混合L1损失与感知损失函数作为整体损失函数,使重建后的图像效果更符合人类视觉感观。实验结果表明,在放大因子为3时,与基于卷积神经网络的图像超分辨率(SRCNN)算法、VDSR(Very Deep convolutional networks Super-Resolution)相比,所提算法的峰值信噪比(PSNR)平均提高了11.29%与7.85%;结构相似性(SSIM)平均提高了5.25%和2.44%。可见,所提算法能增强医学图像的效果与纹理特征,且对图像整体结构还原更加完整。展开更多
文摘为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。
文摘为解决现有医学图像超分辨率重建中存在的图像细节模糊、全局信息利用不充分等问题,提出一种基于空洞卷积与改进的混合注意力机制的医学图像超分辨率重建算法。首先,将深度可分离卷积与空洞卷积相结合,使用不同大小的感受野对图像进行不同尺度的特征提取,从而增强特征表达能力;其次,引入边缘通道注意力机制,在提取图像高频特征的同时融合边缘信息,从而提高模型的重建精度;再次,混合L1损失与感知损失函数作为整体损失函数,使重建后的图像效果更符合人类视觉感观。实验结果表明,在放大因子为3时,与基于卷积神经网络的图像超分辨率(SRCNN)算法、VDSR(Very Deep convolutional networks Super-Resolution)相比,所提算法的峰值信噪比(PSNR)平均提高了11.29%与7.85%;结构相似性(SSIM)平均提高了5.25%和2.44%。可见,所提算法能增强医学图像的效果与纹理特征,且对图像整体结构还原更加完整。