期刊文献+
共找到108篇文章
< 1 2 6 >
每页显示 20 50 100
基于微波光子信号稳相传输的多路信号增强技术
1
作者 欧阳竑 谢仕锋 +6 位作者 王侠 曾永福 李跃 尹思杰 代丰羽 杨万里 尹怡辉 《光通信技术》 北大核心 2025年第2期81-84,共4页
针对信号在光纤中传输时受到外部环境因素影响,导致传输的光载射频信号相位出现抖动,影响多路信号相干叠加后的信噪比问题,提出一种基于微波光子信号稳相传输的多路信号增强技术。通过设计包含相位测量、控制与调节模块的稳相传输系统,... 针对信号在光纤中传输时受到外部环境因素影响,导致传输的光载射频信号相位出现抖动,影响多路信号相干叠加后的信噪比问题,提出一种基于微波光子信号稳相传输的多路信号增强技术。通过设计包含相位测量、控制与调节模块的稳相传输系统,结合闭环测量和精度调节(粗调10 ps、精调0.1 ps),实现光载射频信号的相位稳定;进一步搭建多路信号传输系统,采用匹配滤波和相位精确合成方法,完成3路信号的相干叠加。实验结果表明:在1.7、2.3 GHz频率下,叠加后的信号功率较单路信号分别提升4.5、5.1 d B,信噪比分别改善2.8、3.44 d B。 展开更多
关键词 微波光子 稳相传输 多路信号 信号增强
在线阅读 下载PDF
新型多通道扭带强化传热性能的数值模拟
2
作者 陆威 熊松宁 +1 位作者 吴志根 刘柏群 《石油化工》 北大核心 2025年第1期15-21,共7页
采用数值模拟的方法,研究了内插具有交替顺、逆时针扭转方向(C-CC)结构的多通道扭带的换热管在Re=6000~12000范围内的流动传热特性。模拟结果表明,插有C-CC结构多通道扭带的换热管的Nu与通道数量(N)和Re呈正相关,与扭转比(T_(R))负相关... 采用数值模拟的方法,研究了内插具有交替顺、逆时针扭转方向(C-CC)结构的多通道扭带的换热管在Re=6000~12000范围内的流动传热特性。模拟结果表明,插有C-CC结构多通道扭带的换热管的Nu与通道数量(N)和Re呈正相关,与扭转比(T_(R))负相关,相对于经典扭带(N=2)最高提升了30.7%;摩擦系数与N呈正相关,与Re和T_(R)负相关,相对于经典扭带最高增加了304%;综合换热因子与Re和N呈负相关,随T_(R)的增加先增加后减小,最高为0.887。较小T_(R)时,所研究的新型C-CC结构多通道扭带有着比常规多通道扭带更好的强化传热性能。 展开更多
关键词 数值模拟 多通道扭带 强化传热 场协同
在线阅读 下载PDF
多任务分解与自适应色彩均衡融合下的敦煌壁画色彩增强
3
作者 邬开俊 单宏全 +2 位作者 魏赟 田彬 王璐璐 《电子科技大学学报》 北大核心 2025年第3期384-392,共9页
针对壁画图像在拍摄过程中存在的环境光色辐射以及由于年代原因形成的色彩退化等问题,提出了多任务分解与自适应色彩均衡融合下的敦煌壁画色彩恢复增强算法。该算法通过分析壁画图像存在的问题,对问题进行任务分解,首先对壁画各通道信... 针对壁画图像在拍摄过程中存在的环境光色辐射以及由于年代原因形成的色彩退化等问题,提出了多任务分解与自适应色彩均衡融合下的敦煌壁画色彩恢复增强算法。该算法通过分析壁画图像存在的问题,对问题进行任务分解,首先对壁画各通道信息提取暗通道信息并进行纹理和细节增强,同时为避免增强后原始壁画上存在的脏点影响色彩增强效果,又对其进行局部滤波处理,并配合自适应色彩均衡模型,使输出壁画不仅在色彩上有了较好地提升,纹理信息也更加丰富。随后采用融合算法,融合自适应色彩均衡与滤波后的结果,使壁画细节及色彩信息更加丰富,壁画图像对比度、能量值以及相关性均得到提升。 展开更多
关键词 敦煌壁画 双向滤波 多任务分解 自适应色彩均衡 通道分离 色彩增强
在线阅读 下载PDF
结合局部强化和改进YOLOv8的隧道螺栓锈蚀检测
4
作者 武晓春 李鲁豫 《计算机工程与应用》 北大核心 2025年第19期249-259,共11页
针对地铁隧道检修环境光线不足,不可避免地导致人工检修螺栓准确率低、漏诊率高的问题,提出了基于局部强化(local enhancement algorithm,LEA)和改进YOLOv8的隧道螺栓锈蚀检测模型(YOLOv8s+LEA+MSSf+FL,YOLO-LMF),将人工检修变为智能检... 针对地铁隧道检修环境光线不足,不可避免地导致人工检修螺栓准确率低、漏诊率高的问题,提出了基于局部强化(local enhancement algorithm,LEA)和改进YOLOv8的隧道螺栓锈蚀检测模型(YOLOv8s+LEA+MSSf+FL,YOLO-LMF),将人工检修变为智能检测,提高检修效率。使用带有邻域检查(neighbor check)的局部强化算法增强螺栓锈蚀部位,使模型更好识别锈蚀特征。提出多尺度通道组混排卷积(multi-scale channel group shuffle convolution,MSCGSC),将MSCGSC融入YOLOv8的C2f(cross stage partial network fusion)模块中,得到新的模块MSSf(multiscale shuffle fusion),使模型更好地学习锈蚀螺栓与色斑在螺栓附近时的不同的表现,提高模型检测精度。考虑到锈蚀螺栓中困难样本限制了模型检测的精度且螺栓样本不平衡的问题,引入了焦点损失函数(focal loss,FL),降低数量庞大的样本在训练中所占的权重,使模型集中对分类困难样本的学习。实验结果表明:所提出的模型相较于原模型分别增长了0.032、0.05、0.011和0.003,参数量减少了10.4%。模型在地铁隧道螺栓数据集上具有更好的表现,能够为地铁隧道维护作业研发检测机器人提供参考,减少隧道养护工人工作量,提高工作效率。 展开更多
关键词 隧道螺栓 局部强化 YOLOv8 多尺度通道组混排卷积 焦点损失
在线阅读 下载PDF
低信噪比下多级特征深度融合的视听语音增强
5
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
面向多模式图像的改进暗通道先验去雾增强
6
作者 卜祥涛 宋亚芳 +4 位作者 王晓宇 姜珊 李德胜 赵宇 李亚红 《光学精密工程》 北大核心 2025年第13期2124-2135,共12页
针对现有算法存在处理图像模式单一和通用性受限的问题,基于暗通道先验提出了一种多模式图像去雾增强算法,对偏振强度、斯托克斯参量、线偏振度不同模式偏振图像和传统的RGB和黑白图像均适用。对偏振图像,利用Kmeans聚类、网格化和双线... 针对现有算法存在处理图像模式单一和通用性受限的问题,基于暗通道先验提出了一种多模式图像去雾增强算法,对偏振强度、斯托克斯参量、线偏振度不同模式偏振图像和传统的RGB和黑白图像均适用。对偏振图像,利用Kmeans聚类、网格化和双线性插值估计大气光值,引入亮度与结构权重估计大气透射率,暗通道计算采用多尺度高斯滤波与基于梯度的自适应权重融合;对RGB、黑白图像,利用K-means聚类并采用天空像素95%分位数估计大气光值,结合高斯拉普拉斯边缘检测和双线性插值估计大气透射率,暗通道计算使用多尺度腐蚀操作和基于局部对比度的权重;在户外薄雾和室内人造浓雾下采集不同模式图像,并与暗通道先验、多尺度Retinex算法的去雾增强效果进行了对比。结果表明:所提算法在图像清晰度、边缘和细节恢复方面取得显著提升,平均梯度、图像熵和峰值信噪比较多尺度Retinex算法,偏振图像最少提升112.6%,14.0%,5.0%,非偏振图像最少提升103.6%,20.6%,21.9%。该算法不仅在增强图像质量方面具有优越性,同时对不同模式图像具有通用性。 展开更多
关键词 图像去雾 图像增强 偏振 暗通道先验 多尺度RETINEX算法
在线阅读 下载PDF
多输入场景通用的一体化语音增强技术 被引量:1
7
作者 张王优 钱彦旻 《信号处理》 北大核心 2025年第9期1494-1512,共19页
智能语音交互系统在实际应用中往往面临着复杂环境中的多样化声学场景特性、麦克风配置等挑战,而基于深度学习的传统语音增强技术往往仅针对单一或有限场景进行设计,难以直接应用于差异较大的应用场景和硬件设备。随着信号处理理论和深... 智能语音交互系统在实际应用中往往面临着复杂环境中的多样化声学场景特性、麦克风配置等挑战,而基于深度学习的传统语音增强技术往往仅针对单一或有限场景进行设计,难以直接应用于差异较大的应用场景和硬件设备。随着信号处理理论和深度学习技术的发展成熟,研究一体化语音增强技术成为解决上述问题的一个重要途径,其旨在构建单个语音增强模型来统一处理来自不同输入场景、具有不同输入形式的语音信号,从而能够克服传统方法适用范围受限的不足。尽管在实际应用中具有巨大潜力和应用价值,这一研究方向仍然处于初步探索阶段,因为大部分语音增强研究仅聚焦于特定场景。为此,本文围绕一体化语音增强方向开展了系统性研究,提出了首个多输入场景通用的一体化语音增强模型──非受限语音增强与分离(Unconstrained Speech Enhancement and Separation,USES),它能够高效处理不同采样率、不同麦克风数量和阵列结构、不同时长以及不同声学场景的语音信号。区别于前人工作,这是首个能够广泛支持不同语音信号输入形式的语音增强研究,在多样化数据准备、模型架构设计、训练框架方面均进行了创新性探索。本文在VoiceBank+DEMAND、DNS-2020、CHiME-4等覆盖多样化场景的经典数据集以及最新的URGENT 2025比赛数据集上进行了广泛实验验证,实验表明本文所提出的模型不仅能够在广泛使用的仿真数据上取得优越性能,也能显著提升在多种真实数据上的增强性能,其中在多通道WSJ0-2mix语音分离数据集和DNS-2020语音降噪数据集上均取得了超过现有方法的最优性能,并首次展现出针对不同采样率、麦克风配置等输入形式的一体化建模能力。进一步分析表明,所提出的一体化方法在实际部署方面也体现出优势,能取得与已有的主流高性能TF-GridNet基线模型接近的性能,同时分别减少52%和51%处理16 kHz和48 kHz语音信号时所需要的计算量。 展开更多
关键词 语音增强 语音分离 去混响 多麦克风 一体化建模
在线阅读 下载PDF
多尺度加权Retinex变压器油下图像增强 被引量:1
8
作者 强虎 钟羽中 佃松宜 《电子与信息学报》 北大核心 2025年第1期223-232,共10页
针对变压器油下图像存在颜色失真、亮度低和细节失真问题,该文提出一种多尺度加权Retinex变压器油下图像增强算法。首先,为了缓解变压器油下图像颜色失真问题,提出一种混合动态颜色通道补偿算法,根据拍摄图像各通道的衰减状态对衰减通... 针对变压器油下图像存在颜色失真、亮度低和细节失真问题,该文提出一种多尺度加权Retinex变压器油下图像增强算法。首先,为了缓解变压器油下图像颜色失真问题,提出一种混合动态颜色通道补偿算法,根据拍摄图像各通道的衰减状态对衰减通道进行动态补偿。然后,为了解决细节失真问题,提出一种锐化权重加权策略。最后,该文创新性采用金字塔多尺度融合策略对不同尺度Retinex反射分量和相应权重图进行加权融合得到变压器油下清晰图像。实验结果表明所提算法可以有效解决变压器油下图像复杂退化问题。 展开更多
关键词 变压器油下图像增强 RETINEX 通道补偿 多尺度加权
在线阅读 下载PDF
并行池化注意力及多特征融合增强目标检测方法 被引量:1
9
作者 程杰 卞长智 +2 位作者 张婧 李小霞 丁楠 《现代电子技术》 北大核心 2025年第5期59-67,共9页
针对通道注意力降维时导致细节信息损失和特征融合不充分的问题,提出一种并行池化注意力及多特征融合增强方法。首先,对输入图像使用两种池化模块并行处理,实现特征注意力增强。其中:熵引导池化模块利用通道信息熵生成特征权重系数,加... 针对通道注意力降维时导致细节信息损失和特征融合不充分的问题,提出一种并行池化注意力及多特征融合增强方法。首先,对输入图像使用两种池化模块并行处理,实现特征注意力增强。其中:熵引导池化模块利用通道信息熵生成特征权重系数,加强边缘纹理等细节信息;方向感知池化模块捕获图像在垂直和水平方向上的空间方向信息,再计算通道均值实现逐步降维保留关键特征。其次,多特征融合增强模块利用特征图尺度的对数函数自适应选取卷积核的大小,再将卷积后的特征分组重塑为与输入图像维度相同的通道、高度和宽度方向上的三个特征子图,并进行元素相乘获得增强特征图。最后,增强特征图与输入图像加权融合,同时增强目标的位置和细节信息。实验结果表明,文中方法在参数量不变的情况下,在VOC2007数据集上,mAP@0.5较YOLOX和YOLOv7分别提升4.62%、4.46%,在COCO数据集上,mAP@0.5较YOLOX和YOLOv7分别提升4.57%、4.63%。 展开更多
关键词 通道注意力 降维 并行池化 多特征融合增强 自适应 目标检测
在线阅读 下载PDF
基于改进YOLOv8n的井下人员多目标检测 被引量:2
10
作者 问永忠 贾澎涛 +2 位作者 夏敏高 张龙刚 王伟峰 《工矿自动化》 北大核心 2025年第1期31-37,77,共8页
针对井下危险区域人员监测视频存在光照不均匀、目标尺度不一致、遮挡等复杂情况,基于YOLOv8n网络结构,提出一种改进的井下人员多目标检测算法—YOLOv8n-MSMLAS。该算法对YOLOv8n的Neck层进行改进,添加多尺度空间增强注意力机制(MultiSE... 针对井下危险区域人员监测视频存在光照不均匀、目标尺度不一致、遮挡等复杂情况,基于YOLOv8n网络结构,提出一种改进的井下人员多目标检测算法—YOLOv8n-MSMLAS。该算法对YOLOv8n的Neck层进行改进,添加多尺度空间增强注意力机制(MultiSEAM),以增强对遮挡目标的检测性能;在C2f模块中引入混合局部通道注意力(MLCA)机制,构建C2f-MLCA模块,以融合局部和全局特征信息,提高特征表达能力;在Head层检测头中嵌入自适应空间特征融合(ASFF)模块,以增强对小尺度目标的检测性能。实验结果表明:(1)与Faster R-CNN,SSD,RT-DETR,YOLOv5s,YOLOv7等主流模型相比,YOLOv8n-MSMLAS综合性能表现最佳,mAP@0.5和mAP@0.5:0.95分别达到93.4%和60.1%,FPS为80.0帧/s,参数量为5.80×106个,较好平衡了模型的检测精度和复杂度。(2)YOLOv8n-MSMLAS在光照不均、目标尺度不一致、遮挡等条件下表现出较好的检测性能,适用于现场检测。 展开更多
关键词 煤矿井下危险区域 井下人员多目标检测 YOLOv8n 多尺度空间增强注意力机制 自适应空间特征融合 轻量化混合局部通道注意力机制
在线阅读 下载PDF
融合双通道卷积和改进型Conformer的两阶段语音增强算法
11
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 CONFORMER 多尺度特征提取 两阶段
在线阅读 下载PDF
基于多通道交互注意力机制与边缘轮廓增强的红外无人机检测
12
作者 聂苏珍 曹杰 +1 位作者 郝群 庄须叶 《红外与毫米波学报》 北大核心 2025年第3期335-345,共11页
无人机因其小巧、轻便、灵活的特点,在农业、物流、救援、赈灾等方面有着广泛的应用。然而如果使用不当或管理不善,不仅会造成个人隐私泄露、财产损失,还可能对公共安全甚至军事安全构成威胁。因此,实时准确地对空域内的无人机进行检测... 无人机因其小巧、轻便、灵活的特点,在农业、物流、救援、赈灾等方面有着广泛的应用。然而如果使用不当或管理不善,不仅会造成个人隐私泄露、财产损失,还可能对公共安全甚至军事安全构成威胁。因此,实时准确地对空域内的无人机进行检测与预警具有重要作用。对此,提出了一种用于红外无人机检测的多通道交互注意力与边缘轮廓增强(Multi-Channel Interactive Attention mechanism and Edge Contour Enhancement,MCIAECE)方法。首先,通过构建多通道交互注意力机制模块和边缘轮廓增强模块组成的双通道对红外图像的浅层和深层特征进行提取,经过注意力机制可以增强目标特征,而边缘轮廓增强则可以获取更多细节信息。然后使用多级特征融合模块将所提取的各层特征进行融合增强,从而获得检测结果。实验结果表明,在3个数据集上用MCIAECE方法都能够达到较好的效果。其中在(NUDT-Single-frame InfraRed Small Target)NUDT-SIRST红外数据集上效果最佳,检测概率和交并比分别为98.83%和85.11%,与基线网络相比分别提高了1.95%和6.88%,与其他方法相比,在目标的边缘轮廓还原方面效果显著。 展开更多
关键词 多通道交互注意力机制 边缘轮廓增强 多级特征融合 红外无人机检测
在线阅读 下载PDF
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
13
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 北大核心 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 CONFORMER DCCRN 复数通道注意力机制
在线阅读 下载PDF
多层次通道融合语音情感识别方法 被引量:1
14
作者 张丽敏 李扬 +1 位作者 蔡浩 燕浩 《计算机科学与探索》 北大核心 2025年第8期2219-2228,共10页
语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音... 语音情感识别是机器情感认知能力的关键,对于提高人机交互质量至关重要。然而,现有研究多聚焦于浅层特征的分析,忽略了多特征融合的优势,同时数据样本量有限,影响了模型的泛化能力,导致语音情感识别准确率不够理想。为了进一步提高语音情感识别的准确率,提出一种基于数据增强和多层次通道融合的语音情感识别方法。将原始语音加入高斯白噪声、音高转换和混合处理三种方法进行数据增强,提高模型的鲁棒性。提出一种基于wav2vec 2.0模型和CNN模型的多层次并行通道网络结构。其中,第一个通道采用wav2vec 2.0模型作为主干网络,学习语音数据的深层表征,再经过两层卷积的CNN模型进行计算;第二个通道提取语音情感浅层特征作为输入,采用五层卷积的CNN模型学习语音数据的浅层表征,更全面地分析语音数据的深层表征和浅层表征。将两个通道输出的表征进行融合,形成深浅结合的多层次语音情感特征体系。所提出的模型在RAVDESS和CASIA数据集上分别进行测试,准确率达到94.38%和98.75%,实验结果验证了所提方法的有效性。 展开更多
关键词 语音情感识别 多层次通道融合 wav2vec 2.0 卷积神经网络(CNN)
在线阅读 下载PDF
复杂场景多目标人语声增强
15
作者 甘涛 梅海浪 +1 位作者 吴嘉鑫 何艳敏 《应用声学》 北大核心 2025年第6期1623-1630,共8页
在复杂噪声场景下进行多目标说话人的语声增强至今仍是一个挑战性任务。现有无监督增强方法效果不理想,有监督个性化增强方法也局限于具有参考语声的特定说话人场景。提出一种复杂场景多目标人语声增强方法,该方法在语声分段的基础上,... 在复杂噪声场景下进行多目标说话人的语声增强至今仍是一个挑战性任务。现有无监督增强方法效果不理想,有监督个性化增强方法也局限于具有参考语声的特定说话人场景。提出一种复杂场景多目标人语声增强方法,该方法在语声分段的基础上,对属于语声库中说话人的语声采用改进的个性化增强方法进行增强,对不属于语声库中说话人的语声采用无监督增强方法进行增强,从而结合了有监督和无监督两类增强方法的优点,达到了更好的语声增强效果。同时,利用增强过程中提取的背景噪声信息对无监督增强预训练模型进行微调,提高了模型对噪声的适应性。实验结果表明,该文方法对复杂噪声下多目标说话人的语声增强效果较现有方法有了显著的提高。 展开更多
关键词 复杂噪声场景 多目标说话人 语声增强
在线阅读 下载PDF
基于图神经网络的多通道语音增强
16
作者 宁振杰 闫坤 +1 位作者 陈海贞 韦焯淇 《计算机工程与设计》 北大核心 2025年第10期2945-2951,共7页
多通道语音增强旨在利用多个麦克风在噪声环境中提取干净语音。然而,缺乏精确的麦克风阵列位置信息和空间信息使得这一过程十分困难。因此,提出了一种能够根据多通道语音信号自动学习邻接矩阵的多通道语音增强网络,称为自动返回邻接矩... 多通道语音增强旨在利用多个麦克风在噪声环境中提取干净语音。然而,缺乏精确的麦克风阵列位置信息和空间信息使得这一过程十分困难。因此,提出了一种能够根据多通道语音信号自动学习邻接矩阵的多通道语音增强网络,称为自动返回邻接矩阵的图卷积网络(automatic adjacency matrix-returning graph convolutional network,AAMR-GCN),通过图自编码器(graph auto-encoder, GAE)从麦克风阵列捕获的语音信号中学习邻接矩阵,利用图卷积网络(graph convolutional network,GCN)和多层感知器(multilayer perceptron,MLP)实现语音增强。在多通道的语音增强任务中,AAMR-GCN在客观语音质量评估(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short-time objective intelligibility,STOI)两个指标上均优于几种先进方法。 展开更多
关键词 多通道语音增强 自动邻接矩阵返回的图卷积网络 图自编码器 多层感知器 麦克风阵列 客观语音质量评估 短时客观可懂度
在线阅读 下载PDF
通道-空间多尺度增强与双池化注意的表情识别网络
17
作者 刘娟 张民扬 +2 位作者 胡敏 黄忠 江巨浪 《计算机应用研究》 北大核心 2025年第10期3182-3191,共10页
针对自然场景下表情特征提取仅关注通道-空间单一尺度信息以及平均池化易丢失局部显著性语义的问题,提出一种通道-空间多尺度增强与双池化注意的表情识别网络。首先,为捕获通道-空间整体多尺度增强语义,设计通道对称级联多尺度模块和空... 针对自然场景下表情特征提取仅关注通道-空间单一尺度信息以及平均池化易丢失局部显著性语义的问题,提出一种通道-空间多尺度增强与双池化注意的表情识别网络。首先,为捕获通道-空间整体多尺度增强语义,设计通道对称级联多尺度模块和空间多尺度特征提取模块,并以此构建基于通道-空间多尺度结构的整体特征增强子网。然后,为表征通道-空间区域双池化显著语义,将高效局部注意力机制改进为高效通道-空间注意力机制,并嵌入到区域特征注意子网。最后,为获取整体多尺度增强语义与区域双池化显著语义之间的潜在相关性,采用交叉注意力机制进行整体特征与区域特征之间的特征交互,并设计特征融合子网完成两类特征的模型级融合。实验结果表明,在人脸表情数据集RAF-DB和FERPlus上,其表情识别率分别达到89.97%和90.26%,比基线网络分别提升了13.54和10.95个百分点。与其他网络相比,提出的网络在自然场景下具有较好的表情识别性能。 展开更多
关键词 人脸表情识别 多尺度增强 双池化注意 通道-空间多尺度结构 高效通道-空间注意力机制
在线阅读 下载PDF
基于减小高频混响和RF-DRSN-EMA的声音事件分类方法
18
作者 曹毅 王彦雯 +2 位作者 李杰 郑植 孙浩 《华南理工大学学报(自然科学版)》 北大核心 2025年第7期70-79,共10页
针对现有声音事件分类方法分类准确率不高、泛化能力不强的问题,该文提出了一种基于减小高频混响和多尺度注意力的频域残差收缩网络(RF-DRSN-EMA)的声音事件分类方法。首先,根据减小声音混响的原理,提出了一种减小高频混响的方法,该方... 针对现有声音事件分类方法分类准确率不高、泛化能力不强的问题,该文提出了一种基于减小高频混响和多尺度注意力的频域残差收缩网络(RF-DRSN-EMA)的声音事件分类方法。首先,根据减小声音混响的原理,提出了一种减小高频混响的方法,该方法仅减小分离出音频中的高频段混响而保留其余频段的关键频率信息,以便在提升语音清晰度的同时尽可能地减小语音失真的影响。然后,以深度残差收缩网络为基础网络,结合改进的频域自校正算法和多尺度注意力模块,提出了多尺度注意力的频域残差收缩网络RF-DRSN-EMA;该网络采用RF自校正模块(其内部的长短距离残差结构能缓解特征坍塌),以实现频域信息的高效采集,并在单元的输出采用多尺度注意力模块,进一步关注单元在输出层的有效信息,以强化模型的表征能力。最后,基于数据集ESC-10、UrbanSound8K和DCASE2020 Task 1A开展了声音事件分类实验。结果表明:该文提出的减小高频混响的语音增强方法能有针对性地减小高频段混响等背景噪音的影响和消除冗余特征,音质损伤较小,从而具有更好的分类性能;RF-DRSN-EMA实现了网络中频域的典型特征去噪以及信息的高效采集,在3个数据集上的最佳分类准确率分别达到98.00%、93.42%、72.80%,从而验证了该方法的有效性和泛化性。 展开更多
关键词 声音事件分类 减小高频混响 频域残差收缩网络 多尺度注意力 语音增强
在线阅读 下载PDF
面向低算力设备的改进轻量化语音识别模型
19
作者 李政霖 介婧 +2 位作者 柴佳辉 郑慧 武晓莉 《计算机工程与设计》 北大核心 2025年第10期2969-2977,共9页
针对语音识别模型在低算力设备上部署难且识别精度低的问题,提出一种改进的轻量化语音识别模型。该模型采用双通道多核卷积结构,以深度残差收缩网络为主要识别单元;引入卷积块注意力模块提高其对通道和空间位置的特征敏感度;结合门控线... 针对语音识别模型在低算力设备上部署难且识别精度低的问题,提出一种改进的轻量化语音识别模型。该模型采用双通道多核卷积结构,以深度残差收缩网络为主要识别单元;引入卷积块注意力模块提高其对通道和空间位置的特征敏感度;结合门控线性单元,提高对长序列语音信息的识别能力;采用非对称卷积策略减少参数量;通过像素注意力引导模块进行特征融合,增强对关键语音信息的捕捉能力。在中文数据集Aishell-1上的实验结果表明,该模型字错误率为12.13%,相较于结果最好的ResNet降低了5.76%,同时其参数量因引入非对称卷积策略降低了40.26%,有效降低了模型的复杂度。 展开更多
关键词 轻量化语音识别模型 双通道多核卷积结构 深度残差收缩网络 卷积块注意力模块 门控线性单元 非对称卷积策略 像素注意力引导模块
在线阅读 下载PDF
基于双分支注意力U-Net的语音增强方法 被引量:3
20
作者 曹洁 王宸章 +2 位作者 梁浩鹏 王乔 李晓旭 《计算机应用研究》 CSCD 北大核心 2024年第4期1112-1116,共5页
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征... 针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 展开更多
关键词 语音增强 双分支注意力机制 时域 单通道
在线阅读 下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部