期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于双分支注意力U-Net的语音增强方法 被引量:2
1
作者 曹洁 王宸章 +2 位作者 梁浩鹏 王乔 李晓旭 《计算机应用研究》 CSCD 北大核心 2024年第4期1112-1116,共5页
针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征... 针对语音增强网络对全局语音相关特征提取困难、对语音局部上下文信息的捕捉效果不佳的问题,提出了一种基于双分支注意力U-Net的时域语音增强方法,该方法使用U-Net编码器-解码器结构,将单通道带噪语音经过一维卷积后得到的高维时域特征作为输入。首先利用残差连接设计了基于Conformer的残差卷积来增强网络降噪的能力。其次设计了双分支注意力机制结构,利用全局和局部注意力获取带噪语音中更丰富的上下文信息,同时有效表示长序列特征,提取更多样的特征信息。最后结合时域频域损失函数构建了加权损失函数对网络进行训练,提高网络的语音增强性能。使用了多个指标对增强语音的质量和可懂度等进行评价,在公开数据集Voice Bank+DEMAND上的增强后的语音感知质量(PESQ)为3.11,短时可懂度(STOI)为95%,信号失真度(CSIG)为4.44,噪声失真测(CBAK)为3.60,综合质量测度(COVL)为3.81,其中PESQ相较于SE-Conformer提高了7.6%,相较于TSTNN提高了5.1%。实验结果表明,所提方法在语音降噪的各个指标都表现出更优的实验结果,能够完成语音增强任务的相关要求。 展开更多
关键词 语音增强 双分支注意力机制 时域 单通道
在线阅读 下载PDF
基于双分支注意力网络的青光眼诊断方法
2
作者 张旭刚 赵鲁江 +1 位作者 江志刚 张华 《武汉科技大学学报》 CAS 北大核心 2024年第5期384-393,共10页
通过分割眼底图像的视杯(OC)与视盘(OD)区域并计算二者直径之比得到的杯盘比(CDR)是诊断青光眼的一个重要指标,然而现有视杯/视盘分割方法的准确度较低,为此提出一种基于双分支注意力网络的青光眼诊断方法。首先,在图像输入主干网络前... 通过分割眼底图像的视杯(OC)与视盘(OD)区域并计算二者直径之比得到的杯盘比(CDR)是诊断青光眼的一个重要指标,然而现有视杯/视盘分割方法的准确度较低,为此提出一种基于双分支注意力网络的青光眼诊断方法。首先,在图像输入主干网络前使用边界到像素方向(BPD)方法增强眼底图像的轮廓信息;其次,在网络编码器部分结合ConvNeXt的全局交互优势以及U-Net的局部处理优势,充分提取全局和局部的病理语义信息;最后,在解码器特征重建阶段采用多重注意力融合模块,通过直接和间接映射重组两个编码器和上采样模块提取的平滑和突出特征,深度挖掘目标区域信息,以提高模型对视杯/视盘区域分割的准确性。在REFUGE、DRISHTI-GS和RIM-ONEr3三个具有互补性的临床数据集上进行对比实验,验证了所设计的改进模块在提高眼底图像分割效果上的有效性,而且本文方法可有效平衡OC和OD两个目标区域的分割精度,在定量指标和可视化效果上均优于对比方法。 展开更多
关键词 青光眼 眼底图像 视杯/视盘分割 双分支注意力网络 多重注意力融合模块
在线阅读 下载PDF
基于双分支注意力网络的立体视频压缩
3
作者 唐述 赵瑜 +1 位作者 杨书丽 谢显中 《通信学报》 2025年第8期135-151,共17页
针对现有基于深度学习的立体视频压缩网络几乎只采用卷积操作来提取和融合特征,导致无法有效捕捉局部范围内的非重复纹理细节和忽略了全局特征等缺陷,严重影响了解码过程中图像重建质量的问题,提出了一种双分支注意力网络(DAN),通过开... 针对现有基于深度学习的立体视频压缩网络几乎只采用卷积操作来提取和融合特征,导致无法有效捕捉局部范围内的非重复纹理细节和忽略了全局特征等缺陷,严重影响了解码过程中图像重建质量的问题,提出了一种双分支注意力网络(DAN),通过开发和融合区域范围内的逐像素相似性和整幅图像的全局结构特征,实现更高质量的立体视频压缩编码。首先,提出了一种基于Transformer和通道注意力的局部和全局双分支编解码块(LGEDB),通过融合区域范围内每个像素点的自注意力和每个通道的全局注意力,实现对局部非重复纹理细节和全局结构信息的准确捕捉。其次,提出了一种基于可逆神经网络(INN)和门控机制的双分支高频信息融合模块(DHFFM),通过对运动补偿特征和视差特征中高频信息的准确提取以及逐像素点特征的筛选,实现对运动补偿特征和视差特征的高效融合。实验表明,DAN在相同或更低比特率下能够实现更高质量重建,且模型参数量更少。 展开更多
关键词 深度学习 立体视频压缩编码 双分支注意力 可逆神经网络 门控机制
在线阅读 下载PDF
基于双分支多头注意力的场景图生成方法
4
作者 王立春 付芳玉 +2 位作者 徐凯 徐洪波 尹宝才 《北京工业大学学报》 CAS CSCD 北大核心 2024年第10期1198-1205,共8页
针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景... 针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network, DMA-Net)。该网络由目标检测、物体语义解析和关系语义解析3个模块组成。首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention, O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention, R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签。在公开的视觉基因组(visual genome, VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较。实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度。 展开更多
关键词 场景图生成 上下文融合 分支多头注意力(dual-stream multi-head attention DMA) 目标检测 物体分类 关系分类
在线阅读 下载PDF
融合注意机制的多尺度自适应空洞卷积面部情感识别方法
5
作者 王春影 孟天宇 +2 位作者 张震 葛雄心 杨继伟 《重庆理工大学学报(自然科学)》 北大核心 2025年第5期90-97,共8页
针对面部不连续动作单元的关联特征提取困难,以及不同面部区域对表情识别影响程度不一可能引入无用信息的问题,提出了一种基于双分支注意力机制的多尺度自适应空洞卷积模型(dual branching attention mechanism-adaptive multi-scale di... 针对面部不连续动作单元的关联特征提取困难,以及不同面部区域对表情识别影响程度不一可能引入无用信息的问题,提出了一种基于双分支注意力机制的多尺度自适应空洞卷积模型(dual branching attention mechanism-adaptive multi-scale dilated convolution,DAM-ADCNN)。模型通过双分支注意力机制生成特征映射,表征面部动作单元的局部和全局分布及关联关系;利用多尺度空洞卷积提取面部不连续动作单元的关键特征;采用自适应方式动态调整不同尺度关联特征的权重,以有效减少无用信息的干扰。结果表明,DAM-ADCNN模型在情感识别任务中的表现优于现有方法。在DEAP数据集的唤醒和效价维度上,模型的识别准确率分别提升了3.66%和3.99%。同时,在CK+数据集上,模型的识别准确率提高了3.93%。这些结果证明了DAM-ADCNN模型在面部表情情感识别中的有效性。 展开更多
关键词 面部情感识别 双分支注意力机制 空洞卷积 自适应权重
在线阅读 下载PDF
基于改进MobileNetV3烧结断面火焰图像识别 被引量:5
6
作者 梁秀满 安金铭 +2 位作者 曹晓华 曾凯 王福斌 《电子测量技术》 北大核心 2023年第14期182-187,共6页
烧结机尾断面火焰图像蕴含大量与烧结终点相关的特征信息,充分利用烧结火焰图像特征信息进行在线判断烧结终点状态,具有可行性及工程实际意义。针对烧结机尾断面火焰图像特征信息难以提取、识别精度低以及难以满足实时性等问题,提出一... 烧结机尾断面火焰图像蕴含大量与烧结终点相关的特征信息,充分利用烧结火焰图像特征信息进行在线判断烧结终点状态,具有可行性及工程实际意义。针对烧结机尾断面火焰图像特征信息难以提取、识别精度低以及难以满足实时性等问题,提出一种基于改进的MobileNetV3烧结断面火焰图像识别算法。以MobileNetV3作为烧结终点火焰状态特征信息提取的基础模型,引入注意力机制;改进通道注意力结构,减少特征损失提高识别精度;引入空间注意力机制,设计双分支通道空间注意力模块精确捕捉了红火区在烧结断面火焰图像中的位置和内容信息;引入数据增强和余弦退火学习率来提高模型的泛化能力,并采用冻结训练策略加速模型收敛。在烧结火焰数据集上的实验表明,该算法能够充分利用烧结火焰图像中的特征信息,识别准确率达到97.54%,较改进前提高了6.41%。 展开更多
关键词 分支通道空间注意力模块 MobileNetV3 烧结火焰图像 余弦退火
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部