期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
基于时空交互网络的人体行为检测方法研究 被引量:1
1
作者 田青 张浩然 +2 位作者 楚柏青 张正 豆飞 《计算机应用与软件》 北大核心 2025年第4期156-165,共10页
针对现有的人体行为检测方法中,存在特征融合能力较差、时序信息相关性不强和行为边界不明确等问题,提出一种基于时空交互网络的人体行为检测方法。重新设计了双流特征提取模块,在空间流和时空流两个网络之间添加连接层;分别在空间流和... 针对现有的人体行为检测方法中,存在特征融合能力较差、时序信息相关性不强和行为边界不明确等问题,提出一种基于时空交互网络的人体行为检测方法。重新设计了双流特征提取模块,在空间流和时空流两个网络之间添加连接层;分别在空间流和时间流网络中引入改进的空间变换网络和视觉注意力模型;设计基于像素筛选器的特征融合模块,用于重点区域时序信息相关性的计算和两类不同维度特征的聚合;对网络的损失函数进行了优化。在AVA数据集上的实验结果表明该方法在检测精度、速度以及泛化能力上具有优越性。 展开更多
关键词 时空交互网络 人体行为检测 视觉注意力 特征融合 损失函数
在线阅读 下载PDF
基于跨模态特征交互和多尺度重建的红外与可见光图像融合
2
作者 姚睿 王凯 +2 位作者 郭浩帆 胡文涛 田祥瑞 《红外与激光工程》 北大核心 2025年第8期259-270,共12页
针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CF... 针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CFIMRFusion。该算法构建了包括卷积注意力增强模块、编码器网络、跨模态特征交互融合模块和基于多尺度重建的解码器网络的四阶段融合框架。首先,设计卷积注意力增强模块提升弱可见光图像的对比度和纹理可见性,并利用编码器网络从红外图像和增强后的可见光图像中提取深层多尺度特征。然后,提出基于通道-空间注意力的跨模态特征交互融合模块,对红外显著特征和可见光细节特征进行互补融合。最后,为解决使用普通解码器重建图像时出现特征消失等问题,将融合得到的多尺度特征以跳跃连接的方式输入到解码器各级,重建高保真的融合图像。实验结果表明,CFIMRFusion融合图像的细节特征和整体视觉效果优于对比算法;且与最优对比算法相比,融合图像在TNO数据集中平均梯度、边缘强度分别提升了15.8%、18.2%,在LLVIP数据集中互信息、标准差分别提升了11.5%、9.5%,在MSRS数据集中边缘强度提升了10.1%;三个数据集上的融合速度分别为最快对比算法的24.1%、23.86%和25.2%。 展开更多
关键词 图像融合 图像增强 注意力机制 自编码网络 跨模态特征交互
在线阅读 下载PDF
结合CNN-Transformer特征交互的红外与可见光图像融合方法
3
作者 张德银 张裕尧 +1 位作者 李俊佟 吴章辉 《红外技术》 北大核心 2025年第7期813-822,共10页
针对CNN与Transformer提取的特征之间交互作用未充分挖掘而导致的融合图像易产生红外特征分布不均匀、轮廓不清晰以及重要背景信息丢失等问题,本文提出了一种新的结合CNN-Transformer特征交互的红外与可见光图像融合网络。首先,新融合... 针对CNN与Transformer提取的特征之间交互作用未充分挖掘而导致的融合图像易产生红外特征分布不均匀、轮廓不清晰以及重要背景信息丢失等问题,本文提出了一种新的结合CNN-Transformer特征交互的红外与可见光图像融合网络。首先,新融合网络设计了新的空间通道混合注意力机制以提升全局及局部特征的提取效率并得到混合特征块;其次,利用CNN-Transformer的特征交互获取融合混合特征块,并构建多尺度重构网络以实现图像特征重构输出;最后,使用TNO数据集将新融合网络与其它9种融合网络进行对比图像融合实验。实验结果表明,新融合网络获得的融合图像在视觉感知方面表现优异,既突出了红外特征和物体轮廓,又保留了丰富的背景纹理细节;网络在EN、SD、AG、SF、SCD以及VIF指标上相较于现有融合网络平均提高约64.73%、8.17%、69.05%、66.34%、15.39%和25.66%。消融实验证明了新模型的有效性。 展开更多
关键词 CNN-Transformer特征交互 全局特征 混合注意力 图像融合 局部特征
在线阅读 下载PDF
基于特征交互的红外与可见光图像融合
4
作者 戴蓉 黄志勇 +2 位作者 王瑞 谢卫鑫 李建明 《激光与红外》 北大核心 2025年第9期1484-1491,共8页
红外和可见光图像融合旨在结合红外热辐射信息和可见光纹理,生成新图像。传统和深度学习方法通常将两种模态分开处理,限制了模态间的信息交互,难以有效区分互补与冗余信息,导致融合图像容易出现模糊、伪影和细节不清晰等问题。为了解决... 红外和可见光图像融合旨在结合红外热辐射信息和可见光纹理,生成新图像。传统和深度学习方法通常将两种模态分开处理,限制了模态间的信息交互,难以有效区分互补与冗余信息,导致融合图像容易出现模糊、伪影和细节不清晰等问题。为了解决此问题,本文设计了一个基于特征交互的融合网络模型,该模型利用特征交互模块FIM使模态间的特征信息能够进行交互。同时,为了使交互后的互补信息得到充分地利用,设计了交叉注意力融合模块CAFM。为验证所提方法性能,分别在3个数据集中与其他6种方法进行对比实验,实验结果表明,所提方法在视觉效果上纹理清晰,没有出现明显伪影,在定量评估中各指标排名都位于前列。 展开更多
关键词 图像融合 深度学习 特征交互 交叉注意力
在线阅读 下载PDF
基于改进时间融合Transformers的中国大豆需求预测方法
5
作者 刘佳佳 秦晓婧 +5 位作者 李乾川 许世卫 赵继春 王一罡 熊露 梁晓贺 《智慧农业(中英文)》 2025年第4期187-199,共13页
[目的/意义]精准预测大豆需求对保障国家粮食安全、优化产业决策与应对国际贸易变局有着重要的现实意义,而利用时间融合Transformers(Temporal Fusion Transformers,TFT)模型开展中国大豆需求预测时,在特征交互层与注意力权重分配等方... [目的/意义]精准预测大豆需求对保障国家粮食安全、优化产业决策与应对国际贸易变局有着重要的现实意义,而利用时间融合Transformers(Temporal Fusion Transformers,TFT)模型开展中国大豆需求预测时,在特征交互层与注意力权重分配等方面仍存在一定局限。为此,亟需探索一种基于改进TFT模型的预测方法,以提升需求预测的准确性与可解释性。[方法]本研究将深度学习的TFT模型应用到中国大豆需求预测中,提出了一种基于多层动态特征交互(Multi-layer Dynamic Feature Interaction,MDFI)与自适应注意力权重优化(Adaptive Attention Weight Optimization,AAWO)改进的MA-TFT(Improved TFT Model Based on MDFI and AAWO)模型。对包含1980—2024年4652个相关指标的中国大豆需求分析数据集进行数据预处理和特征工程,设计实验将MA-TFT模型分别与自回归差分移动平均模型(Autoregressive Integrated Moving Average Model,ARIMA)、长短期记忆网络(Long Short-Term Memory,LSTM)模型及TFT模型进行预测性能对比,进行了消融实验,同时利用SHAP(SHapley Additive exPlanations)工具可解释性分析影响中国大豆需求的关键特征变量,开展了未来10年的中国大豆需求量预测。[结果和讨论]MA-TFT模型的均方误差(Mean Squared Error,MSE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)分别为0.036和5.89%,决定系数R^(2)为0.91,均高于对比模型,均方根误差(Root Mean Square Error,RMSE)和MAPE分别较基准模型TFT累计降低21.84%和3.44%,表明改进TFT的MA-TFT模型能够捕捉特征间复杂关系,提升预测性能;研究利用SHAP工具可解释性分析发现,MA-TFT模型对影响中国大豆需求关键特征变量的解释稳定性较高;预计2025、2030和2034年中国大豆需求量分别达到11799万吨、11033万吨和11378万吨。[结论]基于改进TFT的MA-TFT模型方法为解决现有大豆需求预测方法精度不足、可解释性不强的实际问题提供了解决思路,也为其他农产品时间序列预测的方法优化与应用提供了参考和借鉴。 展开更多
关键词 时间融合Transformers(TFT) 大豆需求预测 多层动态特征交互 自适应注意力权重优化 可解释性分析
在线阅读 下载PDF
基于双重注意力机制的多尺度指代目标分割方法
6
作者 胡梦楠 王蓉 +1 位作者 张文靖 张琪 《计算机辅助设计与图形学学报》 北大核心 2025年第1期148-156,共9页
针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,... 针对指代分割任务中视觉和语言间缺乏充分的跨模态交互、不同尺寸的目标空间和语义信息存在差异的问题,提出了基于双重注意力机制的多尺度指代目标分割方法.首先,利用语言表达中不同类型的信息关键词来增强视觉和语言特征的跨模态对齐,并使用双重注意力机制捕捉多模态特征间的依赖性,实现模态间和模态内的交互;其次,利用语言特征作为引导,从其他层次的特征中聚合与目标相关的视觉信息,进一步增强特征表示;然后利用双向ConvLSTM以自下而上和自上而下的方式逐步整合低层次的空间细节和高层次的语义信息;最后,利用不同膨胀因子的空洞卷积融合多尺度信息,增加模型对不同尺度分割目标的感知能力.此外,在UNC,UNC+,GRef和ReferIt基准数据集上进行实验,实验结果表明,文中方法在UNC,UNC+,GRef和ReferIt上的oIoU指标分别提高了1.81个百分点、1.26个百分点、0.84个百分点和0.32个百分点,广泛的消融研究也验证了所提方法中各组成部分的有效性. 展开更多
关键词 指代目标分割 跨模态交互 特征增强 注意力机制 多尺度融合
在线阅读 下载PDF
基于交叉模态注意力特征增强的医学视觉问答
7
作者 刘凯 任洪逸 +2 位作者 李蓥 季怡 刘纯平 《计算机工程》 北大核心 2025年第6期49-56,共8页
医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像... 医学视觉问答(Med-VQA)需要对医学图像内容与问题文本内容进行理解与结合,因此设计有效的模态表征及跨模态的融合方法对Med-VQA任务的表现至关重要。目前,Med-VQA方法通常只关注医学图像的全局特征以及单一模态内注意力分布,忽略了图像的局部特征所包含的医学信息与跨模态间的交互作用,从而限制了图像内容理解。针对以上问题,提出一种交叉模态注意力特征增强的Med-VQA模型(CMAG-MVQA)。基于U-Net编码有效增强图像局部特征,从交叉模态协同角度提出选择引导注意力方法,为单模态表征引入其他模态的交互信息,同时利用自注意力机制进一步增强选择引导注意力的图像表征。在VQA-RAD医学问答数据集上的消融与对比实验表明,所提方法在Med-VQA任务上有良好的表现,相比于现有同类方法,其在特征表征上性能得到较好改善。 展开更多
关键词 跨模态交互 注意力机制 医学视觉问答 特征融合 特征增强
在线阅读 下载PDF
基于数据增广与改进YOLOv8的桥梁缺陷检测
8
作者 梁胤杰 南新元 +2 位作者 蔡鑫 李云鹏 勾海光 《广西师范大学学报(自然科学版)》 北大核心 2025年第3期84-97,共14页
为解决干扰背景下桥梁表面缺陷检测精度低、漏检率及误检率高等问题,本文提出一种数据增广与改进YOLOv8的桥梁缺陷检测方法。通过StyleGAN3和深度图像融合方法对少样本数据进行增广。在YOLOv8主干中加入SPD-Conv模块,提升对低分辨率缺... 为解决干扰背景下桥梁表面缺陷检测精度低、漏检率及误检率高等问题,本文提出一种数据增广与改进YOLOv8的桥梁缺陷检测方法。通过StyleGAN3和深度图像融合方法对少样本数据进行增广。在YOLOv8主干中加入SPD-Conv模块,提升对低分辨率缺陷的特征提取能力;颈部在AFPN结构的基础上,设计出AFPN_UCG结构,使网络能更好地处理多尺度信息;在C2f中引入RFCBAMConv和DLKA模块,构建C2f_RD模块,使其精准传递梯度信息,同时能够让网络更有效地捕捉小目标信息;通过DCNv3模块与Dynamic Head相结合设计出新的检测头,其将尺度、空间和任务3种注意力机制结合并使用DCNv3动态调整,进一步提升模型对不规则缺陷的预测性能。经实验,数据增广后mAP@0.5提升了2.4个百分点,改进后的YOLOv8准确率为93.2%,mAP@0.5为91.3%,较原模型分别提高了4.2和4.3个百分点,能够更加精准检测桥梁缺陷。 展开更多
关键词 桥梁缺陷检测 StyleGAN3 YOLOv8 特征融合 注意力卷积 信息交互
在线阅读 下载PDF
注意力引导多任务学习的前列腺癌盆腔淋巴结转移预测
9
作者 张志远 胡冀苏 +3 位作者 张跃跃 钱旭升 周志勇 戴亚康 《上海交通大学学报》 北大核心 2025年第8期1216-1224,共9页
基于前列腺癌原发灶的术前磁共振影像定量特征预测盆腔淋巴结转移(PLNM)是治疗方案制定的重要参考依据.然而,现有预测方法对肿瘤原发灶内部的异质性信息提取不足,导致提取的图像定量特征与PLNM关联性较弱.针对这一问题,提出一种以肿瘤... 基于前列腺癌原发灶的术前磁共振影像定量特征预测盆腔淋巴结转移(PLNM)是治疗方案制定的重要参考依据.然而,现有预测方法对肿瘤原发灶内部的异质性信息提取不足,导致提取的图像定量特征与PLNM关联性较弱.针对这一问题,提出一种以肿瘤分割任务为辅助任务的注意力引导多任务学习网络用于PLNM预测.首先,在肿瘤分割网络中,提出多分支各向异性大核注意力模块,通过不同分支和各向异性大卷积核的融合扩大的感受野以有效捕获肿瘤的局部和全局信息.其次,在PLNM预测网络中,设计多尺度特征交互融合注意力模块,对多尺度特征进行层次化融合筛选.在320例数据集的实验中,所提方法的精度召回曲线下面积值和受试者操作特征曲线下面积值分别为(85.44±2.04)%和(91.86±2.18)%,优于经典的单任务分类方法和多任务方法. 展开更多
关键词 前列腺癌盆腔淋巴结转移 多任务学习 多分支各向异性大核注意力模块 多尺度特征交互融合注意力模块 多参数磁共振
在线阅读 下载PDF
基于多通道交互注意力机制与边缘轮廓增强的红外无人机检测
10
作者 聂苏珍 曹杰 +1 位作者 郝群 庄须叶 《红外与毫米波学报》 北大核心 2025年第3期335-345,共11页
无人机因其小巧、轻便、灵活的特点,在农业、物流、救援、赈灾等方面有着广泛的应用。然而如果使用不当或管理不善,不仅会造成个人隐私泄露、财产损失,还可能对公共安全甚至军事安全构成威胁。因此,实时准确地对空域内的无人机进行检测... 无人机因其小巧、轻便、灵活的特点,在农业、物流、救援、赈灾等方面有着广泛的应用。然而如果使用不当或管理不善,不仅会造成个人隐私泄露、财产损失,还可能对公共安全甚至军事安全构成威胁。因此,实时准确地对空域内的无人机进行检测与预警具有重要作用。对此,提出了一种用于红外无人机检测的多通道交互注意力与边缘轮廓增强(Multi-Channel Interactive Attention mechanism and Edge Contour Enhancement,MCIAECE)方法。首先,通过构建多通道交互注意力机制模块和边缘轮廓增强模块组成的双通道对红外图像的浅层和深层特征进行提取,经过注意力机制可以增强目标特征,而边缘轮廓增强则可以获取更多细节信息。然后使用多级特征融合模块将所提取的各层特征进行融合增强,从而获得检测结果。实验结果表明,在3个数据集上用MCIAECE方法都能够达到较好的效果。其中在(NUDT-Single-frame InfraRed Small Target)NUDT-SIRST红外数据集上效果最佳,检测概率和交并比分别为98.83%和85.11%,与基线网络相比分别提高了1.95%和6.88%,与其他方法相比,在目标的边缘轮廓还原方面效果显著。 展开更多
关键词 多通道交互注意力机制 边缘轮廓增强 多级特征融合 红外无人机检测
在线阅读 下载PDF
基于TLI-DETR的输电线路巡检图像小目标检测方法
11
作者 徐程 郑春厚 +3 位作者 胡祥 王丽丽 张庚生 郭昊博 《智慧电力》 北大核心 2025年第9期117-125,共9页
针对输电线路巡检(TLI)中存在的复杂背景干扰、目标尺度跨度大及器件密集分布导致小目标检测精度低的问题,提出一种适用于TLI的检测变压器(DETR)模型TLI-DETR。首先,通过在骨干网络各阶段末层用多尺度可分离卷积网络替换残差块,提取并... 针对输电线路巡检(TLI)中存在的复杂背景干扰、目标尺度跨度大及器件密集分布导致小目标检测精度低的问题,提出一种适用于TLI的检测变压器(DETR)模型TLI-DETR。首先,通过在骨干网络各阶段末层用多尺度可分离卷积网络替换残差块,提取并融合各阶段输出的特征图作为多尺度特征,以增强小目标特征提取能力;其次,在多尺度特征图中引入通道空间融合交叉注意力机制,抑制图像中背景噪声对小目标检测的干扰;最后,设计层级交互特征融合模块,通过动态调整注意力区域提升密集小目标检测精度。实验结果表明,所提方法在输电线路巡检任务中的综合性能优于当前主流模型,可有效识别输电线路中的小目标部件,有助于发现潜在的安全隐患。 展开更多
关键词 输电线路巡检 小目标检测 多尺度可分离卷积网络 通道空间融合交叉注意力 层级交互特征融合
在线阅读 下载PDF
融合多图卷积的表格学习模型
12
作者 王秋雨 赵韦鑫 +2 位作者 颜怀柏 杨炬龙 彭舰 《计算机工程与设计》 北大核心 2025年第9期2570-2577,共8页
针对现有的表格学习方法在平衡特征与实例关系、构建图表示过程复杂且关注角度单一等问题,本文提出一种基于图神经网络的表格学习模型。该模型分别从表格数据的行和列角度初始化特征嵌入图与实例交互图,融合了数据的局部和全局信息。模... 针对现有的表格学习方法在平衡特征与实例关系、构建图表示过程复杂且关注角度单一等问题,本文提出一种基于图神经网络的表格学习模型。该模型分别从表格数据的行和列角度初始化特征嵌入图与实例交互图,融合了数据的局部和全局信息。模型通过结合图卷积和图注意力的双核卷积模块增强节点嵌入表示,利用基于动态门控的层级池化模块降低图复杂度并保留重要节点差异信息,同时引入自适应融合模块平衡特征与实例关系并提升模型准确性。在5个公开数据集上的实验结果表明,模型性能提升了1~3个百分点;大量消融实验验证了各模块对提升模型学习能力的重要性。 展开更多
关键词 表格学习 特征嵌入 实例交互 图卷积网络 图注意力网络 层级池化 自适应融合
在线阅读 下载PDF
改进YOLOv10的架空输电线路多缺陷检测方法
13
作者 李坤祥 刘大明 《电子测量技术》 北大核心 2025年第9期156-167,共12页
针对输电线路缺陷检测任务中目标尺度多样、背景复杂、目标遮挡,以及现有目标检测算法难以在实时检测的前提下保证检测精度而出现漏检、误检的问题,提出改进YOLOv10的输电线路无人机巡检缺陷检测算法TLDDet。首先设计融合部分卷积和上... 针对输电线路缺陷检测任务中目标尺度多样、背景复杂、目标遮挡,以及现有目标检测算法难以在实时检测的前提下保证检测精度而出现漏检、误检的问题,提出改进YOLOv10的输电线路无人机巡检缺陷检测算法TLDDet。首先设计融合部分卷积和上下文锚点注意力的高效特征融合模块(FC2FA),在降低模型参数量的同时提升模型的特征集成能力。然后使用基于多头自注意力机制的尺度内特征交互模块AIFI增强对小目标的检测效果,该模块通过加强特征图中高级语义信息的表达从而提高模型检测的准确率。最后设计遮挡感知注意网络检测头SEAM-Head,减少由于遮挡问题导致的特征丢失的问题。实验结果表明,所提出的TLDDet较原始模型YOLOv10s参数量减少33%,计算量减少30%,对输电线路多种缺陷的Precision、Recall和mAP50分别提高4.3%、2.4%和3.7%,检测速度达到143 FPS,且与其他实时检测算法的对比中具有更好的检测性能。 展开更多
关键词 输电线路缺陷检测 YOLOv10 实时检测 特征融合 上下文锚点注意力 尺度内特征交互 遮挡感知注意网络
在线阅读 下载PDF
基于复合跨模态交互网络的时序多模态情感分析 被引量:3
14
作者 杨力 钟俊弘 +1 位作者 张赟 宋欣渝 《计算机科学与探索》 CSCD 北大核心 2024年第5期1318-1327,共10页
针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循... 针对多模态情感分析中存在的不同模态间语义特征差异性导致模态融合不充分、交互性弱等问题,通过研究分析不同模态之间存在的潜在关联性,搭建一种基于复合跨模态交互网络的时序多模态情感分析(CCIN-SA)模型。该模型首先使用双向门控循环单元和多头注意力机制提取具有上下文语义信息的文本、视觉和语音模态时序特征;然后,设计跨模态注意力交互层,利用辅助模态的低阶信号不断强化目标模态,使得目标模态学习到辅助模态的信息,捕获模态间的潜在适应性;再将增强后的特征输入到复合特征融合层,通过条件向量进一步捕获不同模态间的相似性,增强重要特征的关联程度,挖掘模态间更深层次的交互性;最后,利用多头注意力机制将复合跨模态强化后的特征与低阶信号做拼接融合,提高模态内部重要特征的权重,保留初始模态独有的特征信息,将得到的多模态融合特征进行最终的情感分类任务。在CMU-MOSI和CMUMOSEI数据集上进行模型评估,结果表明,CCIN-SA模型相比其他现有模型在准确率和F1指标上均有提高,能够有效挖掘不同模态间的关联性,做出更加准确的情感判断。 展开更多
关键词 跨模态交互 注意力机制 特征融合 复合融合层 多模态情感分析
在线阅读 下载PDF
嵌入空间位置信息和多视角特征提取的红外小目标检测 被引量:1
15
作者 何自芬 薛金生 +1 位作者 张印辉 陈光晨 《红外与激光工程》 CSCD 北大核心 2024年第12期185-197,共13页
针对红外小目标图像的低分辨率、特征信息少、识别准确率低等问题,提出嵌入空间位置信息和多视角特征提取(Embedded Spatial Location Information and Multi-view Feature Extraction,ESLIMFE)的红外小目标检测模型。首先,随着网络深... 针对红外小目标图像的低分辨率、特征信息少、识别准确率低等问题,提出嵌入空间位置信息和多视角特征提取(Embedded Spatial Location Information and Multi-view Feature Extraction,ESLIMFE)的红外小目标检测模型。首先,随着网络深度的增加导致特征图分辨率逐渐减小从而丢失细节信息,因此在骨干网络中嵌入空间位置信息融合注意力机制(Spatial Location Information Fusion,SLIF)弥补小目标特征信息。其次,结合C3模块和动态蛇形卷积提出多视角特征提取(Multi-view Feature Extraction,MVFE)模块,通过在不同视角下提取同一特征来增强小目标的特征表达能力。采用大选择核(Large Selection Kernel,LSK)模块,通过使用不同大小的卷积核提取小目标多尺度信息,以提高对红外小目标定位能力。最后,引入基于注意力的尺度内特征交互(Attention-based Intrascale Feature Interaction,AIFI)模块增强特征之间的交互性。在对空红外小目标数据集上进行实验,实验结果表明,mAP75的检测精度为90.5%,mAP50~95检测精度为74.5%,文中模型能够较好地实现对红外小目标精确检测。 展开更多
关键词 空间位置信息 多视角特征提取 动态蛇形卷积 大选择核 基于注意力的尺度内特征交互 红外小目标
在线阅读 下载PDF
混合注意力与多特征交互的去雾算法 被引量:1
16
作者 杨燕 张全君 梁皓博 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2024年第9期56-64,共9页
为解决目前深度学习去雾算法在处理非均匀雾天图像时无法有效利用多尺度特征,导致复原出的图像产生颜色失真、细节恢复不完整等问题,提出了混合注意力与多特征交互的图像去雾算法。首先,利用编码模块提取不同尺度的特征;其次,构造混合... 为解决目前深度学习去雾算法在处理非均匀雾天图像时无法有效利用多尺度特征,导致复原出的图像产生颜色失真、细节恢复不完整等问题,提出了混合注意力与多特征交互的图像去雾算法。首先,利用编码模块提取不同尺度的特征;其次,构造混合注意力模块,从全局角度对图像雾气进行感知,并利用通道注意力机制对不同雾浓度分配权重;然后,设计多特征交互模块,实现不同尺度特征间的信息交换,有效利用低分辨率特征中的语义信息,同时保留了高分辨率特征的空间细节与颜色信息,并利用门控融合模块聚合不同尺度的特征;最后,解码模块对融合后的特征进行重构,得到无雾图像。实验结果表明,运用本文提出的算法恢复的去雾图像不仅主观上颜色自然、细节清晰,而且在客观指标上也优于现有的主流算法。该研究结果可为深度学习去雾研究与应用提供新的方案。 展开更多
关键词 图像去雾 编解码器 混合注意力 多特征交互 门控融合
在线阅读 下载PDF
基于跨模态语义信息增强的多模态情感分析 被引量:3
17
作者 李梦云 张景 +2 位作者 张换香 张晓琳 刘璐瑶 《计算机科学与探索》 CSCD 北大核心 2024年第9期2476-2486,共11页
随着社交网络的发展,人类通过不同的方式表达自己的情感,包括文本、视觉和语音,即多模态。针对以往的多模态情感分析方法未能有效地获取多模态情感特征表示,以及没有充分考虑在多模态特征融合过程中冗余信息对实验的影响,提出了一种基... 随着社交网络的发展,人类通过不同的方式表达自己的情感,包括文本、视觉和语音,即多模态。针对以往的多模态情感分析方法未能有效地获取多模态情感特征表示,以及没有充分考虑在多模态特征融合过程中冗余信息对实验的影响,提出了一种基于跨模态语义信息增强的多模态情感分析模型。该模型采用BiLSTM网络挖掘各单模态内部存在的上下文信息。通过跨模态信息交互机制对多种模态间的信息交互进行建模,得到文本对语音、视觉,语音对文本、视觉,视觉对文本、语音六种信息交互特征,将目标模态相同的信息交互特征进行拼接,得到信息增强后的单模态特征向量,有效地获取模态间共享和补充的深度语义特征。另外,使用多头自注意力机制分别计算原始单模态特征向量和信息增强后的单模态特征向量间存在的语义相关性,提高识别关键情感特征的能力,降低冗余信息对情感分析的负面干扰。在公共数据集CMU-MOSI和CMU-MOSEI的实验结果表明,所提出的模型既能增强情感特征表示,也能有效降低冗余信息的干扰,在多模态情感分类准确率和泛化能力上的表现优于相关工作。 展开更多
关键词 多模态情感分析 信息增强 信息交互 多头注意力机制 特征融合
在线阅读 下载PDF
红外与可见光图像交互自注意力融合方法 被引量:2
18
作者 杨帆 王志社 +1 位作者 孙婧 余朝发 《光子学报》 EI CAS CSCD 北大核心 2024年第6期214-225,共12页
针对现有红外与可见光图像融合方法仅仅依靠局部或全局特征表示,缺乏跨模态特征交互而造成融合性能低的问题,提出一种交互自注意力融合方法,利用Transformer对卷积神经网络提取的局部特征进行全局依赖关系建模,达到结合局部与全局关系... 针对现有红外与可见光图像融合方法仅仅依靠局部或全局特征表示,缺乏跨模态特征交互而造成融合性能低的问题,提出一种交互自注意力融合方法,利用Transformer对卷积神经网络提取的局部特征进行全局依赖关系建模,达到结合局部与全局关系的目的,提高特征表征能力。同时,构建了跨模态注意力交互模型,允许不同空间和独立通道之间以交互方式进行特征传递,以实现特征局部到全局的映射,从而增强两类图像的补充特性。在TNO、M3FD和Roadscene数据集上进行主客观实验,结果表明,与其他7种先进的融合方法相比,该方法在融合性能、模型泛化和计算效率方面都具有明显的优势,验证了方法的有效性和优越性。 展开更多
关键词 图像融合 自注意力机制 特征交互 深度学习 多模态图像
在线阅读 下载PDF
基于加权特征融合与局部特征注意的人种分类
19
作者 董永峰 钟璨 +1 位作者 齐巧玲 李林昊 《计算机工程与设计》 北大核心 2024年第9期2683-2689,共7页
为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型... 为充分利用浅层特征中的细节纹理信息对人种特性的描述能力,挖掘具有区分性部位的表达特征对人种分类的作用,更好利用数据不同层次的特征与区分性部位以提供更具鲁棒性的人种信息,提出一种基于加权特征融合与局部特征注意的人种分类模型(weighted feature fusion and local feature attention model,WFLA)。模型设计加权特征融合模块增强浅层与深层特征的交互,构建局部特征注意模块重点关注区分性部位。在3个公开数据集中的大规模验证实验验证了WFLA模型在人种分类任务中具有明显优势。 展开更多
关键词 人种分类 注意力机制 多层融合 深度学习 局部特征 特征提取 特征交互
在线阅读 下载PDF
融合标签特征和胶囊注意力的口语理解方法
20
作者 李丹涛 曾碧 +1 位作者 魏鹏飞 蔡佳 《计算机工程与设计》 北大核心 2024年第8期2484-2491,共8页
针对目前意图检测和槽位填充联合学习中未充分考虑交互前标签特征信息的有效提取和融合,缺乏对交互后标签特征的提炼问题,提出一种融合标签特征和胶囊注意力的口语理解方法。主要由意图与槽位标签特征融合交互(label feature fusion int... 针对目前意图检测和槽位填充联合学习中未充分考虑交互前标签特征信息的有效提取和融合,缺乏对交互后标签特征的提炼问题,提出一种融合标签特征和胶囊注意力的口语理解方法。主要由意图与槽位标签特征融合交互(label feature fusion interactive, LFFI)和多头胶囊注意力机制(multi-head capsule attention, MHCA)两大关键模组组成。LFFI-MHCA通过LFFI提取序列中有效的意图和槽位标签信息,对两者进行融合和交互;利用MHCA对交互过程中产生的不同子空间信息进行提炼,获得更为精确的意图和槽位标签特征。该模型在ATIS和SNIPS数据集上进行实验,句子准确率分别为88.1%和89.0%,验证了该模型的有效性。 展开更多
关键词 口语理解 意图检测 槽位填充 标签特征融合交互 多头胶囊注意力机制 深度学习 自然语言处理
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部