期刊文献+
共找到44篇文章
< 1 2 3 >
每页显示 20 50 100
基于孪生网络和交叉注意力机制的空域和JPEG图像隐写分析
1
作者 张倩倩 李浩 +2 位作者 张祎 马媛媛 罗向阳 《计算机学报》 北大核心 2025年第6期1305-1326,共22页
近年来,深度学习在图像隐写分析任务中表现出了优越的性能。然而,此类方法在捕获图像中微弱的隐写噪声时,往往会因下采样过程中大量关键细节信息的丢失,导致在检测空域和JPEG隐写图像时难以同时实现高检测准确率。为此,本文基于孪生神... 近年来,深度学习在图像隐写分析任务中表现出了优越的性能。然而,此类方法在捕获图像中微弱的隐写噪声时,往往会因下采样过程中大量关键细节信息的丢失,导致在检测空域和JPEG隐写图像时难以同时实现高检测准确率。为此,本文基于孪生神经网络对图像进行分区域细粒度学习,同时利用交叉注意力机制进一步增强模型全局信息感知能力,提出一种跨通道交叉注意力增强的隐写分析方法(CES-Net)。首先,采用孪生神经网络作为主干网对图像进行分区域学习,以细致地感知空域和JPEG图像的像素信息和微弱的隐写噪声,同时,设计了多样化的高通滤波器和多层卷积作为网络预处理层来获取丰富且高质量的隐写噪声残差;接着,改进了特征提取部分,提出了跨通道交叉注意力网络,使模型提取到更多因隐写嵌入对图像像素相关性造成扰动的隐写特征,用于基于秘密噪声残差等弱信息的隐写图像分类任务;最后,融合子网络学习到的不同区域图像的分类特征,并输入全连接层组成的分类模块对载体和载密图像进行分类,提升检测效果。在隐写和隐写分析领域常用的图像数据集BOSSBase-1.01和BOWs2上进行了大量实验,结果表明,CES-Net方法与现有方法相比,对于空域和JPEG图像的多种主流隐写算法均能达到目前最优的检测准确率,其中,对多种空域隐写算法(WOW、S-UNIWARD和HILL)在不同嵌入比率下生成的载密图像,检测准确率最高分别提升1.27%~25.61%、2.1%~21.73%和1.69%~23.46%;对JPEG图像自适应隐写算法J-UNIWARD在不同嵌入比率下生成的载密图像,CES-Net方法对两种质量因子(QF=75和QF=85)的JPEG图像隐写检测准确率最高分别提升2.34%和2.06%。 展开更多
关键词 隐写分析 隐写 孪生网络 交叉注意力机制 信息隐藏
在线阅读 下载PDF
基于特征交叉注意力机制融合的轴承故障诊断方法
2
作者 赵国超 刘崇德 +2 位作者 宋宇宁 金鑫 李伟华 《振动与冲击》 北大核心 2025年第12期228-237,共10页
为了解决轴承振动信号特征提取不充分导致故障诊断准确率低的问题,提出一种基于特征交叉注意力机制融合的轴承故障诊断方法,建立CNN-BiTCN-CA诊断模型。采用变分模态分解和快速傅里叶变换对原始信号进行重构,分别使用卷积神经网络(convo... 为了解决轴承振动信号特征提取不充分导致故障诊断准确率低的问题,提出一种基于特征交叉注意力机制融合的轴承故障诊断方法,建立CNN-BiTCN-CA诊断模型。采用变分模态分解和快速傅里叶变换对原始信号进行重构,分别使用卷积神经网络(convolutional neural network,CNN)和双向时间卷积网络(bidirectional temporal convolutional network,BiTCN)提取时频特征,通过交叉注意力机制(cross-attention mechanism,CA)融合时频特征的能力,充分提取原始信号故障特征,利用全连接层实现滚动轴承故障类型的精确诊断。试验研究表明:在含信噪比为9.32 dB、标准差为2.98的高斯白噪声的环境下,使用CNN-BiTCN-CA模型轴承故障分类准确率为99.88%,相较于使用CNN、BiTCN和结合自注意力机制的卷积神经网络(CNN with self-attention mechanism,CNN-SA)诊断轴承故障,准确率分别提升约22.79%、4.85%和4.19%;在引入信噪比为3.31 dB、标准差为5.96的高斯白噪声时,该模型仍然可以达到96.12%的诊断准确率。CNN-BiTCN-CA模型能够深入提取轴承信号中的故障特征,有效提高故障分类准确性。 展开更多
关键词 滚动轴承 故障诊断 双向时间卷积网络(BiTCN) 时频融合 交叉注意力机制(CA)
在线阅读 下载PDF
基于交叉注意力机制的多特征行人重识别 被引量:1
3
作者 邬心怡 邓志良 +2 位作者 刘云平 董娟 李嘉琦 《南京信息工程大学学报》 CAS 北大核心 2024年第4期461-471,共11页
针对现有的行人重识别方法难以避免环境噪声导致的特征提取不精确、易被误认为行人特征等问题,提出一种基于动态卷积与注意力机制的行人多特征融合分支网络.首先,由于拍摄时存在光照变化、人体姿势调整以及物体遮挡等不确定因素,提出使... 针对现有的行人重识别方法难以避免环境噪声导致的特征提取不精确、易被误认为行人特征等问题,提出一种基于动态卷积与注意力机制的行人多特征融合分支网络.首先,由于拍摄时存在光照变化、人体姿势调整以及物体遮挡等不确定因素,提出使用动态卷积替换ResNet50中的静态卷积得到具有更强鲁棒性的Dy-ResNet50模型;其次,考虑到拍摄行人图片的视角有较大差异且存在行人被物体遮挡的情况,提出将自注意力机制与交叉注意力机制嵌入骨干网络;最后,将交叉熵损失函数和难样本三元损失函数共同作为模型损失函数,在DukeMTMC-ReID、Market-1501和MSMT17公开数据集上进行实验,并与主流网络模型进行比较.结果表明:在3个公开数据集上,本文所提模型的Rank-1(第一次命中)与mAP(平均精度均值)相比当前主流模型均有所提升,具有较高的识别准确率. 展开更多
关键词 行人重识别 动态卷积 注意力机制 交叉注意力机制
在线阅读 下载PDF
基于多角度交叉注意力机制的知识库问答方法 被引量:2
4
作者 代发扬 符海东 +1 位作者 高峰 顾进广 《计算机应用与软件》 北大核心 2023年第12期33-40,共8页
近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉... 近些年知识库问答的方法通常利用多视角信息来表示候选答案,忽略了这些信息间的相互影响,将问题的单词与候选答案的多视角信息计算相关性,忽略了二者在整体与细节上的信息。基于上述问题,提出一个多角度交叉注意力模型,通过多视角交叉注意力机制获取候选答案多视角信息间的交叉影响;将问题与候选答案信息进行整体表示,运用双向交叉注意力机制来计算其二者在整体级别上的关联性,最终提高获取答案的正确率。利用FreeBase知识库与WebQuestions数据集进行实验,F1值达到55.84%,优于最近表现较好的方法。 展开更多
关键词 知识库问答 多视角信息 多视角交叉注意力机制 双向交叉注意力机制
在线阅读 下载PDF
基于交叉注意力机制的煤矿井下不安全行为识别 被引量:13
5
作者 饶天荣 潘涛 徐会军 《工矿自动化》 北大核心 2022年第10期48-54,共7页
对煤矿井下人员不安全行为进行实时视频监控及报警是提升安全生产水平的重要手段。煤矿井下环境复杂,监控视频质量不佳,导致常规基于图像特征或基于人体关键点特征的行为识别方法在煤矿井下应用受限。提出了一种基于交叉注意力机制的多... 对煤矿井下人员不安全行为进行实时视频监控及报警是提升安全生产水平的重要手段。煤矿井下环境复杂,监控视频质量不佳,导致常规基于图像特征或基于人体关键点特征的行为识别方法在煤矿井下应用受限。提出了一种基于交叉注意力机制的多特征融合行为识别模型,用于识别煤矿井下人员不安全行为。针对分段视频图像,采用3D ResNet101模型提取图像特征,采用openpose算法和ST-GCN(时空图卷积网络)提取人体关键点特征;采用交叉注意力机制对图像特征和人体关键点特征进行融合处理,并与经自注意力机制处理后的图像特征和人体关键点特征拼接,得到最终行为识别特征;识别特征经全连接层及归一化指数函数softmax处理后,得到行为识别结果。基于公共数据集HMDB51和UCF101、自建的煤矿井下视频数据集进行行为识别实验,结果表明:采用交叉注意力机制可使行为识别模型更有效地融合图像特征和人体关键点特征,大幅提高识别准确率;与目前应用最广泛的行为识别模型SlowFast相比,基于交叉注意力机制的多特征融合行为识别模型在HMDB51和UCF101数据集上的识别准确率分别提高1.8%,0.9%,在自建数据集上的识别准确率提高6.7%,验证了基于交叉注意力机制的多特征融合行为识别模型更适用于煤矿井下复杂环境中人员不安全行为识别。 展开更多
关键词 井下人员行为识别 不安全行为识别 图像特征 人体关键点特征 多特征融合 注意力机制 注意力机制 交叉注意力机制
在线阅读 下载PDF
基于交叉注意力机制的多视图项目文本分类方法 被引量:4
6
作者 方正云 杨政 +1 位作者 李丽敏 李天骄 《中文信息学报》 CSCD 北大核心 2022年第7期123-131,共9页
科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个... 科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个文本或者一部分文本作为分类依据,可能出现信息的冗余或缺失。该文针对结构化的项目文本,在BERT等预训练网络的基础上,创新性地提出基于单交叉注意力机制的两视图项目文本分类学习方法(Two-View Cross Attention,TVCA)和基于双交叉注意力机制的多视图项目文本分类学习方法(Multi-View Cross Attention,MVCA)。MVCA方法基于项目文本的一个主要视图(项目摘要)和两个辅助视图(研究内容、目的和意义),通过两个交叉注意力机制提取包含更丰富语义信息的特征向量,进一步改善分类模型的性能。我们将TVCA和MVCA方法应用于英文论文数据Web of Science Meta-data和南方电网科技项目文本的分类任务中,实验结果验证了TVCA和MVCA方法无论从分类效果还是收敛速度上,都明显优于已有的比较方法。 展开更多
关键词 多视图分类 交叉注意力机制 文本分类
在线阅读 下载PDF
基于交叉注意力机制的波束形成后置滤波网络
7
作者 刘卓 付中华 《计算机应用研究》 CSCD 北大核心 2022年第5期1444-1448,共5页
针对经典后置滤波器存在的对非平稳噪声抑制效果较差且存在目标语音失真的问题,提出一种基于交叉注意力机制的后置滤波网络,使用基于门控循环单元的编解码器作为网络框架,并在编解码器组之间添加残差连接;使用基于伽马通域的波束输出信... 针对经典后置滤波器存在的对非平稳噪声抑制效果较差且存在目标语音失真的问题,提出一种基于交叉注意力机制的后置滤波网络,使用基于门控循环单元的编解码器作为网络框架,并在编解码器组之间添加残差连接;使用基于伽马通域的波束输出信号与噪声参考信号功率谱的子带增益作为双特征输入;使用特征交叉的多头归一化点积注意力捕获序列输入的长距离依赖信息并进行特征融合。实验结果表明,该算法在不同信扰比和噪声条件下的语音质量和可懂度指标均优于基线系统,具有较强的鲁棒性;在对非平稳噪声具有较好抑制效果的同时,能最小化目标语音的失真;且相较端到端的深度学习方法,具有轻量化和低时延的特点,能满足实际工程应用的需求。 展开更多
关键词 波束形成 后置滤波 交叉注意力机制 编解码器 伽马通域 特征融合
在线阅读 下载PDF
基于边缘增强的交叉注意力医学影像分割方法
8
作者 陆秋 张云磊 +1 位作者 邵铧泽 黄琳 《桂林理工大学学报》 北大核心 2025年第1期111-119,共9页
为了在复杂的腹部多器官MRI和CT医学影像中解决目标区域与背景的边缘误分割问题,提出一种以ResUNet网络为基架,包含二维分轴的交叉注意力机制和两阶段边缘增强模块的网络模型(REAUp-L)。第1阶段的边缘信息增强模块用于下采样阶段,以更... 为了在复杂的腹部多器官MRI和CT医学影像中解决目标区域与背景的边缘误分割问题,提出一种以ResUNet网络为基架,包含二维分轴的交叉注意力机制和两阶段边缘增强模块的网络模型(REAUp-L)。第1阶段的边缘信息增强模块用于下采样阶段,以更好地提取边缘信息;第2阶段的不确定性概率边缘区域增强模块用于上采样阶段,以更好地保留边缘信息和降低噪声造成的误差;跳跃连接阶段使用一种二维分轴交叉注意力机制,以更好地捕获全局依赖关系。在腹部多器官数据集上进行的实验结果表明:该网络模型较基于UNet改进的3种主流网络模型在Dice和IoU评价指标中都有了一定的提升;边缘增强能有效提取医学影像的边缘信息,得到更加清晰的边缘曲线,有利于进一步提升分割性能。 展开更多
关键词 医学影像分割 交叉注意力机制 不确定性 像素点概率机制
在线阅读 下载PDF
基于ConvNeXt和可变形交叉注意力的多模态3D目标检测方法
9
作者 周鹏 宋志强 +2 位作者 胡凯 宋利鹏 李明阳 《电子测量技术》 北大核心 2025年第12期63-70,共8页
近年来,随着新能源汽车的快速发展,3D目标检测作为自动驾驶技术的核心基础正变得愈发重要。融合雷达点云与图像等多模态信息的策略,能够显著提升目标检测的准确性与鲁棒性。受BEVDet启发,本研究提出了一种基于BEV(鸟瞰图)视角的改进多... 近年来,随着新能源汽车的快速发展,3D目标检测作为自动驾驶技术的核心基础正变得愈发重要。融合雷达点云与图像等多模态信息的策略,能够显著提升目标检测的准确性与鲁棒性。受BEVDet启发,本研究提出了一种基于BEV(鸟瞰图)视角的改进多模态融合3D目标检测方法。该方法采用ConvNeXt网络结合FPN-DCN结构高效提取图像特征,并通过可变形交叉注意力机制实现图像与点云数据的深度融合,从而进一步提升模型的检测精度。在nuScenes自动驾驶数据集上的实验表明,本研究模型性能优异,在测试集上的NDS达到了64.9%,显著超越了大多数现有检测方法。 展开更多
关键词 自动驾驶 3D目标检测 多模态融合 可变形交叉注意力机制
在线阅读 下载PDF
基于交叉注意力的车载环视系统外参标定算法
10
作者 黄书隽 林春雨 +2 位作者 覃雷栋 金智勇 赵耀 《北京交通大学学报》 北大核心 2025年第3期137-146,共10页
针对车载环视系统的多相机外参标定问题,本文提出一种基于交叉注意力机制的外参标定算法.首先通过残差卷积模块独立提取多视角图像的多尺度特征,以捕捉图像中的细节信息;其次,利用交叉注意力模块学习各相机图像的全局特征及其相邻相机... 针对车载环视系统的多相机外参标定问题,本文提出一种基于交叉注意力机制的外参标定算法.首先通过残差卷积模块独立提取多视角图像的多尺度特征,以捕捉图像中的细节信息;其次,利用交叉注意力模块学习各相机图像的全局特征及其相邻相机图像之间的特征关系,从而增强特征表达能力;再次,通过特征融合模块整合残差卷积模块和交叉注意力模块的特征,并回归外参参数;最后,在两种数据集上从性能评价和消融实验角度对模型进行验证.研究结果表明:与现有基于车道线和纹理的外参标定算法相比,本文算法在不同环境下具有更好的泛化性和鲁棒性,其性能指标和鸟瞰图拼接可视化结果均有显著提升;与现有的外参标定算法相比,所提出算法在绝对重投影误差和绝对光度误差上分别达到3.1和16.7,相较于目前最优的深度学习算法弱监督外参参数标定网络(Weakly-supervised Extrinsic Self-calibration Network,WESNet)分别提升了8.82%和8.74%.该研究成果可为车载环视系统的外参在线标定提供技术支撑. 展开更多
关键词 环视系统 深度学习 交叉注意力机制 外参标定
在线阅读 下载PDF
基于多模态交叉注意力的阿尔茨海默症辅助诊断研究
11
作者 李舟 刘永彬 +4 位作者 欧阳纯萍 张江涛 潘雪 江璐 钟进 《北京大学学报(自然科学版)》 北大核心 2025年第4期629-638,共10页
为了对阿尔茨海默症和轻度认知障碍患者进行准确的辅助诊断,提出一种利用非对称交叉注意力机制进行多模态融合的阿尔茨海默症多分类诊断框架MAMDF,以便更好地揭示临床数据和医疗成像数据之间的关系。针对计算机辅助诊断工作中很少提及... 为了对阿尔茨海默症和轻度认知障碍患者进行准确的辅助诊断,提出一种利用非对称交叉注意力机制进行多模态融合的阿尔茨海默症多分类诊断框架MAMDF,以便更好地揭示临床数据和医疗成像数据之间的关系。针对计算机辅助诊断工作中很少提及的两种轻度认知障碍亚型,结合频域转换器和Transformer,提出一种新颖的深度特征提取方法,用于处理特征融合。该方法能够捕获融合特征的内部联系,获取更丰富的多模态联合表示,从而使模型在两种轻度认知障碍亚型上的诊断表现更好。在ADNI数据集上实验结果表明,与其他方法相比,该模型取得更高的准确率和F1值,可以更有效地处理多模态数据融合,挖掘不同模态医疗数据间的深层特征关系,从而能更好地整合并分析阿尔茨海默症患者的多模态信息。 展开更多
关键词 多模态深度学习 阿尔茨海默症诊断 交叉注意力机制
在线阅读 下载PDF
面向轻量级交叉注意力卷积网络的SAR目标识别
12
作者 蒋明煜 张顺生 肖思瑶 《系统工程与电子技术》 北大核心 2025年第9期2853-2861,共9页
针对合成孔径雷达(synthetic aperture radar, SAR)飞机目标识别网络消耗部署资源大的问题,提出一种基于轻量级交叉注意力卷积神经网络(lightweight cross-attention convolutional neural network, LCA-CNN)的SAR飞机目标识别方法。一... 针对合成孔径雷达(synthetic aperture radar, SAR)飞机目标识别网络消耗部署资源大的问题,提出一种基于轻量级交叉注意力卷积神经网络(lightweight cross-attention convolutional neural network, LCA-CNN)的SAR飞机目标识别方法。一方面,通过交叉注意力机制对目标进行特征提取,使得网络能够更高效地从样本中学习到关键的分类表征,提升飞机细粒度识别的准确率。另一方面,只利用卷积层和注意力模块,从而大幅降低网络的整体参数量。在SAR-AIRcraft-1.0数据集上的对比实验表明:与其他经典的深度学习SAR图像识别算法方法相比,所提方法在更少参数条件下可实现更高的平均识别准确率。 展开更多
关键词 合成孔径雷达 雷达目标识别 卷积神经网络 交叉注意力机制
在线阅读 下载PDF
基于交叉多头注意力的查询式文本摘要生成
13
作者 何东欢 李旸 王素格 《中文信息学报》 北大核心 2025年第7期138-147,共10页
生成是一项根据给定文档和查询,生成与查询相关摘要的任务。该文将查询式摘要生成任务转换为阅读理解任务,将文档与查询进行交互,建立了基于交叉多头注意力的Transformer架构的多源指针生成式摘要新模型。该模型通过BERT预训练模型,建... 生成是一项根据给定文档和查询,生成与查询相关摘要的任务。该文将查询式摘要生成任务转换为阅读理解任务,将文档与查询进行交互,建立了基于交叉多头注意力的Transformer架构的多源指针生成式摘要新模型。该模型通过BERT预训练模型,建立文档、查询和摘要的嵌入表示,再在Transformer架构中,通过交叉的多头注意力机制,建立查询与文档的交互深层语义表示。在此基础上,使用多源指针生成网络,使生成的摘要与文档和查询内容具有语义一致性和表达连贯性。最后,在查询式文本摘要生成数据集Debatepedia和Querysum-data上,与已有方法进行对比实验,实验结果验证了该文摘要生成模型CMAT-PG的有效性。 展开更多
关键词 查询式文本摘要生成 机器阅读理解 交叉多头注意力机制 多源指针生成网络
在线阅读 下载PDF
基于TCN-Bi-GRU和交叉注意Transformer的多模态情感识别 被引量:2
14
作者 李嘉华 陈景霞 白义民 《陕西科技大学学报》 北大核心 2025年第1期161-168,共8页
多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交... 多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交叉注意力的多模态语音情感识别模型.首先采用时间卷积网络(Time Convolutional Network,TCN)提取语音、文本和视频数据的深层时序特征,使用双向门控递归单元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕捉序列数据的上下文信息,提高模型对序列数据的理解能力.然后基于交叉注意力机制和Transformer构建多模态融合网络,用于挖掘并捕获音频、文本和视觉特征之间交互的情感信息.此外,在训练过程中引入弹性网络正则化(Elastic Net Regularization)防止模型过拟合,最后完成情感识别任务.在IEMOCAP数据集上,针对快乐、悲伤、愤怒和中性四类情感的分类实验中,准确率分别为87.6%、84.1%、87.5%、71.5%,F1值分别为85.1%、84.3%、87.4%、71.4%.加权平均精度为80.75%,未加权平均精度为82.80%.结果表明,所提方法实现了较好的分类性能. 展开更多
关键词 语音识别 多模态情感识别 时间卷积网络 交叉注意力机制 弹性网络
在线阅读 下载PDF
融合交叉注意力的突发事件多模态中文反讽识别模型 被引量:4
15
作者 胡文彬 陈龙 +2 位作者 黄贤波 陈晨 仲兆满 《智能系统学报》 CSCD 北大核心 2024年第2期392-400,共9页
网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力... 网民在社交媒体参与突发事件讨论时,时常会采用反讽修辞方式表达对事件的看法,此举导致情感分析的难度增加,且已有中文反讽识别对社交媒体中网民发布的多模态评论研究较少,有必要对图文多模态中文反讽识别进行深入研究。运用交叉注意力机制捕捉模态间的不一致性表达,提出融合交叉注意力的多模态中文反讽识别模型(fuse cross attention model,FCAM)。在模型中,首先运用TextCNN(text convolutional neural networks)和ResNet(deep residual network)分别提取中文文本浅层特征和图像特征,再运用交叉注意力机制分别得到文本层和图像层的注意力特征,按照残差方式分别实现文本浅层特征和文本层注意力特征的连接、图像特征和图像层注意力特征的连接,使用注意力机制融合2个特征表示,经过分类层得到反讽分类结果。基于某一地区新冠疫情期间相关话题的微博评论数据,构建出突发公共卫生事件多模态中文反讽数据集,在该数据集上试验验证,相较于基准模型,FCAM具有一定的优越性。 展开更多
关键词 突发事件 社交媒体 多模态评论 中文反讽识别 中文反讽数据集 交叉注意力机制 注意力机制 情感分析
在线阅读 下载PDF
基于多原型交叉感知网络的小样本图像语义分割
16
作者 巴钧才 王昌龙 《燕山大学学报》 北大核心 2025年第4期300-308,共9页
仅利用支持图片的信息不足以为查询图片中未知目标的分割提供充分的指导,为此提出一种基于多原型交叉感知网络的小样本语义分割新方法。首先,利用一组共享权重的主干网络将支持图片和查询图片映射到深度特征空间,并在支持分支借助支持... 仅利用支持图片的信息不足以为查询图片中未知目标的分割提供充分的指导,为此提出一种基于多原型交叉感知网络的小样本语义分割新方法。首先,利用一组共享权重的主干网络将支持图片和查询图片映射到深度特征空间,并在支持分支借助支持图片的真实掩码将支持特征图分解为前景特征图和背景特征图;然后,在支持前景特征图上利用掩码平均池化生成支持前景原型集,在支持背景和查询特征图上利用K近邻聚类算法生成特定区域的多个原型表达;最后,利用交叉注意力机制实现双分支原型集的对齐,强化原型集对目标任务的感知能力。通过在PASCAL-5和COCO-20数据集上测试,实验结果表明所提出方法在1-shot和5-shot任务上实现了可竞争的分割性能。 展开更多
关键词 小样本语义分割 交叉注意力机制 多原型 掩码平均池化 K近邻聚类算法
在线阅读 下载PDF
基于注意力机制的航拍图像实时语义分割方法 被引量:4
17
作者 袁旭亮 王娟 +3 位作者 武明虎 郭力权 刘子杉 陈关海 《激光杂志》 CAS 北大核心 2023年第1期122-129,共8页
目前语义分割网络存在推理速度慢、轮廓信息缺失和语义信息不充足的问题,使其不适用于航拍图像的语义分割。提出一种交叉注意力混合机制和金字塔注意力机制的解码网络用于航拍图像语义分割。首先,采用MobileNetV2为骨干网络提高实时性... 目前语义分割网络存在推理速度慢、轮廓信息缺失和语义信息不充足的问题,使其不适用于航拍图像的语义分割。提出一种交叉注意力混合机制和金字塔注意力机制的解码网络用于航拍图像语义分割。首先,采用MobileNetV2为骨干网络提高实时性推理速度;其次,提出交叉注意力混合机制解决轮廓信息缺失的问题;再次,提出金字塔注意力机制消除卷积神经网络无法捕获长范围语义信息的局限性。最后,实验结果表明,该文网络在单张GTX 3090卡,分辨率为256×256×3的DLRSD(Dense Labeling Remote Sensing Dataset)数据集中,获取73.4%的平均交并比和85.4%的像素精度,实现了196.9帧每秒的推理速度。 展开更多
关键词 航拍图像语义分割 实时语义分割 金字塔注意力机制 交叉注意力混合机制
在线阅读 下载PDF
基于双注意力CrossViT的微表情识别方法 被引量:2
18
作者 冉瑞生 石凯 +1 位作者 江小鹏 王宁 《南京信息工程大学学报(自然科学版)》 CAS 北大核心 2023年第5期541-550,共10页
微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,是近年来情感计算领域的热点研究领域.微表情是一种细微的面部运动,难以捕捉其细微变化的特征.本文基于交叉注意力多尺度ViT(CrossViT)在图像分类领域的优异性能以及能... 微表情是人们试图隐藏自己真实情绪时不由自主泄露出来的面部表情,是近年来情感计算领域的热点研究领域.微表情是一种细微的面部运动,难以捕捉其细微变化的特征.本文基于交叉注意力多尺度ViT(CrossViT)在图像分类领域的优异性能以及能够捕捉细微特征信息的能力,将CrossViT作为主干网络,对网络中的交叉注意力机制进行改进,提出了DA模块(Dual Attention)以扩展传统交叉注意力机制,确定注意力结果之间的相关性,从而提升了微表情识别精度.本网络从三个光流特征(即光学应变、水平和垂直光流场)中学习,这些特征是由每个微表情序列的起始帧和峰值帧计算得出,最后通过Softmax进行微表情分类.在微表情融合数据集上,UF1和UAR分别达到了0.7275和0.7272,识别精度优于微表情领域的主流算法,验证了本文提出网络的有效性. 展开更多
关键词 微表情识别 CrossViT 交叉注意力机制 光流特征
在线阅读 下载PDF
基于扩散模型检测的高铁接触网绝缘子缺陷语义描述方法
19
作者 陈永 安卓奥博 周建宇 《电工技术学报》 北大核心 2025年第13期4100-4111,共12页
高铁接触网绝缘子作为高速铁路牵引供电的重要装置,可为接触网提供电气部件绝缘和腕臂结构支撑,其安全性对于高速铁路行车至关重要。针对绝缘子检测时易受复杂环境背景干扰,导致缺陷检测精度低以及无法提供缺陷语义描述的问题,该文提出... 高铁接触网绝缘子作为高速铁路牵引供电的重要装置,可为接触网提供电气部件绝缘和腕臂结构支撑,其安全性对于高速铁路行车至关重要。针对绝缘子检测时易受复杂环境背景干扰,导致缺陷检测精度低以及无法提供缺陷语义描述的问题,该文提出一种基于扩散模型检测的绝缘子缺陷描述方法。首先,构建大核空间选择特征提取网络,加强绝缘子缺陷特征信息的提取能力;其次,基于扩散模型设计融合扩散机制的检测解码器,并对解码器生成的噪声框进行逆向贝叶斯扩散,还原绝缘子真值框的预测,提高模型的抗背景干扰能力;最后,设计交叉注意力机制的编码器和解码器,实现图像与文本的跨模态映射,并通过文本过滤机制驱动的多模态语言视觉预训练(BLIP)模型,完成绝缘子缺陷文本描述输出。实验结果表明,所提绝缘子缺陷检测模型的平均准确度达到93.04%,相较于DTER和Faster RCNN的mAP0.5分别提升4.63%和5.78%,且F1-score高达82.91%,平均双语评估替换评价指标(BLEU)和基于精确率的图像描述评价指标(CIDEr)分别达到83.51%和1.94。与其他方法相比,具有更高的检测精度和缺陷语义描述准确性,能够满足对高速铁路绝缘子缺陷的检测需求。 展开更多
关键词 高铁接触网 绝缘子缺陷检测 缺陷语义描述 扩散模型 交叉注意力机制
在线阅读 下载PDF
跨建筑短期负荷预测的深度迁移学习方法
20
作者 闫秀英 门琪 吴晓雪 《电力系统及其自动化学报》 北大核心 2025年第4期88-97,共10页
为解决深度学习预测模型在数据不足时准确性受限的问题,提出一种结合Transformer的交叉注意力(cross-attention in Transformer,CATrans)机制和域分离网络(domain separation networks,DSN)的深度迁移学习方法——CATrans-DSN,用于短期... 为解决深度学习预测模型在数据不足时准确性受限的问题,提出一种结合Transformer的交叉注意力(cross-attention in Transformer,CATrans)机制和域分离网络(domain separation networks,DSN)的深度迁移学习方法——CATrans-DSN,用于短期跨建筑负荷预测。CATrans特征提取器利用注意力机制来学习源域和目标域负荷数据的域共有和私有时间特征,并利用共有特征进行知识迁移;特征重构器作为辅助模块,对源域和目标域数据进行数据重构;由回归预测器将学习到的特征转化为预测值。最后,利用在源域和目标域上训练得到的建筑负荷预测模型,直接用于目标建筑的负荷预测。实验结果表明,所提出的方法有效地提高了数据稀缺情况下的预测准确性和模型泛化能力。 展开更多
关键词 负荷预测 交叉注意力机制 重构域适应 迁移学习
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部