期刊文献+
共找到587篇文章
< 1 2 30 >
每页显示 20 50 100
面向多模态情感分析的低秩跨模态Transformer
1
作者 孙杰 车文刚 高盛祥 《计算机工程与科学》 CSCD 北大核心 2024年第10期1888-1900,共13页
多模态情感分析将基于文本的方法扩展到包含视觉和语音信号的多模态环境,已成为情感计算领域的热门研究方向。在预训练-微调的背景下,将预训练语言模型微调到多模态情感分析领域是必要的。然而,微调大规模预训练语言模型仍然很昂贵,而... 多模态情感分析将基于文本的方法扩展到包含视觉和语音信号的多模态环境,已成为情感计算领域的热门研究方向。在预训练-微调的背景下,将预训练语言模型微调到多模态情感分析领域是必要的。然而,微调大规模预训练语言模型仍然很昂贵,而且跨模态交互不足会影响性能。因此,提出低秩跨模态Transformer(LRCMT)来解决这些问题。受大型预训练语言模型在适应不同的自然语言处理下游任务时所呈现的低秩参数更新现象启发,LRCMT在每个冻结层中注入可训练的低秩参数矩阵,这大大减少了可训练参数,同时允许动态单词表示。此外,设计了跨模态交互模块,其中视觉和语音模态在与文本模态交互之前首先相互交互,从而实现更充分的跨模态融合。在多模态情感分析基准数据集上的大量实验表明了LRCMT的有效性和高效性。仅微调约全参数量0.76%的参数,LRCMT实现了与完全微调相当或更高的性能。此外,它还在许多指标上获得了最先进或具有竞争力的结果。消融实验表明,低秩微调与充分的跨模态交互有助于提升LRCMT的性能。总之,本文的工作降低了预训练语言模型在多模态任务上的微调成本,并为高效和有效的跨模态融合提供了思路。 展开更多
关键词 模态 情感分析 预训练语言模型 跨模态transformer
在线阅读 下载PDF
情感分析的跨模态Transformer组合模型
2
作者 王亮 王屹 王军 《计算机工程与应用》 CSCD 北大核心 2024年第13期124-135,共12页
基于Transformer的端到端组合深度学习模型是多模态情感分析的主流模型。针对相关工作中此类模型存在的低资源(low-resource)模态数据的情感特征提取能力不足、不同模态非对齐数据的特征尺度差异导致对齐融合过程中易丢失关键特征信息... 基于Transformer的端到端组合深度学习模型是多模态情感分析的主流模型。针对相关工作中此类模型存在的低资源(low-resource)模态数据的情感特征提取能力不足、不同模态非对齐数据的特征尺度差异导致对齐融合过程中易丢失关键特征信息、基础注意力模型并行处理多模态数据导致多模态长期依赖机制不可靠的问题,提出了一种基于轻量级注意力聚合模块与跨模态Transformer的能使用多模态非对齐数据执行二分类和多分类任务的多模态情感分析模型LAACMT。LAACMT模型提出采用门控循环单元与改进的特征提取算法提取低资源模态信息,提出位置编码配合卷积放缩方法用于对齐多模态语境,提出跨模态多头注意力机制融合已对齐的多模态数据并建立可靠的跨模态长期依赖机制。LAACMT模型在包含文本、语音和视频的三种模态非对齐数据集CMU-MOSI上的实验结果表明该模型的性能评价指标较SOTA有稳定提升。其中Acc7提升了3.96%、Acc2提升了4.08%、F1分数提升了3.35%。消融实验结果数据证明所提模型解决了多模态情感分析相关工作中存在的问题,降低了基于Transformer的多模态情感分析模型的复杂度,提升了模型性能的同时避免了过拟合问题。 展开更多
关键词 模态情感分析 轻量级注意力聚合模块 跨模态transformer 门控循环单元 模态多头注意力机制
在线阅读 下载PDF
融合图像信息的跨模态Transformer点云补全算法
3
作者 何星 朱哲 +3 位作者 燕雪峰 郭延文 宫丽娜 魏明强 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第7期1026-1033,共8页
针对三维传感器(如LiDAR、深度相机)获取的点云往往残缺不全,需要进行补全处理,而单模态方法存在的补全结果细节不丰富、结构不完整等问题,提出一种融合图像信息的跨模态Transformer点云补全算法.首先采用点云分支和图像分支分别提取点... 针对三维传感器(如LiDAR、深度相机)获取的点云往往残缺不全,需要进行补全处理,而单模态方法存在的补全结果细节不丰富、结构不完整等问题,提出一种融合图像信息的跨模态Transformer点云补全算法.首先采用点云分支和图像分支分别提取点云特征和图像特征,其中,点云分支采用PoinTr为骨干网络,图像分支采用7层卷积;然后通过特征融合模块融合点云特征和图像特征,由粗到精地生成全分辨率的点云.在ShapeNet-ViPC数据集上进行实验的结果表明,所提算法的可视化结果优于单模态点云补全方法和目前仅有的跨模态点云补全方法ViPC,且在大部分测试类别上的CD-L_(2)量化指标优于ViPC;平均CD-L_(2)为2.74,比ViPC低17%.为了便于研究人员评估和使用,文中算法可通过https://github.com/Starak-x/ImPoinTr开源获取. 展开更多
关键词 点云补全 transformer 模态
在线阅读 下载PDF
融合跨模态Transformer的外部知识型VQA
4
作者 王虞 李明锋 孙海春 《科学技术与工程》 北大核心 2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型... 针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。 展开更多
关键词 视觉问答(VQA) 外部知识 模态 知识图谱
在线阅读 下载PDF
基于U-Net和Transformer结合的不完整多模态脑肿瘤分割方法
5
作者 汤占军 蹇洪 王健 《数据采集与处理》 北大核心 2025年第4期934-949,共16页
由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑... 由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。 展开更多
关键词 注意力机制 脑肿瘤分割 模态 U-Net transformer
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
6
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 模态 视听融合 语音识别 transformer 动态权重分配机制
在线阅读 下载PDF
基于跨色彩空间Transformer的水下图像增强
7
作者 宋琳 刘飞 +2 位作者 丁元明 姜晨 赵维 《兵器装备工程学报》 北大核心 2025年第6期56-63,共8页
由于水下小颗粒、浮游生物造成光衰减、散射现象,从而导致水下图像存在雾霾效应及模糊,大大影响人眼对水下图像的视觉感知。为了解决这2个问题,提出一个基于跨色彩空间Transformer的水下图像增强模型(简称为Tcolor)。在这个模型中,采用... 由于水下小颗粒、浮游生物造成光衰减、散射现象,从而导致水下图像存在雾霾效应及模糊,大大影响人眼对水下图像的视觉感知。为了解决这2个问题,提出一个基于跨色彩空间Transformer的水下图像增强模型(简称为Tcolor)。在这个模型中,采用RGB、HSV、LAB三色彩空间U-Net进行特征提取,通过通道传输注意力模块突出最具有区分度的通道和区域。此外,使用跨色彩空间Transformer模块保证增强图像的全局一致性,有效避免伪影的产生,同时在Transformer模块中加入卷积保留局部细节。最后,提出一个联合损失函数进一步提升模型的能力。在2种公开的数据集上进行对比实验,与次优的数据相比,评价指标PSNR提高了6.87%,SSIM提高了6.22%,UIQM提高了2.53%。在主观感知和客观评估中,增强后的图像在细节、对比度和一致性方面均得到了提升。 展开更多
关键词 水下图像增强 transformer 色彩空间 注意力模块 U-Net
在线阅读 下载PDF
基于前置归一化Transformer的融合多模态行人过街意图预测模型
8
作者 陈振东 刘广聪 叶振宇 《计算机应用研究》 北大核心 2025年第5期1378-1384,共7页
预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一... 预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一化注意力机制的行人过街意图预测模型,对行人不同模态特征进行提取并互补融合。该模型使用单模态特征增强模块(UFE)对单一模态进行关键特征提取,随后使用多模态特征交互模块(MFI)进行不同模态之间的特征融合。实验证明,在PIE和JAAD数据集上的准确率均达到91%,并且对模态信息的不同融合策略进行了广泛的消融实验,证明了其有效性,为自动驾驶系统提供更准确的行人过街意图预测。 展开更多
关键词 行人过街 意图预测 模态融合 transformer
在线阅读 下载PDF
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
9
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph transformer Vina-GPU+ 模态 知识蒸馏 主动学习
在线阅读 下载PDF
CNN与Transformer协同的多模态边缘检测网络
10
作者 李永辉 赵耀 +2 位作者 加小红 魏琛珍 常文文 《计算机工程与应用》 北大核心 2025年第14期195-205,共11页
边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一... 边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一个基于无参数注意力残差结构的高分辨率特征融合模块,保留图像的底层属性,增强全局特征表示;设计了一种包含多尺度混洗注意力模块的轻量化CNN层来完成梯度编码,捕捉图像的高频属性,利用Transformer架构实现特征编码,构建高层的全局依赖关系,通过融合高频属性和全局依赖关系重构特征表达,将CNN、Transformer以及高分辨率特征融合模块的多尺度特征进行逐层聚合解码,从而高精度定位图像边界。与主流算法相比,所提模型在BSDS500、NYUD-v2上均获得较优指标。 展开更多
关键词 边缘检测 卷积神经网络(CNN) transformer 模态 深度学习
在线阅读 下载PDF
多模态引导视觉Transformer的小样本农作物病害识别
11
作者 杨森 冯全 +2 位作者 阎文博 周文伟 杨婉霞 《农业工程学报》 北大核心 2025年第6期195-203,共9页
为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学... 为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学习图像分支中引入视觉Transformer(visual Transformer,ViT)替代传统卷积神经网络编码器,充分利用ViT全局感知特性增强小样本图像的特征提取能力;其次,设计了基于预训练语言模型的文本分支,将类标签嵌入手工设计的提示模板中,并提取模板中特定位置的隐藏向量作为文本嵌入,从而引导模型更精准地选择视觉特征;最后,构建图文对比模块对齐视觉嵌入与文本嵌入,并采用模型无关的元学习(model-agnostic meta-learning, MAML)算法优化网络参数,实现多模态信息的高效融合。试验结果表明,在5way-1shot设置下,MMFSL模型在PlantVillage数据集和自建大田病害数据集上的平均准确率分别为86.97%和56.78%;在5way-5shot设置下,模型在两种数据集上的平均准确率分别为96.33%和74.49%,均优于对比的小样本学习模型。此外,与单模态小样本学习模型相比,MMFSL模型在5way-1shot和5way-5shot设置下的平均准确率分别提升了2.77和0.80个百分点。研究表明,引入文本信息能够提高小样本学习模型的泛化性能,研究结果可为深度学习领域降低病害收集成本提供技术参考。 展开更多
关键词 病害 识别 小样本 模态 视觉transformer 文本信息
在线阅读 下载PDF
基于Transformer的多模态个性化联邦学习
12
作者 曹行健 孙罡 虞红芳 《电子科技大学学报》 北大核心 2025年第2期242-249,共8页
在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动... 在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动了对复杂多模态数据处理能力的追求。然而,这也带来了数据隐私安全和满足个性化需求的挑战。为解决这些挑战,提出一种基于多模态Transformer的个性化联邦学习方法,它支持异构数据模态的联邦学习,在保护参与方数据隐私的前提下为其训练更符合其个性化需求的多模态模型。该方法显著提升了多模态个性化模型的性能:相较于对比方法,准确率提高了15%,这标志着多模态个性化联邦学习在应用场景限制上的突破。 展开更多
关键词 模态 transformer 联邦学习 个性化
在线阅读 下载PDF
跨层Transformer与多尺度自适应融合的视网膜血管分割算法
13
作者 梁礼明 阳渊 +2 位作者 何安军 董信 吴健 《计算机辅助设计与图形学学报》 北大核心 2025年第3期495-505,共11页
针对现有视网膜血管分割存在视盘误分割、主血管纹理模糊和微细分支血管断裂等问题,提出融合跨层Transformer(CLTransformer)与跨尺度注意的视网膜血管分割算法.首先设计轻量化残差编解码模块用于编码和解码器部分,实现血管纹理特征的... 针对现有视网膜血管分割存在视盘误分割、主血管纹理模糊和微细分支血管断裂等问题,提出融合跨层Transformer(CLTransformer)与跨尺度注意的视网膜血管分割算法.首先设计轻量化残差编解码模块用于编码和解码器部分,实现血管纹理特征的粗粒度提取;其次在编解码连接处采用多尺度特征选择模块,用于跨级融合粗粒度特征;再次在网络底部加入CLTransformer模块,对深层语义信息交叉融合,以细化视网膜血管特征轮廓;最后使用融合损失函数监督算法的训练和测试.在DRIVE,STARE和CHASE_DB1数据集上进行实验,其准确度分别为97.10%,97.66%和97.62%,特异性分别为98.64%,99.03%和98.72%,F_(1)分数分别为83.05%,84.07%和81.18%. 展开更多
关键词 视网膜血管分割 transformer 多尺度自适应融合 轻量化残差编解码
在线阅读 下载PDF
Transformer-CNN特征跨注意力融合学习的行人重识别 被引量:3
14
作者 项俊 张金城 +1 位作者 江小平 侯建华 《计算机工程与应用》 CSCD 北大核心 2024年第16期94-104,共11页
卷积神经网络(convolutional neural network,CNN)关注局部特征,难以获得全局结构信息,Transformer网络建模长距离的特征依赖,但易忽略局部特征细节。提出了一种跨注意力融合学习的行人重识别算法,利用CNN和Transformer特征学习网络的特... 卷积神经网络(convolutional neural network,CNN)关注局部特征,难以获得全局结构信息,Transformer网络建模长距离的特征依赖,但易忽略局部特征细节。提出了一种跨注意力融合学习的行人重识别算法,利用CNN和Transformer特征学习网络的特点,在丰富行人局部特征的同时改善特征的全局表达能力。该模型由三个部分构成:CNN分支主要提取局部细节信息;Transformer分支侧重于关注全局特征信息;跨注意力融合分支通过自注意力机制计算上述两个分支特征的相关性,进而实现特征融合,最终提高模型的表征能力。剥离实验以及在Market1501和DukeMTMC-reID数据集的实验结果证明了所提方法的有效性。 展开更多
关键词 行人重识别 卷积神经网络(CNN) transformer 注意力融合学习
在线阅读 下载PDF
利用Transformer的多模态目标跟踪算法 被引量:2
15
作者 刘万军 梁林林 曲海成 《计算机工程与应用》 CSCD 北大核心 2024年第11期84-94,共11页
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像... 目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siambased)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22 FPS。 展开更多
关键词 模态融合 可见光图像 红外图像 transformer 目标跟踪
在线阅读 下载PDF
基于双分支多尺度特征融合的跨模态语义分割算法
16
作者 陈广秋 任天蓉 +1 位作者 段锦 黄丹丹 《电子测量与仪器学报》 北大核心 2025年第5期144-154,共11页
针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模... 针对单模态可见光RGB图像语义分割在夜晚或光线变化环境下存在分割效果差、目标边缘分割不清晰等问题,以及现有的跨模态语义分割在获取全局上下文信息和融合跨模态特征时还存在大量不足。为此提出了一种基于双分支多尺度特征融合的跨模态语义分割算法。采用Segformer作为主干网络提取特征,捕获长距离依赖关系,采用特征增强模块提升浅层特征图的对比度和边缘信息的判别性,利用有效注意力增强模块和跨模态特征融合模块,对不同模态特征图像素点间的关系进行建模,聚合互补信息,发挥跨模态特征优势。最后,采用轻量级的All-MLP解码器重建图像,预测分割结果。相比较于已有主流算法,该算法在MFNet城市街景数据集上的各项评估指标均为最优,平均准确率(mAcc)和平均交并比(mIoU)分别达到了76.9%和59.8%。实验结果表明,该算法在处理复杂场景时,能够有效改善目标边缘轮廓分割不清晰的问题,提高图像的分割精度。 展开更多
关键词 模态深度学习 语义分割 特征融合 模态 Segformer
在线阅读 下载PDF
基于Transformer网络多模态融合的密集视频描述方法 被引量:2
17
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 transformer网络 语义信息 模态融合 可变形注意力
在线阅读 下载PDF
基于跨模态对比学习的常识问答模型
18
作者 王元龙 刘亭华 张虎 《计算机应用》 北大核心 2025年第3期732-738,共7页
常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,... 常识问答(CQA)是利用常识知识对自然语言问句进行自动求解以得到准确答案的任务,属于智能问答领域。该任务通常需要背景常识知识提升模型的求解能力,现有的大多数相关方法依赖于从文本数据中提取和利用常识。然而,常识通常具有隐含性,并不总是直接体现在文本内容中,影响了这些方法的应用范围和效果。因此,提出基于跨模态对比学习的CQA模型,以充分利用跨模态信息丰富常识的表达。首先,设计一个跨模态常识表示模块,以融合常识库和跨模态大模型,从而获取跨模态的常识表示;其次,对问题和选项的跨模态表示进行对比学习,从而增强模型对不同选项之间的区分能力;最后,利用softmax层为问题选项对生成相关性分数,并根据分数的高低确定最终的预测答案。在公开数据集CSQA(CommonSenseQA)和OBQA(OpenBookQA)上进行的实验结果表明,与DEKCOR(DEscriptive Knowledge for COmmonsense question answeRing)相比,所提模型的准确率分别提高了1.46和0.71个百分点。 展开更多
关键词 智能问答 常识问答 对比学习 模态常识 CLIP
在线阅读 下载PDF
基于跨模态增强网络的时序多模态情感分析
19
作者 王旭阳 章家瑜 《广西师范大学学报(自然科学版)》 北大核心 2025年第4期97-107,共11页
针对多模态情感分析中存在的模态间交互性差、时序性考虑不充分以及模态重要性不同等问题,本文提出一种基于跨模态增强网络的时序多模态情感分析框架(TCAN-SA)。首先,通过模态间交互模块增强各模态之间的信息交流;其次,引入双向时域卷... 针对多模态情感分析中存在的模态间交互性差、时序性考虑不充分以及模态重要性不同等问题,本文提出一种基于跨模态增强网络的时序多模态情感分析框架(TCAN-SA)。首先,通过模态间交互模块增强各模态之间的信息交流;其次,引入双向时域卷积网络(BiTCN)层,以捕捉模态信息的时序特征;最后,采用多模态门控模块来平衡模态间的重要性差异。实验结果表明,该框架在公开数据集CMU-MOSI和CMU-MOSEI上表现优异,相较于现有模型,性能更为突出。 展开更多
关键词 时域卷积 模态情感分析 模态融合 门控单元 transformer
在线阅读 下载PDF
基于自适应噪声完全集合经验模态分解与BiLSTM-Transformer的锂离子电池剩余使用寿命预测 被引量:4
20
作者 刘斌 吉春霖 +2 位作者 曹丽君 武欣雅 段云凤 《电力系统保护与控制》 EI CSCD 北大核心 2024年第15期167-177,共11页
锂离子电池剩余使用寿命(remaining useful life,RUL)是使用者十分关心的问题,其涉及电池的更换时间和安全。针对锂离子电池的电容量非线性变化趋势,提出了一种基于自适应噪声完全集合经验模态分解与双向长短期记忆网络-Transformer的... 锂离子电池剩余使用寿命(remaining useful life,RUL)是使用者十分关心的问题,其涉及电池的更换时间和安全。针对锂离子电池的电容量非线性变化趋势,提出了一种基于自适应噪声完全集合经验模态分解与双向长短期记忆网络-Transformer的锂离子电池剩余使用寿命预测方法。首先,利用自适应噪声完全集合经验模态分解方法对锂离子电池电容量数据进行分解。其次,使用串联的双向长短期记忆神经网络和Transformer网络对分解后得到的残差序列和本征模态分量序列进行建模预测。最后,将预测的若干本征模态分量序列和残差序列进行求和,并对求和之后的最终预测数据与原始数据进行RUL预测。采用NASA公开的电池数据集对所提方法进行验证,结果表明,所提方法的平均绝对误差、均方根误差、平均绝对百分比误差和绝对误差控制分别控制在0.0173、0.0231、1.2084%和3个循环周期以内,能够有效地提高锂离子电池RUL的预测精度。 展开更多
关键词 锂离子电池 剩余使用寿命预测 transformer网络 双向长短期记忆网络 完全集合经验模态分解
在线阅读 下载PDF
上一页 1 2 30 下一页 到第
使用帮助 返回顶部