期刊文献+
共找到106,344篇文章
< 1 2 250 >
每页显示 20 50 100
一种双向注意力的多模态Transformer活产预测网络
1
作者 简献忠 贺林涛 +1 位作者 郭强 张武文 《小型微型计算机系统》 北大核心 2025年第8期1935-1941,共7页
针对现有的多模态活产预测模型中,由于输入比例失衡、互补模态间信息融合不足、囊胚图像差异性小以及数据集类不平衡等带来的模型预测性能不高的问题,本文提出了一种双向注意力的多模态Transformer活产预测模型.首先,该模型使用多模态... 针对现有的多模态活产预测模型中,由于输入比例失衡、互补模态间信息融合不足、囊胚图像差异性小以及数据集类不平衡等带来的模型预测性能不高的问题,本文提出了一种双向注意力的多模态Transformer活产预测模型.首先,该模型使用多模态增强模块平衡了各模态输入的比例,并提高了各模态特征的辨识度;其次,通过多模态双向注意力模块挖掘模态内与模态间的内在关联性,有效获取了细粒度的互补模态特征;最后,通过引入焦点损失函数解决数据集类不平衡的问题.在Blastocyst数据集上进行实验,实验结果表明:提出模型的准确率、精确率、召回率、F1值以及AUC指标分别达到了77.11%、74.51%、76.16%、75.33%和75.66%,与现有先进的多模态活产预测模型相比,预测性能更佳. 展开更多
关键词 活产预测 深度学习 多模态 双向注意力机制
在线阅读 下载PDF
融合ELMo词嵌入的多模态Transformer的图像描述算法 被引量:3
2
作者 杨文瑞 沈韬 +2 位作者 朱艳 曾凯 刘英莉 《计算机工程与应用》 CSCD 北大核心 2022年第21期223-231,共9页
图像描述任务旨在针对一张给出的图像产生其对应描述。针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型。该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包... 图像描述任务旨在针对一张给出的图像产生其对应描述。针对现有算法中语义信息理解不够全面的问题,提出了一个针对图像描述领域的多模态Transformer模型。该模型在注意模块中同时捕捉模态内和模态间的相互作用;更进一步使用ELMo获得包含上下文信息的文本特征,使模型获得更加丰富的语义描述输入。该模型可以对复杂的多模态信息进行更好地理解与推断并且生成更为准确的自然语言描述。该模型在Microsoft COCO数据集上进行了广泛的实验,实验结果表明,相比于使用bottom-up注意力机制以及LSTM进行图像描述的基线模型具有较大的效果提升,模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有0.7、0.4、0.9、1.3、0.6、4.9个百分点的提高。 展开更多
关键词 transformer 图像描述 ELMo 注意力机制
在线阅读 下载PDF
基于多模态Transformer的虚假新闻检测研究 被引量:6
3
作者 王震宇 朱学芳 《情报学报》 CSSCI CSCD 北大核心 2023年第12期1477-1486,共10页
为了减少虚假新闻给社会带来的负面影响,虚假新闻检测一直是自然语言处理中的一个重要领域。现有多模态虚假新闻检测方法通常使用预训练模型充当特征提取器,但是这些方法存在以下不足:(1)预训练模型参数在模型训练过程中总是会冻结,但... 为了减少虚假新闻给社会带来的负面影响,虚假新闻检测一直是自然语言处理中的一个重要领域。现有多模态虚假新闻检测方法通常使用预训练模型充当特征提取器,但是这些方法存在以下不足:(1)预训练模型参数在模型训练过程中总是会冻结,但预训练模型并不完美;(2)基于CNN(convolutional neural network)的图像特征提取器结构通常比基于Transformer的文本特征提取器结构更加复杂,图像特征通常被提前存储,使得这些模型的缺点被忽略。为此,本文提出基于端到端训练的多模态Transformer模型,通过使用视觉Transformer代替CNN提取图像特征,统一了不同模态的特征提取过程,利用共同注意力模块实现图像特征和文本特征交叉融合,并且在3个公开数据集上进行了对比实验。实验结果表明,本文模型性能超越了其他基线模型。 展开更多
关键词 虚假新闻检测 多模态融合 transformer 注意力机制
在线阅读 下载PDF
基于多模态Transformer的机电作动器剩余寿命预测 被引量:7
4
作者 陈子涵 《兵工学报》 EI CAS CSCD 北大核心 2023年第10期2920-2931,共12页
机电作动器在航空航天装备中扮演着重要角色。针对机电作动器剩余寿命预测问题,提出一种基于多模态Transformer模型的机电作动器寿命预测方法。该方法直接使用多通道传感器数据作为输入,综合考虑多模态数据信息,并且不需要人工特征提取... 机电作动器在航空航天装备中扮演着重要角色。针对机电作动器剩余寿命预测问题,提出一种基于多模态Transformer模型的机电作动器寿命预测方法。该方法直接使用多通道传感器数据作为输入,综合考虑多模态数据信息,并且不需要人工特征提取等预处理步骤。多模态Transformer模型利用多头自注意力机制从不同的表示子空间中自适应学习全局特征,能够避免传统深度学习方法难以学习全局特征的缺点。利用多模态Transformer的编码器部分并行提取多模态传感器时间序列中不同传感器的特征,并实时直接预测剩余使用寿命。采用由编码器和解码器组成的完整多模态Transformer模型预测机电作动器的关键性能参数,可同时更直观地预测关键寿命参数的退化过程。使用机电作动器全寿命试验数据验证该方法用于寿命预测的有效性。试验结果表明,所提方法能够准确地直接预测剩余寿命,同时预测关键性能参数的寿命退化过程。 展开更多
关键词 机电作动器 寿命预测 多模态数据 注意力机制
在线阅读 下载PDF
基于U-Net和Transformer结合的不完整多模态脑肿瘤分割方法
5
作者 汤占军 蹇洪 王健 《数据采集与处理》 北大核心 2025年第4期934-949,共16页
由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑... 由于患者个体差异、采集协议多样性和数据损坏等因素,现有基于磁共振成像(Magnetic resonance imaging,MRI)的脑肿瘤分割方法存在模态数据丢失问题,导致分割精度不高。为此,本文提出了一种基于U-Net和Transformer结合的不完整多模态脑肿瘤分割(Incomplete multimodal brain tumor segmentation based on the combination of U-Net and Transformer,IM TransNet)方法。首先,针对脑肿瘤MRI的4个不同模态设计了单模态特定编码器,提升模型对各模态数据的表征能力。其次,在U-Net中嵌入双重注意力的Transformer模块,克服模态缺失引起的信息不完整问题,减少U-Net的长距离上下文交互和空间依赖性局限。在U-Net的跳跃连接中加入跳跃交叉注意力机制,动态关注不同层级和模态的特征,即使在模态缺失时,也能有效融合特征并进行重建。此外,针对模态缺失引起的训练不平衡问题,设计了辅助解码模块,确保模型在各种不完整模态子集上均能稳定高效地分割脑肿瘤。最后,基于公开数据集BRATS验证模型的性能。实验结果表明,本文提出的模型在增强型肿瘤、肿瘤核心和全肿瘤上的平均Dice评分分别为63.19%、76.42%和86.16%,证明了其在处理不完整多模态数据时的优越性和稳定性,为临床实践中脑肿瘤的准确、高效和可靠分割提供了一种可行的技术手段。 展开更多
关键词 注意力机制 脑肿瘤分割 多模态 U-Net transformer
在线阅读 下载PDF
基于双Transformer结构的多模态视频段落描述生成研究
6
作者 赵宏 张立军 《计算机工程与应用》 北大核心 2025年第21期182-191,共10页
针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度... 针对现有视频段落描述方法对视频中主要事件的关注度不足与多事件描述之间缺乏连贯性的问题,在现有编码器-解码器框架的基础上,提出了一种基于双Transformer结构的多模态视频段落描述模型。采用Faster-RCNN对视频中心帧目标进行细粒度特征提取,由混合注意力结合全局视觉特征选择最具代表性的细粒度局部视觉特征,对视频中主要事件信息进行补充与增强,提高视频内容描述的准确性;提出在Transformer结构中增加存储模块与混合注意力模块,并设计了双Transformer结构,内部Transformer对事件内一致性进行建模,外部Transformer由混合注意力计算与当前事件最相关的状态建模事件间的一致性,结合内外部Transformer的输出对事件内容进行预测,提高生成描述语句的连贯性。在ActivityNet Captions数据集和YouCookII数据集上的实验结果表明,所提模型在BLEU-4、METEOR、ROUGE-L和CIDEr指标上相较于现有主流视频段落描述模型有明显提升,验证了模型的有效性。 展开更多
关键词 视频段落描述 编码器-解码器结构 细粒度局部视觉特征 transformer结构
在线阅读 下载PDF
基于多模态视听融合的Transformer语音识别算法研究 被引量:2
7
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 transformer 动态权重分配机制
在线阅读 下载PDF
基于前置归一化Transformer的融合多模态行人过街意图预测模型 被引量:1
8
作者 陈振东 刘广聪 叶振宇 《计算机应用研究》 北大核心 2025年第5期1378-1384,共7页
预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一... 预测行人的过街意图是自动驾驶系统中的行人与车辆交互重要环节之一,目的在于提前预测出道路两侧行人的过街行为,作出减速或避让的决策。为了能够提升识别行人过街意图的准确性,受到前置归一化注意力机制的启发,提出了一种基于前置归一化注意力机制的行人过街意图预测模型,对行人不同模态特征进行提取并互补融合。该模型使用单模态特征增强模块(UFE)对单一模态进行关键特征提取,随后使用多模态特征交互模块(MFI)进行不同模态之间的特征融合。实验证明,在PIE和JAAD数据集上的准确率均达到91%,并且对模态信息的不同融合策略进行了广泛的消融实验,证明了其有效性,为自动驾驶系统提供更准确的行人过街意图预测。 展开更多
关键词 行人过街 意图预测 多模态融合 transformer
在线阅读 下载PDF
基于跨模态交互Transformer的多模态方面级情感分析 被引量:1
9
作者 甘卓浩 缪裕青 +2 位作者 刘同来 张万桢 周明 《计算机应用研究》 北大核心 2025年第9期2707-2713,共7页
针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存... 针对现有多模态方面级情感分析模型存在的视觉信息提取不充分和方面情感语义缺失问题,提出一种基于跨模态交互Transformer的多模态方面级情感分析模型。该模型通过文本语义增强模块融合图像标题与原始文本以弥补情感语义缺失;利用依存句法分析与图卷积网络构建方面感知特征提取模块,捕获方面项与观点词间的长距离依赖;设计跨模态特征交互模块,结合top-n形容词-名词对分布约束策略及多模态融合Transfor-mer,实现图像与文本特征的深层交互。在Twitter-2015、Twitter-2017和ZOL三个数据集上的实验结果表明,CMIT模型在准确率和宏平均F 1值上均优于多个基准模型,验证了其有效性和泛化能力。 展开更多
关键词 多模态方面级情感分析 模态交互 transformer 图卷积网络 形容词-名词对
在线阅读 下载PDF
基于改进集合经验模态分解和强化视觉Transformer模型的风电机组故障预警
10
作者 许伯强 王彪 +1 位作者 孙丽玲 尹彦博 《电工技术学报》 北大核心 2025年第20期6537-6551,共15页
现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器... 现有基于数据采集与监视控制系统(SCADA)数据的风电机组故障预警方法往往只针对风电机组的某一位置或者某一类型故障,无法对风电机组整体进行较为全面的预警。针对这一问题,该文提出了基于改进集合经验模态分解(EEMD)和强化的视觉转换器(ViT)模型的风电机组故障预警方法。首先,对EEMD算法进行改进,分解得到的数据包含不同时间尺度的特征信息,且使得分解过程中不发生信息泄露。采用改进的EEMD算法解构风电机组SCADA多维数据之后,构建反映风电机组实时状态的特征矩阵。然后,结合非对称卷积模块对ViT模型进行强化,并加入可变形注意力模块,在降低计算复杂度的同时使得模型可以充分捕捉不同维度与时间尺度的风电机组特征。最后,将特征矩阵输入强化的ViT模型以获得预测结果,与实际值对比得到残差矩阵,依此进行风电机组故障的预警。经风电机组实际运行SCADA数据验证,该文提出的风电机组故障预警方法准确有效,并可通过残差矩阵进一步辨识风电机组发生的故障类型。 展开更多
关键词 风电机组 数据采集与监视控制系统(SCADA)数据 故障预警 改进集合经验模态分解(EEMD) 强化ViT模型
在线阅读 下载PDF
多模态引导视觉Transformer的小样本农作物病害识别 被引量:2
11
作者 杨森 冯全 +2 位作者 阎文博 周文伟 杨婉霞 《农业工程学报》 北大核心 2025年第6期195-203,共9页
为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学... 为解决现有基于小样本学习方法的农作物病害识别过程中模态信息单一、识别精度低等问题,该研究提出了一种多模态小样本学习(multimodal few-shot learning, MMFSL)模型,并将其应用于低数据场景下的作物病害识别。首先,该模型在小样本学习图像分支中引入视觉Transformer(visual Transformer,ViT)替代传统卷积神经网络编码器,充分利用ViT全局感知特性增强小样本图像的特征提取能力;其次,设计了基于预训练语言模型的文本分支,将类标签嵌入手工设计的提示模板中,并提取模板中特定位置的隐藏向量作为文本嵌入,从而引导模型更精准地选择视觉特征;最后,构建图文对比模块对齐视觉嵌入与文本嵌入,并采用模型无关的元学习(model-agnostic meta-learning, MAML)算法优化网络参数,实现多模态信息的高效融合。试验结果表明,在5way-1shot设置下,MMFSL模型在PlantVillage数据集和自建大田病害数据集上的平均准确率分别为86.97%和56.78%;在5way-5shot设置下,模型在两种数据集上的平均准确率分别为96.33%和74.49%,均优于对比的小样本学习模型。此外,与单模态小样本学习模型相比,MMFSL模型在5way-1shot和5way-5shot设置下的平均准确率分别提升了2.77和0.80个百分点。研究表明,引入文本信息能够提高小样本学习模型的泛化性能,研究结果可为深度学习领域降低病害收集成本提供技术参考。 展开更多
关键词 病害 识别 小样本 多模态 视觉transformer 文本信息
在线阅读 下载PDF
基于Transformer的多模态个性化联邦学习 被引量:1
12
作者 曹行健 孙罡 虞红芳 《电子科技大学学报》 北大核心 2025年第2期242-249,共8页
在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动... 在当前物联网飞速发展的背景下,处理来自各种信息采集设备的多模态数据,尤其是视觉、听觉信号和文本等多元感官信息的数据,对于机器学习落地应用至关重要。Transformer架构和其衍生的大模型在自然语言处理和计算机视觉中的卓越表现推动了对复杂多模态数据处理能力的追求。然而,这也带来了数据隐私安全和满足个性化需求的挑战。为解决这些挑战,提出一种基于多模态Transformer的个性化联邦学习方法,它支持异构数据模态的联邦学习,在保护参与方数据隐私的前提下为其训练更符合其个性化需求的多模态模型。该方法显著提升了多模态个性化模型的性能:相较于对比方法,准确率提高了15%,这标志着多模态个性化联邦学习在应用场景限制上的突破。 展开更多
关键词 多模态 transformer 联邦学习 个性化
在线阅读 下载PDF
融合图Transformer和Vina-GPU+的多模态虚拟筛选新方法
13
作者 张豪 张堃然 +2 位作者 阮晓东 沐勇 吴建盛 《南京大学学报(自然科学版)》 北大核心 2025年第1期83-93,共11页
现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和6... 现代药物发现面临对大规模化合物库进行虚拟筛选的挑战,提高分子对接的速度与精度是核心问题.AutoDock Vina是最受欢迎的分子对接工具之一,我们的Vina-GPU和Vina-GPU+方法在确保对接准确性的同时,分别实现了对AutoDock Vina最高50倍和65.6倍的加速.近年来,大规模预训练模型在自然语言处理和计算机视觉领域取得了巨大成功,这种范式对解决虚拟筛选面临的重大挑战也具有巨大潜力.因此,提出一种多模态虚拟筛选新方法Vina-GPU GT,结合了Vina-GPU+分子对接技术和预训练的Graph Transformer(GT)模型,以实现快速精确的虚拟筛选.该方法包括三个连续步骤:(1)通过对已有分子属性预测的预训练GT模型进行知识蒸馏,学到一个小的SMILES Transformer(ST)模型;(2)通过ST模型推理化合物库中所有分子,并根据主动学习规则微调ST模型;(3)利用微调后的ST模型进行虚拟筛选.在三个重要靶点和两个化合物库上进行了虚拟筛选实验,并与两种虚拟筛选方法进行了比较,结果表明,Vina-GPU GT的虚拟筛选性能最优. 展开更多
关键词 虚拟筛选 Graph transformer Vina-GPU+ 多模态 知识蒸馏 主动学习
在线阅读 下载PDF
CNN与Transformer协同的多模态边缘检测网络
14
作者 李永辉 赵耀 +2 位作者 加小红 魏琛珍 常文文 《计算机工程与应用》 北大核心 2025年第14期195-205,共11页
边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一... 边缘检测在计算机视觉任务中扮演至关重要的角色,然而,现有边缘检测算法主要依赖CNN作为编码器,导致其在精细度、准确性以及噪声处理等方面存在缺陷。为了解决这些问题,提出了一个CNN与Transformer协同的多模态边缘检测网络。设计了一个基于无参数注意力残差结构的高分辨率特征融合模块,保留图像的底层属性,增强全局特征表示;设计了一种包含多尺度混洗注意力模块的轻量化CNN层来完成梯度编码,捕捉图像的高频属性,利用Transformer架构实现特征编码,构建高层的全局依赖关系,通过融合高频属性和全局依赖关系重构特征表达,将CNN、Transformer以及高分辨率特征融合模块的多尺度特征进行逐层聚合解码,从而高精度定位图像边界。与主流算法相比,所提模型在BSDS500、NYUD-v2上均获得较优指标。 展开更多
关键词 边缘检测 卷积神经网络(CNN) transformer 多模态 深度学习
在线阅读 下载PDF
基于TCN-Bi-GRU和交叉注意Transformer的多模态情感识别 被引量:2
15
作者 李嘉华 陈景霞 白义民 《陕西科技大学学报》 北大核心 2025年第1期161-168,共8页
多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交... 多模态语音情感识别是近年来在自然语言处理和机器学习领域备受关注的研究方向之一,不同模态的数据存在异构性和不一致性,将不同模态信息有效地融合起来并学习到高效的表示形式是一个挑战.为此,本文提出了一种新的基于时序信息建模和交叉注意力的多模态语音情感识别模型.首先采用时间卷积网络(Time Convolutional Network,TCN)提取语音、文本和视频数据的深层时序特征,使用双向门控递归单元(Bidirectional Gated Recurrent Unit,Bi-GRU)捕捉序列数据的上下文信息,提高模型对序列数据的理解能力.然后基于交叉注意力机制和Transformer构建多模态融合网络,用于挖掘并捕获音频、文本和视觉特征之间交互的情感信息.此外,在训练过程中引入弹性网络正则化(Elastic Net Regularization)防止模型过拟合,最后完成情感识别任务.在IEMOCAP数据集上,针对快乐、悲伤、愤怒和中性四类情感的分类实验中,准确率分别为87.6%、84.1%、87.5%、71.5%,F1值分别为85.1%、84.3%、87.4%、71.4%.加权平均精度为80.75%,未加权平均精度为82.80%.结果表明,所提方法实现了较好的分类性能. 展开更多
关键词 语音识别 多模态情感识别 时间卷积网络 交叉注意力机制 弹性网络
在线阅读 下载PDF
结合CNN-Transformer的跨模态透明物体分割 被引量:1
16
作者 潘惟兰 张荣芬 +2 位作者 刘宇红 张吉友 孙龙 《计算机工程与应用》 北大核心 2025年第4期222-229,共8页
透明物体具有高透明度、光泽度和特殊质地等视觉特性,这些特性使得物体与背景之间的边界往往模糊不清,导致传统的图像分割算法难以准确识别和分割,因此提出结合CNN-Transformer的跨模态透明物体语义分割算法CTNet。该算法采用CNN和Trans... 透明物体具有高透明度、光泽度和特殊质地等视觉特性,这些特性使得物体与背景之间的边界往往模糊不清,导致传统的图像分割算法难以准确识别和分割,因此提出结合CNN-Transformer的跨模态透明物体语义分割算法CTNet。该算法采用CNN和Transformer混合网络的编码-解码结构跨模态对透明物体类别和位置进行预测,CNN用于提取图像特征,Transformer用于多模态融合(multimodal fusion transformer,MFT);设计边界特征增强注意力模块(enhanced boundary attention module,EBAM),提升图像边缘分割能力;提出多尺度融合解码结构,减少模糊特征。CTNet在RGB-T-Glass数据集上的平均绝对误差(mean absolute error,MAE)为3.3%,交并比(intersection over union,IOU)在包含透明物体和不含透明物体的测试集上分别为90.18%和95.00%;在GDD数据集上,MAE为6.9%,IOU为87.6%。实验结果表明,CTNet利用可见光和热红外图像成功实现了对透明物体的准确分割,满足目标任务中对透明物体分割时的精确性和鲁棒性要求。 展开更多
关键词 CNN-transformer 多模态 透明物体 语义分割 特征融合
在线阅读 下载PDF
基于自上而下掩码生成与层叠Transformer的多模态情感分析
17
作者 冯程 杨海 +1 位作者 王淑娴 李雪 《计算机工程与应用》 北大核心 2025年第14期214-222,共9页
针对现有情感分析模型难以捕捉不同模态之间的信息相关性和跨模态特征融合中的信息冗余问题,提出了一种基于自上而下掩码生成与层叠Transformer的多模态情感分析模型。通过掩码生成模块,生成双模态特征的掩码并作用于另一模态,以挖掘不... 针对现有情感分析模型难以捕捉不同模态之间的信息相关性和跨模态特征融合中的信息冗余问题,提出了一种基于自上而下掩码生成与层叠Transformer的多模态情感分析模型。通过掩码生成模块,生成双模态特征的掩码并作用于另一模态,以挖掘不同模态间的相互关系和互补性,生成更丰富的模态特征表示。采用三层堆叠的Transformer结构,对多模态特征进行多层次融合,生成三个子模态融合向量,并有效合并以提升融合深度、避免冗余,最终得到用于情感分析的多模态特征融合向量。实验结果显示,在CMU-MOSI和CMU-MOSEI数据集上,模型表现优越,MAE值分别为0.675和0.508,二分类准确率分别达85.6%和85.1%。 展开更多
关键词 多模态情感分析 模态融合 掩码生成
在线阅读 下载PDF
基于量子Transformer的多模态实体关系联合抽取方法
18
作者 李代祎 孔德龙 +2 位作者 吴怀广 张佳慧 韩宇璨 《计算机科学》 北大核心 2025年第S2期110-117,共8页
多模态命名实体识别(Multimodal Name Entity Recognition,MNER)和多模态关系抽取(Multimodal Relation Extraction,MRE)是多模态知识图谱构建中的两个关键技术。然而,现有的MNER和MRE方法在对高维数据进行特征提取和融合时还存在一定... 多模态命名实体识别(Multimodal Name Entity Recognition,MNER)和多模态关系抽取(Multimodal Relation Extraction,MRE)是多模态知识图谱构建中的两个关键技术。然而,现有的MNER和MRE方法在对高维数据进行特征提取和融合时还存在一定的局限性。为了解决这些问题,提出了一种基于量子Transformer的多模态实体关系联合抽取方法。首先,设计一种针对文本数据处理的参数化量子电路,该线路利用量子力学中的叠加和纠缠特性,结合Transformer模型提取文本深层特征;其次,通过设计的金字塔视觉特征提取模型获取包含从高到底的金字塔状的层次特征,充分考虑到了图像的多尺度信息。最后,通过设计的分层视觉前缀网络将分层多尺度图像特征与文本特征对齐并融合,获取鲁棒性高的文本表示。本研究为多模态实体关系抽取提供了新的研究思路,在3个公开基准数据集上的实验结果表明,提出的基于量子Transformer多模态实体关系抽取方法是有效且稳定的。 展开更多
关键词 多模态实体识别 多模态关系抽取 金字塔特征 transformer 特征融合
在线阅读 下载PDF
结合迁移学习和Transformer模型的低资源多模态语音情感识别
19
作者 戴佳惠 黄敏 肖仲喆 《声学技术》 北大核心 2025年第5期721-729,共9页
语音情感识别长期面临单模态语音对情感信息体现不足,以及语料库规模通常较小的问题。针对这两个问题,文章提出了一种多模态情感识别与迁移学习相结合的方法,利用包含语音和声门波信号的多模态数据充分获取语音中的情感信息,并通过多情... 语音情感识别长期面临单模态语音对情感信息体现不足,以及语料库规模通常较小的问题。针对这两个问题,文章提出了一种多模态情感识别与迁移学习相结合的方法,利用包含语音和声门波信号的多模态数据充分获取语音中的情感信息,并通过多情感语料库间的信息迁移,对低资源的单一语料库进行扩充,使其可以适应深度学习算法,并以Transformer模型作为迁移学习使用的基础网络,达到提升语音情感识别性能的效果。该工作以语音和电声门图这两种模态的信号为研究对象,以具有详尽标注信息的CDESD语料库(汉语双模情感语音数据库)为源域,在其上训练Transformer模型,获得充分的情感信息表达能力,并将此模型迁移到低资源的目标域数据集STEM-E2VA中。文章对所提出的方法在四分类的语音情感识别任务上进行了实验验证,在跨语料库情感识别方面达到了89.17%的平均准确率,相比于迁移前有了显著提升。 展开更多
关键词 transformer模型 迁移学习 情感识别 多模态
在线阅读 下载PDF
基于多模态掩码Transformer网络的社会事件分类 被引量:1
20
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部