期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于多尺度跨模态特征融合的图文情感分类模型 被引量:1
1
作者 刘倩 白志豪 +1 位作者 程春玲 归耀城 《计算机科学》 CSCD 北大核心 2024年第9期258-264,共7页
图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于... 图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于多尺度跨模态特征融合的图文情感分类方法。局部尺度方面,基于跨模态注意力机制进行局部特征融合,使模型不仅关注图像和文本的独有信息,而且可以发现图像和文本之间的联系和共有信息。全局尺度方面,基于MLM损失进行全局特征融合,使模型对图像和文本数据进行全局建模,进一步挖掘图像和文本之间的联系,从而促进图像和文本特征的深度融合。在两个公开数据集MVSA-Single和MVSA-Multiple上与10个基线模型进行对比实验,结果表明所提方法在精度、F1值和模型参数量方面均具有明显优势,验证了其有效性。 展开更多
关键词 图文情感分类 跨模态特征融合 Transformer模型 注意力机制 MLM损失
在线阅读 下载PDF
基于注意力机制和跨模态层级特征融合的群养肉牛个体质量估测
2
作者 宋平 杨颖 +3 位作者 刘刚 姚冲 李子若 毛天赐 《农业工程学报》 北大核心 2025年第10期221-231,共11页
为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-g... 为解决群养场景下肉牛个体质量称量复杂、精度低的问题,该研究提出了基于注意力机制和跨模态层级特征融合模型CMHFF-ResNet(cross-modal hierarchical feature fusion resnet)。首先,无接触式地采集俯视视角下日常活动的肉牛的RGB(red-green-blue)图像与深度图像,使用引入定向边界框OBB(oriented bounding box)的YOLOv8网络对肉牛进行旋转目标检测和识别,精准定位群养场景中的个体目标;其次,以ResNet50为骨干网络构建双流估重模型,分别提取RGB和深度模态特征,并引入CBAM(convolutional block attention module)注意力机制以增强关键特征表达能力。设计跨模态的层级特征融合,有效结合RGB流和深度流的特征并充分利用浅层特征;第三,引入肉牛的身份信息便于网络学习肉牛身份与其体质量之间的对应关系,为优化模型效率,将全连接层替换为KAN(kolmogorov-arnold networks),显著减少参数量;最后,将双流的输出结果融合,回归肉牛体质量值。在试验中,构建了包含2546对RGB-D图像的数据集,包括2373对训练数据和173对验证数据。结果表明,CMHFF-ResNet在验证集上的平均绝对误差为14.19 kg。与基于RGB和深度的单流模型相比,双流模型在平均绝对误差上分别降低16.943%和26.133%。同时,该方法优于其他现有肉牛体质量估测方法:与多元线性回归、改进MobileNetv2模型、改进DenseNet201模型和改进跨模态特征融合模型CFF-ResNet相比,在平均绝对误差上分别减少57.233%、34.699%、24.761%和20.991%,提升了群养环境下肉牛个体质量估测的精度与泛化性,能够有效地学习跨模态的层级特征表示。该研究为大规模群养环境中肉牛个体质量的高精度估测提供了参考。 展开更多
关键词 模型 计算机视觉 目标检测 体质量估测 注意力机制 模态层级特征融合 双流网络
在线阅读 下载PDF
多模态特征融合的RGB-T目标跟踪网络
3
作者 金静 刘建琴 翟凤文 《光学精密工程》 北大核心 2025年第12期1940-1954,共15页
近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这... 近年来,RGB-T跟踪方法因可见光与热红外图像的互补特性而在视觉跟踪领域得到广泛应用。然而,现有方法在模态互补信息利用方面仍存在局限,特别是基于Transformer的算法缺乏模态间的直接交互,难以充分挖掘RGB和TIR模态的语义信息。针对这些问题,提出了一种多模态特征融合的RGB-T目标跟踪网络(Multi-Modal Feature Fusion Tracking Network for RGB-T,MMFFTN)。该网络首先在骨干网络提取初步特征后,引入通道特征融合模块(Channel Feature Fusion Module,CFFM),实现RGB和TIR通道特征的直接交互与融合。其次,针对RGB和TIR模态差异可能导致的融合效果不理想问题,设计了跨模态特征融合模块(Cross-Modal Feature Fusion Module,CMFM),通过自适应融合策略进一步融合RGB和TIR的全局特征,以提升跟踪的准确性。对本文提出的跟踪模型在GTOT,RGBT234和LasHeR三个数据集上进行了详细的实验评估。实验结果表明,与当前先进的基于Transformer的跟踪器ViPT相比,MMFFTN在成功率(Success Rate)和精确率(Precision Rate)上分别提升了3.0%和4.7%;与基于Transformer的跟踪器SDSTrack相比,成功率和精确率分别提升了2.4%和3.3%。 展开更多
关键词 RGB-T目标跟踪 TRANSFORMER 通道特征融合 跨模态特征融合
在线阅读 下载PDF
基于推文传播模式与跨模态特征的网络谣言检测研究 被引量:1
4
作者 彭竞杰 顾益军 张岚泽 《情报杂志》 CSSCI 北大核心 2024年第8期124-134,58,共12页
[研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖... [研究目的]为了有效治理网络谣言,减少网络谣言对社会稳定带来的威胁,提出充分整合帖子的多模态信息和传播模式信息对谣言进行精准识别。[研究方法]提出融合推文传播模式信息与跨模态特征的网络谣言检测模型(PPCMRD)。在推文传播特征挖掘方面,首先通过推断潜在连接补全推文传播图,接着采用双向标签图注意力模块编码推文的多个传播模式,然后通过传播模式信息融合模块捕获模式特征间的互补信息,得到帖子的传播特征;在整合多模态特征方面,该模型将帖子的文本、图像和推文传播特征集成在一起,采用跨模态共同注意力机制捕捉不同模态信息间的互补关系,得到帖子的最终嵌入表示,判断是否是谣言。[研究结论]在两个公开数据集上的实验结果表明,PPCMRD模型能够有效地检测谣言,并优于当前的基线模型。 展开更多
关键词 网络谣言 谣言检测 网络谣言检测模型 推文传播模式信息 跨模态特征融合
在线阅读 下载PDF
基于改进的FGM-CM-BERT模型多模态情感分析方法
5
作者 李仁正 高冠东 +1 位作者 宋胜尊 肖珂 《河北大学学报(自然科学版)》 北大核心 2025年第2期192-203,共12页
针对语音文本多模态情感分析方法中泛化能力弱和特征融合效率低的问题,提出了一种改进的FGM-CM-BERT模型,改进快速梯度法(FGM)以对抗训练提升模型泛化能力,并采用多头注意力机制提取融合多模态特征,以提升算法准确度.首先,根据多模态数... 针对语音文本多模态情感分析方法中泛化能力弱和特征融合效率低的问题,提出了一种改进的FGM-CM-BERT模型,改进快速梯度法(FGM)以对抗训练提升模型泛化能力,并采用多头注意力机制提取融合多模态特征,以提升算法准确度.首先,根据多模态数据特征,通过一种基于输入数据特征的自适应参数调整策略来改进FGM权重函数,在embedding层增加自适应扰动提升模型泛化能力;其次,在跨模态交互层提出利用多头自注意力机制,通过将文本查询和音频键值对交叉融合,在特征融合效率与模型复杂度之间达到了较好的平衡;最后,实验采用CMU-MOSI和CMU-MOSEI数据集,对比了常用的15个基线模型,结果表明:该模型在七类情绪评分分类及二元情绪分类的准确率较基线模型均有所提升,分别达到了48.2%和87.5%,验证了该方法的有效性. 展开更多
关键词 模态情感分析 快速梯度法 多头注意力机制 对抗训练 自适应扰动 跨模态特征融合
在线阅读 下载PDF
基于知识图谱增强的领域多模态实体识别 被引量:3
6
作者 李华昱 张智康 +1 位作者 闫阳 岳阳 《计算机工程》 CAS CSCD 北大核心 2024年第8期31-39,共9页
针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet15... 针对特定领域中文命名实体识别存在的局限性,提出一种利用学科图谱和图像提高实体识别准确率的模型,旨在利用领域图谱和图像提高计算机学科领域短文本中实体识别的准确率。使用基于BERT-BiLSTMAttention的模型提取文本特征,使用ResNet152提取图像特征,并使用分词工具获得句子中的名词实体。通过BERT将名词实体与图谱节点进行特征嵌入,利用余弦相似度查找句子中的分词在学科图谱中最相似的节点,保留到该节点距离为1的邻居节点,生成最佳匹配子图,作为句子的语义补充。使用多层感知机(MLP)将文本、图像和子图3种特征映射到同一空间,并通过独特的门控机制实现文本和图像的细粒度跨模态特征融合。最后,通过交叉注意力机制将多模态特征与子图特征进行融合,输入解码器进行实体标记。在Twitter2015、Twitter2017和自建计算机学科数据集上同基线模型进行实验比较,结果显示,所提方法在领域数据集上的精确率、召回率和F1值分别可达88.56%、87.47%和88.01%,与最优基线模型相比,F1值提高了1.36个百分点,表明利用领域知识图谱能有效提升实体识别效果。 展开更多
关键词 命名实体识别 模态 领域 知识图谱 跨模态特征融合 注意力机制
在线阅读 下载PDF
基于多任务学习与层叠Transformer的多模态情感分析模型 被引量:5
7
作者 陈巧红 孙佳锦 +1 位作者 漏杨波 方志坚 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第12期2421-2429,共9页
针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模... 针对单模态特征提取存在的模态特征异质性难以保留问题和跨模态特征融合存在的特征冗余问题,基于跨模态Transformer,提出新的多模态情感分析模型(MTSA).使用长短时记忆(LSTM)与多任务学习框架提取单模态上下文语义信息,通过累加辅助模态任务损失以筛除噪声并保留模态特征异质性.使用多任务门控机制调整跨模态特征融合,通过层叠Transformer结构融合文本、音频与视觉模态特征,提升融合深度,避免融合特征冗余.在2个公开数据集MOSEI和SIMS上的实验结果表明,相较于其他先进模型,MTSA的整体性能表现更好,二分类准确率分别达到83.51%和84.18%. 展开更多
关键词 模态情感分析 长短时记忆(LSTM) TRANSFORMER 多任务学习 跨模态特征融合
在线阅读 下载PDF
基于彩色图像高频信息引导的深度图超分辨率重建算法研究 被引量:2
8
作者 李嘉莹 梁宇栋 +2 位作者 李少吉 张昆鹏 张超 《计算机科学》 CSCD 北大核心 2024年第7期197-205,共9页
深度图像信息是三维场景信息的重要组成部分,然而,由于采集设备的局限性和成像环境的多样性,深度传感器获取的深度图像往往分辨率较低、高频信息较少,限制了其在各种计算机视觉任务中的进一步应用。深度图超分辨率试图提高深度图的分辨... 深度图像信息是三维场景信息的重要组成部分,然而,由于采集设备的局限性和成像环境的多样性,深度传感器获取的深度图像往往分辨率较低、高频信息较少,限制了其在各种计算机视觉任务中的进一步应用。深度图超分辨率试图提高深度图的分辨率,是一项实用而有价值的任务。同一场景下的RGB图像分辨率高,纹理信息丰富,部分深度图超分辨率算法通过引入来自同一场景下的RGB图像提供指导信息,实现了算法性能的显著提升。然而,由于RGB图像和深度图之间的模态不一致,如何充分、有效地利用RGB信息辅助深度图像进行图像超分辨率重建仍然极具挑战。为此,提出了一种基于彩色图像高频信息引导的深度图超分辨率重建算法。具体地,设计了一个高频特征提取模块来自适应地学习彩色图像中的高频信息,以指导深度图边缘的重建。另外,设计了一个特征自注意力模块来获取特征之间的全局依赖,同时提取更深层次的特征,以帮助深度图细节信息的恢复。经过跨模态融合,重组深度图像特征和彩色图像引导特征,并使用多尺度特征融合模块融合不同尺度特征之间的空间结构信息,获取包含多级感受野的重建信息。最后,通过深度重建模块,恢复相应的高分辨率深度图。公开数据集上的实验结果表明所提方法在定量和定性两方面均优于对比方法,验证了所提方法的有效性。 展开更多
关键词 深度图超分重建 深度学习 跨模态特征融合 高频信息 自注意力机制
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部