期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于语言和视觉融合Transformer的指代图像分割 被引量:2
1
作者 段勇 刘铁 《传感技术学报》 CAS CSCD 北大核心 2024年第7期1193-1201,共9页
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能... 针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。 展开更多
关键词 深度学习 指代图像分割 自然语言处理 注意力机制 Transformer模型
在线阅读 下载PDF
针对图像指代分割的训练后量化策略
2
作者 杨航 姜晓燕 《计算机应用研究》 北大核心 2025年第7期2025-2031,共7页
图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考... 图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考量。为解决这一问题,设计并实现了一种有效的训练后量化框架。具体而言,首先深入分析了使用朴素量化方法导致模型性能崩溃的根本原因,据此提出了双区域均衡量化策略以解决视觉编码器中softmax和GELU操作后激活值非正态分布问题,同时引入重排序分组量化策略应对文本编码器的线性层异常激活值带来的量化难题。在三个基准数据集上设置不同量化位宽进行大量实验,结果表明,所提方法在与现有方法的对比中展现出显著的优越性。作为首个专为图像指代分割任务设计量化方案的工作,验证了使用训练后量化策略将图像指代分割模型高效部署到边缘设备的可行性。 展开更多
关键词 图像指代分割 训练后量化 跨模态融合 深度学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部