期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于语言和视觉融合Transformer的指代图像分割
被引量:
2
1
作者
段勇
刘铁
《传感技术学报》
CAS
CSCD
北大核心
2024年第7期1193-1201,共9页
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能...
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。
展开更多
关键词
深度学习
指代图像分割
自然语言处理
注意力机制
Transformer模型
在线阅读
下载PDF
职称材料
针对图像指代分割的训练后量化策略
2
作者
杨航
姜晓燕
《计算机应用研究》
北大核心
2025年第7期2025-2031,共7页
图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考...
图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考量。为解决这一问题,设计并实现了一种有效的训练后量化框架。具体而言,首先深入分析了使用朴素量化方法导致模型性能崩溃的根本原因,据此提出了双区域均衡量化策略以解决视觉编码器中softmax和GELU操作后激活值非正态分布问题,同时引入重排序分组量化策略应对文本编码器的线性层异常激活值带来的量化难题。在三个基准数据集上设置不同量化位宽进行大量实验,结果表明,所提方法在与现有方法的对比中展现出显著的优越性。作为首个专为图像指代分割任务设计量化方案的工作,验证了使用训练后量化策略将图像指代分割模型高效部署到边缘设备的可行性。
展开更多
关键词
图像
指代
分割
训练后量化
跨模态融合
深度学习
在线阅读
下载PDF
职称材料
题名
基于语言和视觉融合Transformer的指代图像分割
被引量:
2
1
作者
段勇
刘铁
机构
沈阳工业大学信息科学与工程学院
出处
《传感技术学报》
CAS
CSCD
北大核心
2024年第7期1193-1201,共9页
基金
辽宁省高等学校优秀科技人才支持计划(LR15045)
辽宁省教育厅科学研究经费面上项目(LJKZ0139)。
文摘
针对指代图像分割任务中存在语言表达歧义、多模态特征对齐不充分、对图像整体理解不全面等问题,提出一种基于Transformer特征融合与对齐的多模态深度学习模型。该模型使用优化的Darknet53图像特征提取骨干网络,加强了对全局特征理解能力。使用了卷积神经网络结构、双向门控循环单元Bi-GRU结构和自注意力机制相互结合的语言特征提取结构,挖掘深层次语义特征,消除语言表达的歧义性。构建了基于Transformer的特征对齐结构,以提升模型的分割细节和分割精度。最后,采用平均的交并比mIoU和在不同阈值的识别精度作为模型评估指标,通过实验证明所提模型可以充分融合多模态的特征,理解多模态特征的深层语义信息,模型识别结果更加准确。
关键词
深度学习
指代图像分割
自然语言处理
注意力机制
Transformer模型
Keywords
deep learning
referring image segmentation
natural language processing
attention mechanism
transformer model
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
针对图像指代分割的训练后量化策略
2
作者
杨航
姜晓燕
机构
上海工程技术大学电子电气工程学院
出处
《计算机应用研究》
北大核心
2025年第7期2025-2031,共7页
基金
国家自然科学基金资助项目(U2033218)。
文摘
图像指代分割(RIS)旨在通过理解视觉和语言信息来分割图像中给定语句所描述的对象,在交互式图片编辑以及语言引导的人机交互领域具有很强的应用前景。然而,现有解决方案倾向于探索高性能模型,忽视了对资源有限的边缘设备上实际应用的考量。为解决这一问题,设计并实现了一种有效的训练后量化框架。具体而言,首先深入分析了使用朴素量化方法导致模型性能崩溃的根本原因,据此提出了双区域均衡量化策略以解决视觉编码器中softmax和GELU操作后激活值非正态分布问题,同时引入重排序分组量化策略应对文本编码器的线性层异常激活值带来的量化难题。在三个基准数据集上设置不同量化位宽进行大量实验,结果表明,所提方法在与现有方法的对比中展现出显著的优越性。作为首个专为图像指代分割任务设计量化方案的工作,验证了使用训练后量化策略将图像指代分割模型高效部署到边缘设备的可行性。
关键词
图像
指代
分割
训练后量化
跨模态融合
深度学习
Keywords
referring image segmentation(RIS)
post-training quantization(PTQ)
cross-model fusion
deep learning
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于语言和视觉融合Transformer的指代图像分割
段勇
刘铁
《传感技术学报》
CAS
CSCD
北大核心
2024
2
在线阅读
下载PDF
职称材料
2
针对图像指代分割的训练后量化策略
杨航
姜晓燕
《计算机应用研究》
北大核心
2025
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部