-
题名多尺度模态感知在文本指代实例分割中的研究与应用
- 1
-
-
作者
刘静
胡永利
刘秀平
谭红臣
尹宝才
-
机构
北京工业大学人工智能与自动化学院
大连理工大学数学科学学院
-
出处
《图学学报》
CSCD
北大核心
2022年第6期1150-1158,共9页
-
基金
第7批全国博士后创新人才支持计划(BX20220025)
第70批全国博士后面上资助(2021M700303)。
-
文摘
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。
-
关键词
视觉与语言
文本指代实例分割
异模态融合与感知
特征金字塔
-
Keywords
visual and language
referring image segmentation
multi-modality fusion and perception
feature pyramid network
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-