期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
多尺度模态感知在文本指代实例分割中的研究与应用
1
作者 刘静 胡永利 +2 位作者 刘秀平 谭红臣 尹宝才 《图学学报》 CSCD 北大核心 2022年第6期1150-1158,共9页
文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度... 文本指代实例分割(RIS)任务是解析文本描述所指代的实例,并在对应图像中分割出该实例,是计算机视觉与媒体领域中热门的研究课题。当前,大多数RIS方法基于单尺度文本/图像模态信息的融合,以感知指代实例的位置和语义信息。然而,单一尺度模态信息很难同时涵盖定位不同大小实例所需的语义和结构上下文信息,阻碍了模型对任意大小指代实例的感知,进而影响模型对不同大小指代实例的分割。对此,设计多尺度视觉-语言交互感知模块和多尺度掩膜预测模块:前者增强模型对不同尺度实例语义与文本语义之间的融合与感知;后者通过充分捕捉不同尺度实例的所需语义和结构信息提升指代实例分割的表现。由此,提出了多尺度模态感知的文本指代实例分割模型(MMPN-RIS)。实验结果表明,MMPN-RIS模型在RefCOCO,RefCOCO+和RefCOCOg3个公开数据集的oIoU指标上均达到了前沿性能;针对文本指代不同尺度实例的分割,MMPN-RIS模型有着较好的表现。 展开更多
关键词 视觉与语言 文本指代实例分割 异模态融合与感知 特征金字塔
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部