-
题名基于特征对齐融合的双波段图像描述生成方法
- 1
-
-
作者
顾梦瑶
蔺素珍
晋赞霞
李烽源
-
机构
中北大学计算机科学与技术学院
-
出处
《现代电子技术》
北大核心
2025年第7期65-71,共7页
-
基金
山西省自然科学基金项目(202303021211147)
山西省知识产权局专利转化专项计划(202302001)
+1 种基金
国家自然科学基金项目(62406296)
山西省留学回国人员科技活动择优资助项目(20230017)。
-
文摘
为了获得更准确、全面的现场信息,采用红外和可见光同步成像探测复杂场景已成为常态,但现有图像描述研究仍集中于可见光图像,无法全面而准确地描述已探测到的场景信息。为此,文中提出一种基于特征对齐融合的可见光⁃红外双波段图像描述生成方法。首先,利用Faster⁃RCNN分别提取可见光图像的区域特征和红外图像的网格特征;其次,以Transformer为基本架构,在可见光⁃红外图像对齐融合(VIIAF)编码器中引入位置信息做桥接,进行可见光⁃红外图像特征的对齐与融合;接着,将融合得到的视觉信息输入Transformer解码器中得到粗粒度文本的隐藏状态;最后将编码器输出的视觉信息、解码器得到的隐藏状态与经训练的Bert输出的语言信息输入所设计的自适应模块,使视觉信息和语言信息参与文本预测,实现文本由粗到细的图像描述。在可见光图像⁃红外图像描述数据集上进行的多组实验表明:所提方法不仅能够精确捕捉到可见光和红外图像间的互补信息,而且与使用Transformer的最优模型相比,其性能在BLEU⁃1、BLEU⁃2、BLEU⁃3、BLEU⁃4、METROR、ROUGE以及CIDEr指标上分别提高1.9%、2.1%、2.0%、1.8%、1.3%、1.4%、4.4%。
-
关键词
图像描述
双波段
特征对齐融合
注意力机制
TRANSFORMER
语言模型
Bert
自适应
-
Keywords
image captioning
dual⁃band
feature alignment fusion
attention mechanism
Transformer
language model
Bert
adaption
-
分类号
TN911.73-34
[电子电信—通信与信息系统]
TP391
[自动化与计算机技术—计算机应用技术]
-