-
题名基于多级视觉与图文动态交互的图像中文描述方法
- 1
-
-
作者
张军燕
赵一鸣
林兵
吴允平
-
机构
福建师范大学光电与信息工程学院
福建师范大学物理与能源学院
-
出处
《计算机应用》
北大核心
2025年第5期1520-1527,共8页
-
基金
国家自然科学海峡联合基金重点项目(U1805263)
福建省科技厅产学研项目(2022H6024)
福建省本科高校教育教学研究一般项目(39)。
-
文摘
图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器端提取多级视觉特征,通过图像局部特征提取器的辅助引导模块获取多粒度特征。其次,设计图文交互模块对图文信息的语义关联进行动态关注;同时,设计特征动态融合解码器将带有图文信息动态权重的特征经过闭环动态融合并关注与解码,以保证信息增强且无缺失,从而获得语义关联性的输出。最后,生成语义通顺的图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr指标评估方法的有效性并与8种不同方法进行对比。实验结果显示,所提方法的语义相关性评价指标均有提升。具体而言,与基线模型NIC(Neural Image Caption)相比,所提方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.62%、7.25%、8.78%、10.85%、14.06%、5.14%、15.16%,表明该方法具有较好的准确性。
-
关键词
图像中文描述
图像多级视觉特征
多粒度
图文交互
动态融合
-
Keywords
Chinese image captioning
image multi-level visual feature
multi-granularity
image-text interaction
dynamic fusion
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-