期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多级视觉与图文动态交互的图像中文描述方法
1
作者 张军燕 赵一鸣 +1 位作者 林兵 吴允平 《计算机应用》 北大核心 2025年第5期1520-1527,共8页
图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器... 图像文字描述技术可以帮助计算机更好地理解图像内容,实现跨模态交互。针对图像中文描述任务中存在的图像多粒度特征提取不全面以及图文关联性理解不充分等问题,提出一种基于多级视觉与图文动态交互的图像中文描述方法。首先,在编码器端提取多级视觉特征,通过图像局部特征提取器的辅助引导模块获取多粒度特征。其次,设计图文交互模块对图文信息的语义关联进行动态关注;同时,设计特征动态融合解码器将带有图文信息动态权重的特征经过闭环动态融合并关注与解码,以保证信息增强且无缺失,从而获得语义关联性的输出。最后,生成语义通顺的图像中文描述语句。使用BLEU-n、Rouge、Meteor、CIDEr指标评估方法的有效性并与8种不同方法进行对比。实验结果显示,所提方法的语义相关性评价指标均有提升。具体而言,与基线模型NIC(Neural Image Caption)相比,所提方法在BLEU-1、BLEU-2、BLEU-3、BLEU-4、Rouge_L、Meteor、CIDEr分别提升了5.62%、7.25%、8.78%、10.85%、14.06%、5.14%、15.16%,表明该方法具有较好的准确性。 展开更多
关键词 图像中文描述 图像多级视觉特征 多粒度 图文交互 动态融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部