-
题名联合视觉分组的图像中文描述
- 1
-
-
作者
郝子娴
汪兴建
杨有
-
机构
重庆师范大学计算机与信息科学学院
重庆青年职业技术学院
重庆师范大学重庆国家应用数学中心
-
出处
《微电子学与计算机》
2024年第8期73-80,共8页
-
基金
重庆市教委科学技术研究项目(KJZD-K202200504,KJQN-202200564)
重庆市教育科学“十四五”规划项目(2022-576)。
-
文摘
针对图像描述任务中使用的编码器提取图像细粒度语义特征不充分,导致模型生成的描述内容粗糙而文本细腻度不足的问题,提出了一种联合视觉分组的图像中文描述模型。模型采用编解码结构,编码阶段,使用两种方式实现图像全局语义和局部细节两类特征的提取。首先,使用对比语言图像预训练编码器提取图像的潜在语义信息;其次,结合视觉分组的思想将图像中各物体类别划分为不同规则大小的视觉片段,以此提取图像细节特征。最后。对编码器得到的两类特征进行融合,并通过映射网络转换为描述文本的前缀信息,再嵌入到语言模型中。解码阶段,使用语言模型GPT-2生成图像描述。与相关文献的模型相比,所提模型在BLEU-1到BLEU-4评价指标上分别获得了0.815、0.711、0.616和0.532,达到了最佳性能。在AIC-ICC数据集上进行仿真实验,结果表明所提出模型生成的描述文本更准确、更流畅。
-
关键词
图像中文描述
视觉分组
特征融合
图像语义
编解码器
-
Keywords
image captioning in Chinese
visual grouping
feature integration
image semantics
encoding and decoding
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-