期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
联合视觉分组的图像中文描述
1
作者 郝子娴 汪兴建 杨有 《微电子学与计算机》 2024年第8期73-80,共8页
针对图像描述任务中使用的编码器提取图像细粒度语义特征不充分,导致模型生成的描述内容粗糙而文本细腻度不足的问题,提出了一种联合视觉分组的图像中文描述模型。模型采用编解码结构,编码阶段,使用两种方式实现图像全局语义和局部细节... 针对图像描述任务中使用的编码器提取图像细粒度语义特征不充分,导致模型生成的描述内容粗糙而文本细腻度不足的问题,提出了一种联合视觉分组的图像中文描述模型。模型采用编解码结构,编码阶段,使用两种方式实现图像全局语义和局部细节两类特征的提取。首先,使用对比语言图像预训练编码器提取图像的潜在语义信息;其次,结合视觉分组的思想将图像中各物体类别划分为不同规则大小的视觉片段,以此提取图像细节特征。最后。对编码器得到的两类特征进行融合,并通过映射网络转换为描述文本的前缀信息,再嵌入到语言模型中。解码阶段,使用语言模型GPT-2生成图像描述。与相关文献的模型相比,所提模型在BLEU-1到BLEU-4评价指标上分别获得了0.815、0.711、0.616和0.532,达到了最佳性能。在AIC-ICC数据集上进行仿真实验,结果表明所提出模型生成的描述文本更准确、更流畅。 展开更多
关键词 图像中文描述 视觉分组 特征融合 图像语义 编解码器
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部