期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于区域特征的Transformer混合结构图像藏文描述模型
1
作者 周子琦 黄鹤鸣 +2 位作者 才让当知 夏吾吉 达飞鹏 《中文信息学报》 北大核心 2025年第1期37-46,55,共11页
端到端的Transformer模型在中、英文图像描述数据集上取得了良好的效果,但其巨大的训练数据需求使其在规模较小的藏文数据集上效果并不理想。针对此问题,该文基于编码器—解码器架构的基线模型,引入目标检测网络和自注意力机制以替换CNN... 端到端的Transformer模型在中、英文图像描述数据集上取得了良好的效果,但其巨大的训练数据需求使其在规模较小的藏文数据集上效果并不理想。针对此问题,该文基于编码器—解码器架构的基线模型,引入目标检测网络和自注意力机制以替换CNN和LSTM,提出基于区域特征的Transformer混合结构模型ReT。首先,该模型将Faster-RCNN提取的图像区域特征作为Transformer编码器的输入,将经过向量化后的文本序列特征作为Transformer解码器的输入;其次,Transformer编码器和解码器各自利用自注意力机制对输入向量进行加权;最后,Transformer解码器中的交叉自注意力机制根据文本特征对图像特征进行加权,并以此生成描述。实验表明,在Flickr8k-Ti数据集上以藏文音节为基本单元进行模型的训练和验证时,相比基线模型和端到端的Transformer模型,模型ReT在CIDEr指标上分别提升10.4%和5.3%,取得了更好的效果。 展开更多
关键词 图像藏文描述 藏文音节 Faster-RCNN TRANSFORMER
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部