期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向视觉问答的上下文感知多模态交互网络 被引量:1
1
作者 颜洪 黄青松 刘利军 《中文信息学报》 CSCD 北大核心 2024年第7期106-114,共9页
近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问... 近年来,视觉问答已经引起研究人员的广泛关注。现有的方法通过视觉与语言模态之间的密集交互以捕捉两种模态之间的高层语义信息,然而这些方法仅单独考虑单个词与视觉区域之间的关系,忽略了上下文信息来计算模态之间的依存关系。针对此问题,该文提出了一种上下文感知的多模态交互网络,通过融合上下文信息增强模态内与模态间的信息交互,提高视觉问答的推理能力。该文在大规模基准数据集VQA v2.0上进行了一系列对比实验与消融实验,实验结果表明,该方法在视觉问答任务上能够取得比当前主流的方法更高的准确率。 展开更多
关键词 视觉问答 注意力机制 多模态交互网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部