期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
跨模态自适应特征融合的视觉问答方法
1
作者
陈巧红
项深祥
+1 位作者
方贤
孙麒
《哈尔滨工业大学学报》
北大核心
2025年第4期94-104,共11页
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后...
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。
展开更多
关键词
视觉
问答
(
vqa
)
特征融合
多模态
注意力机制
门控机制
在线阅读
下载PDF
职称材料
视觉问答技术研究综述
被引量:
2
2
作者
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析...
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
展开更多
关键词
视觉
问答
(
vqa
)
模态融合
视觉
对话
智能
问答
跨模态技术
在线阅读
下载PDF
职称材料
基于关系推理与门控机制的视觉问答方法
3
作者
王鑫
陈巧红
+1 位作者
孙麒
贾宇波
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022年第1期36-46,共11页
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关...
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.
展开更多
关键词
视觉
问答
(
vqa
)
注意力机制
视觉
区域
关系推理
自适应门控
在线阅读
下载PDF
职称材料
融合跨模态Transformer的外部知识型VQA
4
作者
王虞
李明锋
孙海春
《科学技术与工程》
北大核心
2024年第20期8577-8586,共10页
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型...
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。
展开更多
关键词
视觉
问答
(
vqa
)
外部知识
跨模态
知识图谱
在线阅读
下载PDF
职称材料
题名
跨模态自适应特征融合的视觉问答方法
1
作者
陈巧红
项深祥
方贤
孙麒
机构
浙江理工大学计算机科学与技术学院
出处
《哈尔滨工业大学学报》
北大核心
2025年第4期94-104,共11页
基金
浙江省自然科学基金(LQ23F020021)。
文摘
为提高视觉问答(VQA)中跨模态融合与交互的精确度,减少多模态特征信息的丢失,提出了一种新颖的基于跨模态自适应特征融合的视觉问答方法。首先,该方法设计了卷积自注意力单元,包含自注意力层和空洞卷积层,前者用于捕捉全局特征信息,后者用于捕捉视觉对象间的空间关系。其次,通过自适应特征融合层,将全局关系与空间关系进行有效结合,使模型在处理图像特征时能够同时考虑全局关系和视觉对象之间的关联性,从而克服了传统注意力机制忽视空间关系的问题。最后,基于不同模态特征在答案预测中贡献程度的差异,该方法还构建了多模态门控融合模块,根据多模态特征间的重要程度自适应地融合特征,减少多模态信息的丢失,同时不会带来额外的计算资源开销。研究结果表明,该方法在未使用额外数据集预训练的情况下,在VQA2.0的测试-开发集、测试-标准集和GQA数据集上的整体准确率分别达到71.58%、72.00%、58.14%,显著优于传统自注意力方法,该研究成果可为跨模态特征融合领域提供了重要的参考和借鉴。
关键词
视觉
问答
(
vqa
)
特征融合
多模态
注意力机制
门控机制
Keywords
visual question answering(
vqa
)
feature fusion
multimodal
attentional mechanisms
gating mechanisms
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
TP391.1 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
视觉问答技术研究综述
被引量:
2
2
作者
王虞
孙海春
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
出处
《计算机科学与探索》
CSCD
北大核心
2023年第7期1487-1505,共19页
基金
公安部技术研究计划项目(2020JSYJC22)
北京市自然科学基金(4184099)。
文摘
视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。
关键词
视觉
问答
(
vqa
)
模态融合
视觉
对话
智能
问答
跨模态技术
Keywords
visual question answering(
vqa
)
modal fusion
visual dialogue
intelligent question answering
crossmodal technology
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于关系推理与门控机制的视觉问答方法
3
作者
王鑫
陈巧红
孙麒
贾宇波
机构
浙江理工大学信息学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022年第1期36-46,共11页
基金
浙江省自然科学基金资助项目(LY17E050028)。
文摘
针对现有的注意力机制存在缺乏对视觉对象间关系的理解能力及准确度较差的问题,在注意力机制的基础上增加关系推理模块与自适应门控机制.该方法利用注意力机制关注多个与问题相关的视觉区域,利用关系推理模块中的二元关系推理与多元关系推理加强视觉区域间的联系.将分别得到的视觉注意力特征与视觉关系特征输入到自适应门控中,动态控制2种特征对预测答案的贡献.在VQA1.0及VQA2.0数据集上的实验结果表明:该模型与DCN、MFB、MFH及MCB等先进模型相比,在总体精度上均有约2%的提升;利用基于关系推理与门控机制的模型能够更好地理解图像内容,有效地提升视觉问答的准确率.
关键词
视觉
问答
(
vqa
)
注意力机制
视觉
区域
关系推理
自适应门控
Keywords
visual question answering(
vqa
)
attention mechanism
visual region
relational reasoning
adaptive gating
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
融合跨模态Transformer的外部知识型VQA
4
作者
王虞
李明锋
孙海春
机构
中国人民公安大学信息网络安全学院
安全防范技术与风险评估公安部重点实验室
出处
《科学技术与工程》
北大核心
2024年第20期8577-8586,共10页
基金
公安部技术研究计划项目(2020JSYJC22)
中央高校基本科研业务费专项资金(2022JKF02015)。
文摘
针对外部知识型的视觉问答(visual question answering,VQA)任务性能效果不佳的问题,构建一种融合跨模态Transformer的外部知识型VQA模型框架,通过在VQA模型外引入外接知识库来提高VQA模型在外部知识型任务上的推理能力。进一步地,模型借助双向交叉注意力机制提升文本问题、图像、外接知识的语义交互融合能力,用于优化VQA模型在面对外部知识时普遍存在的推理能力不足的问题。结果表明:与基线模型LXMERT相比,在OK VQA数据集上,本文模型整体性能指标overall提升了15.01%。同时,与已有最新模型相比,在OK VQA数据集上,本文模型整体性能指标overall提升了4.46%。可见本文模型在改进外部知识型VQA任务性能方面有所提升。
关键词
视觉
问答
(
vqa
)
外部知识
跨模态
知识图谱
Keywords
visual question answering(
vqa
)
external knowledge
cross modal
knowledge graph
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
跨模态自适应特征融合的视觉问答方法
陈巧红
项深祥
方贤
孙麒
《哈尔滨工业大学学报》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
视觉问答技术研究综述
王虞
孙海春
《计算机科学与探索》
CSCD
北大核心
2023
2
在线阅读
下载PDF
职称材料
3
基于关系推理与门控机制的视觉问答方法
王鑫
陈巧红
孙麒
贾宇波
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2022
0
在线阅读
下载PDF
职称材料
4
融合跨模态Transformer的外部知识型VQA
王虞
李明锋
孙海春
《科学技术与工程》
北大核心
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部