期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于语码转换的低资源语言视觉问答方法研究
1
作者 刘征 董俊 +3 位作者 嘉乐东珠 超木日力格 刘轩 翁彧 《北京师范大学学报(自然科学版)》 北大核心 2025年第3期277-284,共8页
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构... 为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%. 展开更多
关键词 低资源语言 视觉问答 语码转换 知识蒸馏 跨模态语义对齐
在线阅读 下载PDF
视觉-语言导航的研究进展与发展趋势 被引量:2
2
作者 牛凯 王鹏 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2022年第12期1815-1827,共13页
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解... 视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解与推理和模型泛化能力增强3个方面的问题与挑战,然后列举了常用的数据集和评价指标;再从模仿学习、强化学习、自监督学习以及其他方法4个方面对该任务的研究进展进行归纳与总结,并对代表性方法的效果进行对比分析;从连续环境导航和高级复杂指令理解与常识推理2个方面论述该任务当前研究的热点趋势;最后对三维空间的视觉-语言导航、模糊导航、环境交互导航等未来发展方向进行讨论与展望. 展开更多
关键词 视觉-语言导航 视觉-语言交互 跨模态语义对齐 行为决策
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部