期刊导航
期刊开放获取
上海教育软件发展有限公..
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于语码转换的低资源语言视觉问答方法研究
1
作者
刘征
董俊
+3 位作者
嘉乐东珠
超木日力格
刘轩
翁彧
《北京师范大学学报(自然科学版)》
北大核心
2025年第3期277-284,共8页
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构...
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%.
展开更多
关键词
低资源语言
视觉问答
语码转换
知识蒸馏
跨模态语义对齐
在线阅读
下载PDF
职称材料
视觉-语言导航的研究进展与发展趋势
被引量:
2
2
作者
牛凯
王鹏
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2022年第12期1815-1827,共13页
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解...
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解与推理和模型泛化能力增强3个方面的问题与挑战,然后列举了常用的数据集和评价指标;再从模仿学习、强化学习、自监督学习以及其他方法4个方面对该任务的研究进展进行归纳与总结,并对代表性方法的效果进行对比分析;从连续环境导航和高级复杂指令理解与常识推理2个方面论述该任务当前研究的热点趋势;最后对三维空间的视觉-语言导航、模糊导航、环境交互导航等未来发展方向进行讨论与展望.
展开更多
关键词
视觉-语言导航
视觉-语言交互
跨模态语义对齐
行为决策
在线阅读
下载PDF
职称材料
题名
基于语码转换的低资源语言视觉问答方法研究
1
作者
刘征
董俊
嘉乐东珠
超木日力格
刘轩
翁彧
机构
中央民族大学民族语言智能分析与安全治理教育部重点实验室
中央民族大学信息工程学院
出处
《北京师范大学学报(自然科学版)》
北大核心
2025年第3期277-284,共8页
基金
海南省自然科学基金重点研发计划资助项目(ZDYF2024(LALH)005)
国家社会科学基金资助项目(24VJXG063)。
文摘
为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%.
关键词
低资源语言
视觉问答
语码转换
知识蒸馏
跨模态语义对齐
Keywords
low-resource language
visual question answering
code-switching
knowledge distillation
cross-modality alignment
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
视觉-语言导航的研究进展与发展趋势
被引量:
2
2
作者
牛凯
王鹏
机构
西北工业大学计算机学院
出处
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2022年第12期1815-1827,共13页
基金
国家重点研发计划(2020AAA0106900)
国家自然科学基金(62101451)
+1 种基金
中央高校基本科研业务费(D5000210733)
模式识别国家重点实验室开放课题(202100028)。
文摘
视觉-语言导航是近年来出现并蓬勃发展的新兴研究方向,是视觉-语言交互前沿领域中的代表性研究任务之一,其目标是根据人类给出的语言指令基于环境视觉感知实现自主导航.首先介绍该任务的研究内容,分析其面临的跨模态语义对齐、语义理解与推理和模型泛化能力增强3个方面的问题与挑战,然后列举了常用的数据集和评价指标;再从模仿学习、强化学习、自监督学习以及其他方法4个方面对该任务的研究进展进行归纳与总结,并对代表性方法的效果进行对比分析;从连续环境导航和高级复杂指令理解与常识推理2个方面论述该任务当前研究的热点趋势;最后对三维空间的视觉-语言导航、模糊导航、环境交互导航等未来发展方向进行讨论与展望.
关键词
视觉-语言导航
视觉-语言交互
跨模态语义对齐
行为决策
Keywords
vision-and-language navigation
vision-language interaction
cross-modal semantic alignments
action prediction
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于语码转换的低资源语言视觉问答方法研究
刘征
董俊
嘉乐东珠
超木日力格
刘轩
翁彧
《北京师范大学学报(自然科学版)》
北大核心
2025
0
在线阅读
下载PDF
职称材料
2
视觉-语言导航的研究进展与发展趋势
牛凯
王鹏
《计算机辅助设计与图形学学报》
EI
CSCD
北大核心
2022
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部