-
题名基于跨模态引导和对齐的多模态预训练方法
- 1
-
-
作者
才华
易亚希
付强
冉越
孙俊喜
-
机构
长春理工大学电子信息工程学院
长春中国光学科学技术馆
长春理工大学空间光电技术研究所
东北师范大学信息科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第10期3368-3381,共14页
-
基金
国家自然科学基金(No.61890963,No.U2341226)
吉林省人才专项(No.20240602015RC)
西安市飞行器光学成像与测量技术重点实验室开放基金(No.2023-13)。
-
文摘
现有的视觉语言多模态预训练方法仅在图像和文本的全局语义上进行特征对齐,对模态间细粒度特征交互的探索不足.针对这一问题,本文提出了一种基于跨模态引导和对齐的多模态预训练方法.该方法在模态特征提取阶段,采用基于视觉序列压缩的双流特征提取网络,在视觉编码器中联合图像和文本信息逐层引导视觉序列压缩,缓解与文本无关的冗余视觉信息对模态间细粒度交互的干扰;在模态特征对齐阶段,对图像和文本特征进行细粒度关系推理,实现视觉标记与文本标记的局部特征对齐,增强对模态间细粒度对齐关系的理解.实验结果表明,本文方法能够更好地对齐视觉文本的细粒度特征,在图文检索任务中,微调后的图像检索和文本检索的平均召回率分别达到了86.4%和94.88%,且零样本图文检索的整体指标相较于经典图文检索算法CLIP(Contrastive Language-Image Pre-training)提升了5.36%,在视觉问答等分类任务中,准确率也优于目前主流多模态预训练方法.
-
关键词
多模态预训练
跨模态引导
视觉序列压缩
双流特征提取
细粒度关系推理
局部特征对齐
-
Keywords
multimodal pre-training
cross-modal guidance
visual sequence compression
dual-stream feature extraction
fine-grained relational reasoning
localized feature alignment
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名悟道·文澜:超大规模多模态预训练模型带来了什么?
被引量:1
- 2
-
-
作者
卢志武
金琴
宋睿华
文继荣
-
机构
中国人民大学高瓴人工智能学院
中国人民大学信息学院
-
出处
《中兴通讯技术》
2022年第2期25-32,共8页
-
文摘
提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在多个国际公开数据集上均取得了最佳性能。设计了实验并讨论超大规模多模态预训练模型对文本编码、图像生成和图文互检带来的影响,以及文澜模型的落地应用与学科交叉成果。
-
关键词
多模态预训练
多语言预训练
双塔模型
单塔模型
-
Keywords
multimodal pre-training
multi-lingual pre-training
two-tower model
single-tower model
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名超大规模多模态预训练模型M6的关键技术及产业应用
被引量:4
- 3
-
-
作者
林俊旸
周畅
杨红霞
-
机构
阿里巴巴达摩院智能计算实验室
阿里巴巴达摩院
-
出处
《中兴通讯技术》
2022年第2期44-50,共7页
-
文摘
阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。
-
关键词
多模态预训练
大规模预训练
图像生成
文本生成
-
Keywords
multimodal pre-training
large-scale pre-training
image generation
text generation
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-