-
题名基于模态预融合的三维指称表达理解
- 1
-
-
作者
袁琨鹏
米金鹏
陈智谦
-
机构
上海理工大学机器智能研究院
上海理工大学光电信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2023年第12期3666-3671,3677,共7页
-
基金
国家自然科学基金重点资助项目(92048205)
国家自然科学基金资助项目(62106026)
中国博士后科学基金资助项目(2020M683243)。
-
文摘
三维指称表达理解(3D VG)旨在通过理解指称表达来准确定位三维场景中的目标对象。现有3D VG研究通过引入文本和视觉分类任务优化文本和视觉编码器,这种方法可能由于文本和视觉特征的语义不对齐,从而导致模型难以在场景中定位文本描述的视觉对象。此外,3D VG数据集有限的数据量和复杂的模型结构往往导致模型过拟合。针对上述问题提出MP3DVG模型,通过学习统一的多模态特征表示完成单模态分类和3D VG任务,并降低模型的过拟合。基于跨模态特征交互提出TGV和VGT模块,在单模态任务之前预融合文本和视觉特征,减小不同模态特征因语义不对齐带来的不利影响。基于线性分类器可评价样本特征多样性的特性,提出周期性初始化的辅助分类器,并通过动态损失调节项自适应地调节样本损失,弱化模型的过拟合。大量实验结果表明所提方法的优越性,相比于MVT模型,MP3DVG在Nr3D和Sr3D数据集上性能分别提升1.1%和1.8%,模型的过拟合现象得到显著改善。
-
关键词
三维指称表达理解
多模态融合
过拟合
注意力
-
Keywords
3D visual grounding
multi-modal fusion
overfitting
attention
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-