-
题名基于域特定特征的CLIP提示优化算法
- 1
-
-
作者
张跃文
王九杭
覃荣华
-
机构
中国科学院上海微系统与信息技术研究所
中国科学院大学
-
出处
《现代电子技术》
北大核心
2024年第18期41-46,共6页
-
文摘
当测试数据与训练数据遵循不同的分布时,神经网络会经历领域转移。领域泛化(DG)的目标是学习一个可处理未知域的通用模型,以此来解决这个问题。以往的方法通过数据增强或者特征空间对齐的方式来提取域不变特征,但在提取的过程中又会产生新的域特定特征,导致模型泛化的性能较差。针对这些问题,提出一个简单而有效的框架——ERCLIP,通过ERCLIP来实现大规模预训练模型CLIP在DG中的应用。ERCLIP通过主动提取域特定特征,并将其融入文本提示,实现图像语义的精准描述。并且提出一个文本提示优化器,动态地优化提示向量。在公开数据集OfficeHome、VLCS与PACS上的实验结果表明,ERCLIP在OfficeHome上的平均准确率为83.4%,在VLCS上为83.5%,在PACS上为96.5%,在所有算法里取得最优结果。
-
关键词
域不变特征
ERCLIP
领域泛化
神经网络
特征提取
文本提示
-
Keywords
domain-invariant feature
ERCLIP
domain generalization
neural network
feature extraction
text prompt
-
分类号
TN911.73-34
[电子电信—通信与信息系统]
-
-
题名基于多模态融合的场景图生成算法分析
- 2
-
-
作者
陈靖千
卢涵宇
陈小青
邓高源
-
机构
贵州大学大数据与信息工程学院
贵州工程应用技术学院信息工程学院
-
出处
《集成电路应用》
2024年第12期198-199,共2页
-
基金
贵州省普通本科高校“金课”项目(2024JKXN0078)
毕节市人工智能人才团队项目([2023]09)
贵工程“计算机与人工智能现代产业学院”项目(CY202302)
-
文摘
阐述一种多模态的场景图生成模型的算法,该模型通过引入文本提示与视觉特征,实现模态内的特征增强和模态间的信息融合,提高了模型的泛化能力和鲁棒性。
-
关键词
智能算法
多模态
特征增强
文本提示
-
Keywords
intelligence algorithm
multi-modal
feature enhancement
text prompt
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名视觉-语言多模态下的多任务人脸年龄估计
- 3
-
-
作者
何江
池静
池佳稷
高松
-
机构
河北工程大学信息与电气工程学院
拉彭兰塔理工大学电气工程学院
邯郸市第三建筑工程有限公司
-
出处
《现代电子技术》
北大核心
2024年第14期171-176,共6页
-
基金
邯郸市科学技术研究与发展计划项目(21422031252)。
-
文摘
现有的年龄估计方法仅基于人脸图像,无法充分利用图像背后的语言背景信息。此外,这些方法通常专注于单一年龄估计任务的优化,忽略了相近任务带来的提高模型性能的信息。针对上述问题,提出一种基于视觉-语言多模态的多任务人脸年龄估计方法。该方法利用提示文本信息为年龄估计提供更丰富、更准确的图像理解和先验知识。同时,引入多任务学习方法,利用任务间的互补性将年龄分类任务与序数回归任务相结合,以获得更好的性能。最后,为了获得可靠的预测结果,研究了加权平均法和任务回归法两种多任务结果融合方法,并对加权平均法的权重系数进行了消融实验,以期找到一组合适的权重系数。结果表明:与其他先进方法相比,所提方法在UTK-FACE数据集上的平均绝对误差(MAE)降低了7.32%,在MorphⅡ数据集上的MAE降低了1.20%,累积分数(CS)提升了0.11%。
-
关键词
年龄估计
视觉-语言多模态
多任务学习
加权平均法
提示文本
任务回归器
-
Keywords
age estimation
visual-language multimodality
multitask learning
weighted average method
prompt text
task regressor
-
分类号
TN711-34
[电子电信—电路与系统]
TP391
[自动化与计算机技术—计算机应用技术]
-