期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于视觉语言大模型的腿臂机器人实验系统设计
1
作者 陈腾 肖仕钧 +2 位作者 荣学文 李贻斌 荣海林 《实验室研究与探索》 北大核心 2025年第8期67-71,93,共6页
针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识... 针对移动作业机器人自然语言交互性不足、多模态自主感知能力弱以及自主行为控制复杂等问题,设计了一套基于视觉语言大模型的腿臂机器人自主行为控制实验系统。首先明确了系统的硬件组成,搭建了腿臂机器人实验平台;然后通过自然语言识别与语义解析获取移动作业任务,再利用视觉语言大模型的场景感知与逻辑推理,提出复杂任务分解下智能行为调度策略;同时依托轻量化网络通信实现运动指令下发与机器人状态播报反馈。系列实验验证了该实验系统在综合任务中的自主性与智能性。 展开更多
关键词 腿臂机器人 视觉语言大模型 环境感知 自主行为控制
在线阅读 下载PDF
提示学习在计算机视觉中的分类、应用及展望
2
作者 刘袁缘 刘树阳 +3 位作者 刘云娇 袁雨晨 唐厂 罗威 《自动化学报》 北大核心 2025年第5期1021-1040,共20页
随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系... 随着计算机视觉(CV)的快速发展,人们对于提高视觉任务的性能和泛化能力的需求不断增长,导致模型的复杂度与对各种资源的需求进一步提高.提示学习(PL)作为一种能有效地提升模型性能和泛化能力、重用预训练模型和降低计算量的方法,在一系列下游视觉任务中受到广泛的关注与研究.然而,现有的PL综述缺乏对PL方法全面的分类和讨论,也缺乏对现有实验结果进行深入的研究以评估现有方法的优缺点.因此,本文对PL在CV领域的分类、应用和性能进行全面的概述.首先,介绍PL的研究背景和定义,并简要回顾CV领域中PL研究的最新进展.其次,对目前CV领域中的PL方法进行分类,包括文本提示、视觉提示和视觉−语言联合提示,对每类PL方法进行详细阐述并探讨其优缺点.接着,综述PL在十个常见下游视觉任务中的最新进展.此外,提供三个CV应用的实验结果并进行总结和分析,全面讨论不同PL方法在CV领域的表现.最后,基于上述讨论对PL在CV领域面临的挑战和机遇进行分析,为进一步推动PL在CV领域的发展提供前瞻性的思考. 展开更多
关键词 计算机视觉 提示学习 视觉语言大模型 预训练模型
在线阅读 下载PDF
基于CLIP文本特征增强的剪纸图像分类
3
作者 张新生 陈鼎 秦一冰 《计算机应用研究》 北大核心 2025年第7期1994-2002,共9页
针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Atten... 针对剪纸图像分类中文本与图像模态差异大、类原型表达能力弱的问题,提出了一种基于CLIP模型的文本特征增强方法(CLIP visual text enhancer,C-VTE)。该方法通过人工提示模板提取文本特征,设计了一种视觉文本增强模块,并利用Cross Attention和比例残差进行连接和融合图像特征与文本特征,以减小模态差异,增强类别特征表达能力。在剪纸数据集及Caltech101等4个公开数据集上进行了实验,验证其有效性:在剪纸数据集的基类分类任务中,C-VTE平均准确率达到了72.51%,较现有方法提升3.14百分点;在公开数据集的小样本分类任务中,平均准确率达到了84.78%,提升2.45百分点。消融实验表明,模态融合模块与比例残差对性能提升影响显著。该方法为视觉语言大模型在下游分类任务中的高效适配提供了新思路,尤其适用于小样本与基类主导的场景。 展开更多
关键词 视觉语言大模型 剪纸分类 小样本分类 模态融合 提示学习
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部