期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于大模型的具身智能系统综述 被引量:13
1
作者 王文晟 谭宁 +3 位作者 黄凯 张雨浓 郑伟诗 孙富春 《自动化学报》 北大核心 2025年第1期1-19,共19页
得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景.鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智... 得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景.鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智能系统中起到的感知与理解作用;其次,对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结;然后,对不同具身智能系统架构进行介绍,并总结了目前具身智能模型的数据来源,包括模拟器、模仿学习以及视频学习;最后,对基于大语言模型(Large language model,LLM)的具身智能系统面临的挑战与发展方向进行讨论与总结. 展开更多
关键词 大语言模型 大型视觉模型 基础模型 具身智能 机器人
在线阅读 下载PDF
基于大型视觉语言模型的施工现场安全监控研究
2
作者 冷烁 王玮 +3 位作者 欧家勇 薛志刚 宋英龙 莫斯钧 《图学学报》 2025年第5期960-968,共9页
针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略... 针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略,实现LVLM对施工监控图像的理解与推理,并设计了基于LVLM的智能监控工作流程与系统架构。研究成果被应用于管理人员离岗识别、危险区域侵入识别、以及违规施工行为识别等多项典型施工安全监控场景。实际数据验证表明,通过合适的提示词策略,LVLM无需数据标注与模型训练,便可实现接近主流深度学习模型的识别准确率,同时具有构建成本低、落地速度快、任务适应灵活等优势,在图像识别与智能监控领域具有应用潜力。 展开更多
关键词 大型视觉语言模型 计算机视觉 施工安全 智能监控 提示词工程
在线阅读 下载PDF
从Sora到AGI:智能媒介的升维与全新场景体验时代的到来 被引量:29
3
作者 喻国明 苏健威 《编辑之友》 CSSCI 北大核心 2024年第6期39-45,共7页
作为新一代大型视觉模型,Sora使文生视频技术实现了从“堪用”到“好用”的飞跃,其走红的背后是迈向通用人工智能的可能。Sora本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度,这将开启数字文明的序幕。Sora的意义在于:首先... 作为新一代大型视觉模型,Sora使文生视频技术实现了从“堪用”到“好用”的飞跃,其走红的背后是迈向通用人工智能的可能。Sora本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度,这将开启数字文明的序幕。Sora的意义在于:首先,大众内容生产从以文本为基础的单模态升维到以影像为基础的多模态,个体的主体意义得到极大增强;其次,人类的认知、学习、沟通将进入全新的场景体验时代;最后,全新场景体验意味着能够借此建立粒度更细、自由度更高、可供性更强的价值连接。Sora的技术革命也将深刻影响新闻传播的价值要点:一方面,未来传播需要渗透到公众认知的全环节,辅助公众参与治理,创造价值;另一方面,未来传播需要连接圈层,促进圈层间的彼此理解与共识达成。 展开更多
关键词 SORA 大型视觉模型 场景体验 通用人工智能 智能媒介
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部