期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于大型视觉语言模型的施工现场安全监控研究
1
作者 冷烁 王玮 +3 位作者 欧家勇 薛志刚 宋英龙 莫斯钧 《图学学报》 北大核心 2025年第5期960-968,共9页
针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略... 针对施工安全监控过程中,传统视觉模型构建成本高、应用范围窄等问题,提出一种基于大型视觉语言模型(LVLM)的全新解决方案。基于开源预训练LVLM,提出包括文本提示、图像附加信息、图像样本提示等多类适用于施工安全监控任务的提示词策略,实现LVLM对施工监控图像的理解与推理,并设计了基于LVLM的智能监控工作流程与系统架构。研究成果被应用于管理人员离岗识别、危险区域侵入识别、以及违规施工行为识别等多项典型施工安全监控场景。实际数据验证表明,通过合适的提示词策略,LVLM无需数据标注与模型训练,便可实现接近主流深度学习模型的识别准确率,同时具有构建成本低、落地速度快、任务适应灵活等优势,在图像识别与智能监控领域具有应用潜力。 展开更多
关键词 大型视觉语言模型 计算机视觉 施工安全 智能监控 提示词工程
在线阅读 下载PDF
医疗领域的大型语言模型综述 被引量:1
2
作者 肖建力 许东舟 +4 位作者 王浩 刘敏 周雷 朱林 顾松 《智能系统学报》 北大核心 2025年第3期530-547,共18页
深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言... 深度学习是人工智能领域的热门研究方向之一,它通过构建多层人工神经网络模仿人脑对数据的处理机制。大型语言模型(large language model,LLM)基于深度学习的架构,在无需编程指令的情况下,能通过分析大量数据以获得理解和生成人类语言的能力,被广泛应用于自然语言处理、计算机视觉、智慧医疗、智慧交通等诸多领域。文章总结了LLM在医疗领域的应用,涵盖了LLM针对医疗任务的基本训练流程、特殊策略以及在具体医疗场景中的应用。同时,进一步讨论了LLM在应用中面临的挑战,包括决策过程缺乏透明度、输出准确性以及隐私、伦理问题等,随后列举了相应的改进策略。最后,文章展望了LLM在医疗领域的未来发展趋势,及其对人类健康事业发展的潜在影响。 展开更多
关键词 人工智能 深度学习 TRANSFORMER 大型语言模型 智慧医疗 数据分析 图像处理 计算机视觉
在线阅读 下载PDF
基于大模型的具身智能系统综述 被引量:21
3
作者 王文晟 谭宁 +3 位作者 黄凯 张雨浓 郑伟诗 孙富春 《自动化学报》 北大核心 2025年第1期1-19,共19页
得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景.鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智... 得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景.鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智能系统中起到的感知与理解作用;其次,对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结;然后,对不同具身智能系统架构进行介绍,并总结了目前具身智能模型的数据来源,包括模拟器、模仿学习以及视频学习;最后,对基于大语言模型(Large language model,LLM)的具身智能系统面临的挑战与发展方向进行讨论与总结. 展开更多
关键词 大语言模型 大型视觉模型 基础模型 具身智能 机器人
在线阅读 下载PDF
大模型逐像素预测赋能的图像语义通信:一种分离信源信道编码的视角
4
作者 任天骐 李荣鹏 《信号处理》 北大核心 2025年第10期1657-1669,共13页
随着6G愿景的展开,语义通信成为核心技术。当前主流的基于深度学习的联合信源信道编码(Joint Source-Channel Coding, JSCC)方案虽在特定条件下性能优异,但固有的兼容性差、泛化能力弱和设计灵活性低等问题限制了其广泛应用。为应对这... 随着6G愿景的展开,语义通信成为核心技术。当前主流的基于深度学习的联合信源信道编码(Joint Source-Channel Coding, JSCC)方案虽在特定条件下性能优异,但固有的兼容性差、泛化能力弱和设计灵活性低等问题限制了其广泛应用。为应对这些挑战,本文回归分离式信源信道编码(Separate Source-Channel Coding, SSCC)范式,提出一种基于视觉大模型的分离信源信道编码框架(Large Visual Model-based Separate Source-Channel Coding Framework, LVM-SSCC)。该框架创新性地利用视觉大模型(如ImageGPT)进行自回归像素预测,并结合算术编码实现对信源的高效无损压缩;同时,在信道编码端引入纠错码Transformer(Error Correction Code Transformer,ECCT)来增强低密度奇偶校验(Low-Density Parity-Check, LDPC)码的译码鲁棒性。为实现公平比较,本文提出了统一能耗信噪比(Unified Energy Consumption-based Signal-to-Noise Ratio, SNRunified)评估基准。在CIFAR-10数据集上的大量仿真实验表明,无论在加性高斯白噪声(Additive White Gaussian Noise, AWGN)还是瑞利衰落信道下,本文提出的方案在图像重建质量(峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似性指数(Structural Similarity Index, SSIM))方面,尤其是在中高信噪比区域,均显著优于DeepJSCC和SparseSBC等主流JSCC方案,在保持与数字通信系统完全兼容的同时,于其优势信噪比区间内实现了逼近无损的极高保真度重建。本研究为分离式编码范式在未来图像语义通信中的应用提供了强有力的实证,并凸显了其在性能、兼容性与灵活性上的综合优势。 展开更多
关键词 语义通信 无损图像传输 分离信源信道编码(SSCC) 大型视觉模型(lvm) 纠错码Transformer(ECCT)
在线阅读 下载PDF
从Sora到AGI:智能媒介的升维与全新场景体验时代的到来 被引量:35
5
作者 喻国明 苏健威 《编辑之友》 CSSCI 北大核心 2024年第6期39-45,共7页
作为新一代大型视觉模型,Sora使文生视频技术实现了从“堪用”到“好用”的飞跃,其走红的背后是迈向通用人工智能的可能。Sora本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度,这将开启数字文明的序幕。Sora的意义在于:首先... 作为新一代大型视觉模型,Sora使文生视频技术实现了从“堪用”到“好用”的飞跃,其走红的背后是迈向通用人工智能的可能。Sora本质上是智能媒介的一次重大升维,使价值生成从此具备时空维度,这将开启数字文明的序幕。Sora的意义在于:首先,大众内容生产从以文本为基础的单模态升维到以影像为基础的多模态,个体的主体意义得到极大增强;其次,人类的认知、学习、沟通将进入全新的场景体验时代;最后,全新场景体验意味着能够借此建立粒度更细、自由度更高、可供性更强的价值连接。Sora的技术革命也将深刻影响新闻传播的价值要点:一方面,未来传播需要渗透到公众认知的全环节,辅助公众参与治理,创造价值;另一方面,未来传播需要连接圈层,促进圈层间的彼此理解与共识达成。 展开更多
关键词 SORA 大型视觉模型 场景体验 通用人工智能 智能媒介
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部