期刊文献+
共找到40篇文章
< 1 2 >
每页显示 20 50 100
多模态大模型赋能教师数字画像构建与应用 被引量:7
1
作者 谢雅淇 张雅慧 +1 位作者 许课雪 胡小勇 《开放教育研究》 北大核心 2025年第1期100-109,共10页
教师数字画像是助力教师教育高质量发展的重要抓手。本研究立足多模态大模型赋能数字画像应用的创新机遇,针对教师数字画像技术存在的数据采集结构性错配、模型通用性与深度性失衡、画像模型训练升级滞后和伴随式应用服务缺失等问题,分... 教师数字画像是助力教师教育高质量发展的重要抓手。本研究立足多模态大模型赋能数字画像应用的创新机遇,针对教师数字画像技术存在的数据采集结构性错配、模型通用性与深度性失衡、画像模型训练升级滞后和伴随式应用服务缺失等问题,分析教师画像大模型重塑教师数字画像构建与应用方式的多模态认知、关联式推理、增量式学习和伴随式反馈等关键能力;基于教师画像大模型的构建框架,围绕内隐对话、画像分析、发展指导三类细化子任务,设计了多智能体,以加强教师多维画像精准描摹与人机协同循证专业发展的综合性服务供给;以教师数字素养智能测评为例,从对话式智能测评、层级化画像分析和伴随式素养发展三方面阐释基于多智能体协作的场景化实践路径,展示其应用价值。 展开更多
关键词 数字画像 多模态大模型 教师专业发展 多智能体
在线阅读 下载PDF
多模态大模型赋能科学教育高质量发展:潜能、挑战与应用探索 被引量:1
2
作者 黄志南 李根 郑娅峰 《中国电化教育》 北大核心 2025年第6期60-69,共10页
科学教育数字化转型是加快教育现代化和教育强国建设的重要支撑。当前,科学教育仍面临数字化资源紧缺、科学探究过程缺乏支持与反馈,以及科学素养评价耗时耗力等难点问题,制约其快速高质量发展。多模态大模型以其强大的数据处理和跨模... 科学教育数字化转型是加快教育现代化和教育强国建设的重要支撑。当前,科学教育仍面临数字化资源紧缺、科学探究过程缺乏支持与反馈,以及科学素养评价耗时耗力等难点问题,制约其快速高质量发展。多模态大模型以其强大的数据处理和跨模态学习能力,能够对科学教育的数字资源建设、实验探究过程和素养评价体系提供有效支持。基于此,该文通过对多模态大模型技术特征的阐述,深入探讨其在科学教育中的应用潜能和问题挑战,并通过案例探索展示其应用场景的可行性,在此基础上提出面向未来的实践建议,以期为技术融入下的科学教育高质量发展路径提供参考。 展开更多
关键词 多模态大模型 科学教育 潜能与挑战 人工智能教育应用
在线阅读 下载PDF
叙事、认同、沉浸:多模态大模型赋能新时期文化遗产保护与传承的推进策略 被引量:9
3
作者 魏立才 《云南民族大学学报(哲学社会科学版)》 北大核心 2025年第1期31-39,共9页
采用口耳相传、文字记录、影像记录、实物收藏展示等是文化遗产的传统叙事方式。进入数字时代,多模态大模型以其感知、理解、生成等方面的突出优势,为创新文化遗产叙事、重塑群体认同、营造沉浸体验提供了新路径。通过知识图谱构建实现... 采用口耳相传、文字记录、影像记录、实物收藏展示等是文化遗产的传统叙事方式。进入数字时代,多模态大模型以其感知、理解、生成等方面的突出优势,为创新文化遗产叙事、重塑群体认同、营造沉浸体验提供了新路径。通过知识图谱构建实现文化遗产语境再现,基于跨媒体内容智能生成与融合呈现丰富文化遗产表现力,利用情境感知与互动生成技术打造沉浸化文化遗产叙事。同时,多模态大模型助力跨文化语境挖掘、社交网络数据分析与虚实融合体验设计,多层面唤醒公众情感认同。在优化算法性能、开展跨学科协同创新的基础上,应注重数字鸿沟消弭、智能偏见消解、知识产权制度完善,推动多模态大模型成为文化遗产传承的新工具、新平台、新生态,在人机共舞中焕发文化遗产新活力。 展开更多
关键词 多模态大模型 文化遗产 智能传承 沉浸式体验 情感认同
在线阅读 下载PDF
多模态大模型赋能高校思想政治教育的伦理审视及治理方略 被引量:3
4
作者 蒋红艳 孙迎光 《学校党建与思想教育》 北大核心 2025年第6期66-69,共4页
随着生成式人工智能的迅速发展,大模型技术实现从单一纯文本向多模态的跨模态转换。定焦于高校思想政治教育领域,多模态大模型正掀起一场基于数字技术的教育生态变革。但是,技术赋能同时也伴生主体、制度与技术多重伦理风险,影响大学生... 随着生成式人工智能的迅速发展,大模型技术实现从单一纯文本向多模态的跨模态转换。定焦于高校思想政治教育领域,多模态大模型正掀起一场基于数字技术的教育生态变革。但是,技术赋能同时也伴生主体、制度与技术多重伦理风险,影响大学生意识形态建构与德育观生成。鉴于此,通过建构“主体—制度—技术”治理框架,创建多主体互动模式实现“师—机—生”协同育人,制定相应伦理规约框定大模型发展边界“,以技制技”规训大模型从“赋魅”走向“祛魅”。 展开更多
关键词 多模态大模型 高校思想政治教育 生成式人工智能 科技伦理
在线阅读 下载PDF
集成多模态大模型的施工安全隐患识别
5
作者 安思齐 蔡昂林 +1 位作者 马子程 朱宝岩 《中国安全科学学报》 北大核心 2025年第9期185-192,共8页
为提升施工场景中安全隐患的自动识别和安全管理水平,构建一个集成多模态大模型的施工安全隐患识别模型,进而构成其核心组件——多模态安全隐患识别模型LLaVA-CS(用于施工场景(Construction Site,CS)下的多模态视觉-文本大语言模型(LLaV... 为提升施工场景中安全隐患的自动识别和安全管理水平,构建一个集成多模态大模型的施工安全隐患识别模型,进而构成其核心组件——多模态安全隐患识别模型LLaVA-CS(用于施工场景(Construction Site,CS)下的多模态视觉-文本大语言模型(LLaVA));该系统将图像(施工现场照片)与安全操作规程(工人行为描述)相结合,利用多模态学习和深度学习技术,实时监控和分析施工现场;为支持系统的有效运行,构建一个涵盖不同光照、遮挡和多人场景等复杂条件的多模态数据集,弥补现有公开数据集的空白。结果表明:通过对LLaVA-1.5模型进行提示调优,LLaVA-CS模型能有效融合视觉与文本信息,提升安全隐患识别的精度和可解释性。集成该模型的施工安全隐患识别方法在多个实际施工项目中识别准确率达到0.7222,能够实时生成详细的解释文本,帮助管理人员快速理解安全隐患的具体情境,增强安全管理的决策支持。将多模态大模型应用于施工安全管理系统,有助于提供实时、可解释的安全监控解决方案。 展开更多
关键词 多模态大模型 施工安全隐患 复杂施工场景 安全管理 提示调优
在线阅读 下载PDF
多模态大模型赋能思想政治教育的优势、隐忧与展望 被引量:1
6
作者 何梅 米华全 《学校党建与思想教育》 北大核心 2025年第11期79-82,共4页
作为一种新型的机器学习技术,多模态大模型能够处理多种媒体数据,并通过学习不同模态之间的关联,实现更加智能化的信息处理。多模态大模型赋能思想政治教育,催生了“多模态技术+思政教育”的创新融合范式,驱动了思想政治教育资源多元化... 作为一种新型的机器学习技术,多模态大模型能够处理多种媒体数据,并通过学习不同模态之间的关联,实现更加智能化的信息处理。多模态大模型赋能思想政治教育,催生了“多模态技术+思政教育”的创新融合范式,驱动了思想政治教育资源多元化、评价智能化,教育场景泛在化。如双刃剑之喻,多模态大模型的赋能之路亦可能伴随着技术越界、技术依赖和技术幻觉,给思想政治教育及其教育者、教育对象带来了新的挑战与考验。基于此,只有让技术回归“育人”、超越“理性”、兼具“智用”、风险“可控”,才能实现思想政治教育的数字化转型升级。 展开更多
关键词 多模态大模型 思想政治教育 技术隐忧 应用展望
在线阅读 下载PDF
基于提示词与多模态大模型选择的环境地图评价优化路径研究
7
作者 张雨薇 王民 《地理教学》 北大核心 2025年第13期20-24,共5页
为探究人工智能辅助环境地图评价的优化路径,本研究对比了不同提示词与大模型组合的评价结果,测量其与人类专家评分的拟合程度。本研究选择了环境地图展示活动的作品作为研究样本,选取了输入—输出提示(IO)、专家提示(EP)、自洽提示(SC... 为探究人工智能辅助环境地图评价的优化路径,本研究对比了不同提示词与大模型组合的评价结果,测量其与人类专家评分的拟合程度。本研究选择了环境地图展示活动的作品作为研究样本,选取了输入—输出提示(IO)、专家提示(EP)、自洽提示(SC)及思维图像提示(IOT)四类提示词,以及豆包、通义千问、智谱清言、跃问四个多模态大模型进行组合测试。结果表明,IOT提示词在整体作品评价和多数的分项评价上都表现出与人类专家相似的评价能力,豆包和跃问模型在地图识别任务上表现相对较好,为教学实践中的提示词及大模型选择提供了借鉴。 展开更多
关键词 环境地图 人工智能 多模态大模型 提示词工程 教学评价
在线阅读 下载PDF
基于多模态大模型的影像智能分析——以影像民族志为例
8
作者 富晓星 赵璐楠 王安顶 《广东社会科学》 北大核心 2025年第5期180-192,287,288,共15页
随着多模态大模型推动社会科学质性研究的智能化转型,影像民族志分析在技术升级的要求下面临着长视频深度解析的复杂挑战。本研究提出一种基于多模态大模型(MLLM)的影像智能分析框架,通过“切片-重组”技术路径将当前存在技术难点的长... 随着多模态大模型推动社会科学质性研究的智能化转型,影像民族志分析在技术升级的要求下面临着长视频深度解析的复杂挑战。本研究提出一种基于多模态大模型(MLLM)的影像智能分析框架,通过“切片-重组”技术路径将当前存在技术难点的长视频理解转化为可操作的文本分析任务,结合扎根理论编码与时间戳回溯机制,构建非结构化影像到结构化片段的跨模态解析体系。研究发现:MLLM具备时序推理、跨尺度细节捕捉及多模态语义融合能力,但仍需结合知识图谱优化文化特异性知识识别精度。该方法实现了传统影像分析在数量、质量和效率上的三重技术突破,不仅验证了跨模态理论的可迁移性,更揭示了社会科学研究在数字时代深度融合技术逻辑的必要性。 展开更多
关键词 多模态大模型 影像智能分析 视频理解 影像民族志
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
9
《计算机工程与应用》 北大核心 2025年第9期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型 GEMINI
在线阅读 下载PDF
“多模态大模型:理论、技术与应用”专题征文通知
10
《计算机科学与探索》 北大核心 2025年第8期I0002-I0002,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型 GEMINI
在线阅读 下载PDF
树木倒伏场景中多模态大模型的应用挑战与优化研究
11
作者 冯雷 李超楠 +7 位作者 盛春杰 施宇星 黄奕铖 金剑虹 许韵 杜聿洲 周妮娜 缪思好 《华东师范大学学报(自然科学版)》 北大核心 2025年第5期53-65,共13页
针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有... 针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有效克服了传统模型易陷入单一错误逻辑的缺陷,显著增强了模型在复杂场景下的视觉决策能力.为验证该方法的有效性,构建了一个面向城市治理中树木倒伏场景的专用数据集.实验结果表明,与基线模型相比,本方法在事件召回率和关键信息捕获率上均有显著提升.本研究不仅为解决城市公共安全领域的视觉决策难题提供了可靠的技术方案,也为提升大模型在关键任务中的推理可靠性提供了新的范式. 展开更多
关键词 多模态大模型 社会治理 智能体
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
12
《计算机工程与应用》 北大核心 2025年第8期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性? 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
“多模态大模型:理论、技术与应用”专题征文通知
13
《计算机科学与探索》 北大核心 2025年第5期I0002-I0002,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
14
《计算机工程与应用》 北大核心 2025年第15期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
“多模态大模型:理论、技术与应用”专题征文通知
15
《计算机科学与探索》 北大核心 2025年第6期I0002-I0002,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。然而,多模态大模型的构建与应用仍面临诸多挑战:如何有效融合异构模态数据,实现跨模态语义对齐与知识迁移?如何提升模型对复杂场景的泛化能力与可解释性?如何降低多模态大模型的训练与推理成本,并保障其安全性与伦理合规性?如何在不同垂直领域适配优化多模态大模型,以解决领域特定应用问题?这些问题亟需学术界与工业界共同探索创新解决方案。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
16
《计算机工程与应用》 北大核心 2025年第11期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
17
《计算机工程与应用》 北大核心 2025年第13期F0003-F0003,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
18
《计算机工程与应用》 北大核心 2025年第10期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力,也为人工智能在医疗、教育、工业制造、数字媒体等领域的创新应用提供了突破性工具。 展开更多
关键词 DeepSeek Janus-Pro 多模态大模型
在线阅读 下载PDF
卫生领域人工智能的伦理与治理:多模态大模型指南 被引量:13
19
作者 王玥(译) 宋雅鑫(译) +2 位作者 王艺霏(译) 于莲(审校) 王晶(审校) 《中国医学伦理学》 北大核心 2024年第9期1001-1022,共22页
2024年,世界卫生组织发布了“Ethics and governance of artificial intelligence for health.Guidance on large multi-modal models”,将其翻译成中文《卫生领域人工智能的伦理与治理:多模态大模型指南》供中国的同仁参阅,协助规划与... 2024年,世界卫生组织发布了“Ethics and governance of artificial intelligence for health.Guidance on large multi-modal models”,将其翻译成中文《卫生领域人工智能的伦理与治理:多模态大模型指南》供中国的同仁参阅,协助规划与卫生领域多模态大模型有关的益处和挑战,并为适当开发、提供和使用多模态大模型提供政策和实践方面的指导。世界卫生组织咨询了20位人工智能领域的顶尖专家,他们确定了在卫生领域使用人工智能的潜在益处和潜在风险,并发布了以协商方式达成一致的六项原则,供正在使用人工智能的政府、开发者和提供者在制定政策和实践时考虑。指南提供了与指导原则相一致的企业内部、政府和国际合作的治理建议,指南的基础是考虑到人类使用卫生领域生成式人工智能独特方式的指导原则和治理建议。生成式人工智能是算法在可用于生成新内容的数据集上进行训练的一种人工智能技术。指南针对其中一种类型的生成式人工智能,即多模态大模型,这种模型可以接受一种或多种类型的数据输入,并产生不局限于输入算法的数据类型的多种输出。据预测,多模态大模型将广泛应用于医疗保健、科学研究、公共卫生和药物开发等领域。多模态大模型也被称为“通用基础模型”,尽管尚未证实多模态大模型能否完成各种任务和目的。 展开更多
关键词 卫生领域人工智能 多模态大模型 通用基础模型 伦理与治理
在线阅读 下载PDF
基于多模态大模型的高速公路场景交通异常事件分析方法 被引量:6
20
作者 吴精乙 景峻 +5 位作者 贺熠凡 张世渝 康运锋 唐维 孔德兰 刘向栋 《图学学报》 CSCD 北大核心 2024年第6期1266-1276,共11页
针对现有交通异常事件检测系统无法深入感知事件的局限性,以及人工审核报警事件成本高的问题,研究了一种结合多模态大模型(MLLM)的高速公路场景交通异常事件分析方法,设计并验证了3种基于MLLM的任务:一是自动生成异常事件的详细工单描述... 针对现有交通异常事件检测系统无法深入感知事件的局限性,以及人工审核报警事件成本高的问题,研究了一种结合多模态大模型(MLLM)的高速公路场景交通异常事件分析方法,设计并验证了3种基于MLLM的任务:一是自动生成异常事件的详细工单描述,提升事件的感知深度;二是利用MLLM对报警事件进行复审,减少误报,提高检测准确性;三是基于MLLM生成异常事件视频描述,增强事件的可解释性。实验结果显示,基于MLLM的工单描述方法通过视觉指令调优数据集的构建和模型微调,提升了工单信息的完整性和准确性。报警事件复审方面,MLLM能够有效审核出由图像质量低下、虚警误报和类别错误导致的误报,降低了人工审核成本。此外,基于MLLM的视频描述方法通过事件视频图像的采样与描述,实现了对异常事件的高效分析,提高了事件解释性。尽管开源模型在特定场景下略逊于闭源模型,但两者均展现出对多种误报问题的审核能力,证实了MLLM在异常事件审核中的应用潜力。该研究为智能交通监控系统提供了新的解决方案,提高了异常事件处理的自动化水平和实用性。 展开更多
关键词 多模态大模型 监控视频 异常事件检测 视频理解 工单描述 交通异常事件审核
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部