期刊文献+
共找到74篇文章
< 1 2 4 >
每页显示 20 50 100
医疗领域大型多模态模型伦理治理的困境与策略
1
作者 毛燕娜 《中国医学伦理学》 北大核心 2025年第9期1133-1140,共8页
大型多模态模型在医疗领域的应用显著提升了效率,但也伴随伦理和安全风险。在医疗质量保障方面,大型多模态模型存在数据质量差、过度依赖和技能退化的风险;在患者安全方面,存在信息误解和隐私侵犯的风险;在责任与问责方面,存在临床责任... 大型多模态模型在医疗领域的应用显著提升了效率,但也伴随伦理和安全风险。在医疗质量保障方面,大型多模态模型存在数据质量差、过度依赖和技能退化的风险;在患者安全方面,存在信息误解和隐私侵犯的风险;在责任与问责方面,存在临床责任界限模糊和法律框架不完善的风险;在医学可持续发展方面,存在治理评价制度缺位,环境影响与气候变化监测不足的风险。为应对这些困境,提出了一系列伦理治理策略:在医疗质量保障方面,需要提升训练数据质量、优化数据保护策略、加强跨部门协作和监管、提升数据标注专业性,并建立伦理审核机制;在患者安全保障方面,需要提升公众数字素养、建立透明的数据处理机制、推动公众参与伦理治理、加强输出结果的透明度和解释性,并鼓励学界开展实证研究;在责任与问责方面,需要建立明确的责任分配框架、加强临床责任与AI责任的区分、强化法律法规和政策支持,并建立使用者资质认证制度;在医学可持续发展方面,需要建立系统化的治理评价制度、推动社会实验和第三方监测、预测医学发展的人力需求、监测和预警气候变化对健康的影响,并增强利益相关方的合作与沟通。总之,大型多模态模型在医疗领域的应用需要综合考虑伦理、安全、责任和可持续发展等因素,通过多方共治和系统化治理,确保在技术进步的同时保障医疗质量和患者权益。 展开更多
关键词 大型多模态模型 伦理治理 患者安全 问责框架 可持续发展
在线阅读 下载PDF
大语言模型与多模态模型在临床医学中的应用与挑战
2
作者 邹源 谈玉平 《广西科学》 北大核心 2025年第1期88-95,共8页
大语言模型(Large Language Models,LLMs)和多模态模型(Multimodal Models,MMLs)通过整合文本、图像、语音等多模态数据,为临床诊断、个性化治疗及慢性病管理提供了全新的技术支持。本文系统梳理了LLMs和MMLs的技术基础及其在临床医学... 大语言模型(Large Language Models,LLMs)和多模态模型(Multimodal Models,MMLs)通过整合文本、图像、语音等多模态数据,为临床诊断、个性化治疗及慢性病管理提供了全新的技术支持。本文系统梳理了LLMs和MMLs的技术基础及其在临床医学中的应用场景,包括临床诊断与决策支持、个性化医疗、慢性病管理等领域,探讨了其在提升诊断准确性、优化治疗方案及改善患者健康管理等方面的潜力与局限性。同时,深入分析了LLMs和MMLs在医疗领域面临的技术挑战,包括模型泛化能力不足、可解释性与透明性欠缺、隐私与数据安全风险,以及与现有医疗系统的兼容性问题,并阐述了这些挑战对技术落地和推广的影响。最后,本文展望了模型优化、数据融合及隐私保护等方面的发展方向,提出通过技术创新与跨领域协作,推动人工智能(Artificial Intelligence,AI)技术在医学领域的深度应用,为提升医疗服务效率和质量提供参考。 展开更多
关键词 大语言模型 多模态模型 临床大数据 临床辅助决策 个性化医疗
在线阅读 下载PDF
多模态模型嵌入知识生成的逻辑机理与路径选择 被引量:2
3
作者 张立明 冉政 张容 《图书与情报》 CSSCI 北大核心 2024年第4期81-89,共9页
基于海量数据与强大算法的多模态模型依赖复杂的结构框架,在嵌入知识生成的过程中展现出跨域数据处理能力和持续输出创新数据等核心特征。高度智能化的知识数据整理、自适应多场景的知识表达与动态协同聚合的知识共享等,推进知识生成逻... 基于海量数据与强大算法的多模态模型依赖复杂的结构框架,在嵌入知识生成的过程中展现出跨域数据处理能力和持续输出创新数据等核心特征。高度智能化的知识数据整理、自适应多场景的知识表达与动态协同聚合的知识共享等,推进知识生成逻辑从既有信息理解向全新知识产出的转变。然而,多模态模型逐渐暴露出缺乏合法可靠的知识数据源、透明可释的生成过程以及高质量内容输出等诸多问题。亟待通过搭建价值对齐的生成模型、提升可控生成的技术水平、完善人类反馈提示策略、构筑基于规则的管控体系等约束其更好地支撑知识生成,加速创新驱动新质生产力发展的进程。 展开更多
关键词 多模态模型 知识生成 逻辑机理 路径选择 新质生产力
在线阅读 下载PDF
面向多模态模型训练的高效样本检索技术
4
作者 唐秀 伍赛 +1 位作者 侯捷 陈刚 《软件学报》 EI CSCD 北大核心 2024年第3期1125-1139,共15页
深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针... 深度学习中,多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等.然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能.现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价.为解决这些问题,提出了一种面向多模态模型训练的高效样本检索技术So-CBI.该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销.在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性. 展开更多
关键词 多模态模型训练 主动学习 样本检索
在线阅读 下载PDF
多模态模型的胡杨林语义信息描述与识别 被引量:1
5
作者 王媛 阿里甫·库尔班 +2 位作者 李均力 吕亚龙 阿依加马力·克然木 《计算机工程与设计》 北大核心 2019年第7期1978-1983,共6页
针对传统逐像素对胡杨林进行识别的方法忽略了相邻像元之间的空间关联性及识别精度低等问题,结合不同层次的特征知识,提出一种多模态模型的胡杨林语义信息描述与识别方法。借助边缘滤波对原始图像进行降噪,保留待识别物体的边缘信息提... 针对传统逐像素对胡杨林进行识别的方法忽略了相邻像元之间的空间关联性及识别精度低等问题,结合不同层次的特征知识,提出一种多模态模型的胡杨林语义信息描述与识别方法。借助边缘滤波对原始图像进行降噪,保留待识别物体的边缘信息提高局域平滑度;将提取的多重空间特征作为多模态模型(CNN _ LSTM)的输入,在进行时间和空间扩展的同时进一步挖掘图像中胡杨的深层语义特征,采用SoftMax分类器实现胡杨林的正确识别。实验结果表明,该方法优于传统的胡杨林识别方法。 展开更多
关键词 空间关联性 边缘滤波 多模态模型 深层特征 识别方法
在线阅读 下载PDF
多模态模型及其在气候分析中的应用 被引量:1
6
作者 王蕾 康杜鹃 李晓东 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2002年第1期83-89,共7页
对气候要素的概率分布进行了讨论 ,根据这些概率分布的特点提出了多模态模型 ,并用非线性拟合的方法进行了验证。对赤道平流层纬向风、ENSO指数 (ESI)序列、冰岛Reykjavik(2 1 90°W ,6 4 13°N)气压和瑞典温度、北半球树木... 对气候要素的概率分布进行了讨论 ,根据这些概率分布的特点提出了多模态模型 ,并用非线性拟合的方法进行了验证。对赤道平流层纬向风、ENSO指数 (ESI)序列、冰岛Reykjavik(2 1 90°W ,6 4 13°N)气压和瑞典温度、北半球树木年轮等数据的分析表明 :气候系统中多模态现象具有普遍性。 展开更多
关键词 概率分布 多模态模型 非线性拟合 气候分析 正态分布 赤道平流层纬向风 ENSO指数
在线阅读 下载PDF
多模态大模型赋能教师数字画像构建与应用 被引量:8
7
作者 谢雅淇 张雅慧 +1 位作者 许课雪 胡小勇 《开放教育研究》 北大核心 2025年第1期100-109,共10页
教师数字画像是助力教师教育高质量发展的重要抓手。本研究立足多模态大模型赋能数字画像应用的创新机遇,针对教师数字画像技术存在的数据采集结构性错配、模型通用性与深度性失衡、画像模型训练升级滞后和伴随式应用服务缺失等问题,分... 教师数字画像是助力教师教育高质量发展的重要抓手。本研究立足多模态大模型赋能数字画像应用的创新机遇,针对教师数字画像技术存在的数据采集结构性错配、模型通用性与深度性失衡、画像模型训练升级滞后和伴随式应用服务缺失等问题,分析教师画像大模型重塑教师数字画像构建与应用方式的多模态认知、关联式推理、增量式学习和伴随式反馈等关键能力;基于教师画像大模型的构建框架,围绕内隐对话、画像分析、发展指导三类细化子任务,设计了多智能体,以加强教师多维画像精准描摹与人机协同循证专业发展的综合性服务供给;以教师数字素养智能测评为例,从对话式智能测评、层级化画像分析和伴随式素养发展三方面阐释基于多智能体协作的场景化实践路径,展示其应用价值。 展开更多
关键词 数字画像 多模态模型 教师专业发展 多智能体
在线阅读 下载PDF
多模态大模型赋能科学教育高质量发展:潜能、挑战与应用探索 被引量:2
8
作者 黄志南 李根 郑娅峰 《中国电化教育》 北大核心 2025年第6期60-69,共10页
科学教育数字化转型是加快教育现代化和教育强国建设的重要支撑。当前,科学教育仍面临数字化资源紧缺、科学探究过程缺乏支持与反馈,以及科学素养评价耗时耗力等难点问题,制约其快速高质量发展。多模态大模型以其强大的数据处理和跨模... 科学教育数字化转型是加快教育现代化和教育强国建设的重要支撑。当前,科学教育仍面临数字化资源紧缺、科学探究过程缺乏支持与反馈,以及科学素养评价耗时耗力等难点问题,制约其快速高质量发展。多模态大模型以其强大的数据处理和跨模态学习能力,能够对科学教育的数字资源建设、实验探究过程和素养评价体系提供有效支持。基于此,该文通过对多模态大模型技术特征的阐述,深入探讨其在科学教育中的应用潜能和问题挑战,并通过案例探索展示其应用场景的可行性,在此基础上提出面向未来的实践建议,以期为技术融入下的科学教育高质量发展路径提供参考。 展开更多
关键词 多模态模型 科学教育 潜能与挑战 人工智能教育应用
在线阅读 下载PDF
多模态大语言模型动态社会互动情景下的情感能力测评 被引量:1
9
作者 周子森 黄琪 +5 位作者 谭泽宏 刘睿 曹子亨 母芳蔓 樊亚春 秦绍正 《心理学报》 北大核心 2025年第11期1988-2000,I0022-I0032,共24页
多模态大语言模型(MLLMs)能够处理并整合图像、文本等多模态数据信息,为理解人类心理与认知行为提供了强有力工具。结合经典的情绪心理学范式,本研究通过比较两种主流MLLMs与人类被试在动态社会互动情景下情绪识别与情绪推理的表现,分... 多模态大语言模型(MLLMs)能够处理并整合图像、文本等多模态数据信息,为理解人类心理与认知行为提供了强有力工具。结合经典的情绪心理学范式,本研究通过比较两种主流MLLMs与人类被试在动态社会互动情景下情绪识别与情绪推理的表现,分离出人物对话视觉特征(图像)和对话内容(文本)在识别与推理相关人物情绪中的不同作用。结果表明,基于人物对话图像和对话内容的MLLMs已经初步展现出和人类被试类似的情绪识别与情绪推理能力。之后进一步比较仅基于人物对话图像、仅基于对话内容以及基于两者结合共三种条件下MLLMs的情绪识别与情绪推理表现,发现人物对话视觉特征一定程度上制约MLLMs基本情绪识别的表现,但能够有效促进复合情绪识别,对情绪推理则未产生显著影响。通过对比两种主流MLLMs及其不同版本(GPT-4-vision/turbo vs.Claude-3-haiku)的表现,发现相较于单纯扩大训练数据规模,技术原理框架的创新对提升MLLMs在社会互动中情绪识别与推理能力更为重要。本研究结果对理解社会互动中情绪识别与推理的心理学机制、启发类人的情感计算与智能算法具有重要科学价值和意义。 展开更多
关键词 多模态大语言模型 社会互动 情绪识别 情绪推理
在线阅读 下载PDF
叙事、认同、沉浸:多模态大模型赋能新时期文化遗产保护与传承的推进策略 被引量:10
10
作者 魏立才 《云南民族大学学报(哲学社会科学版)》 北大核心 2025年第1期31-39,共9页
采用口耳相传、文字记录、影像记录、实物收藏展示等是文化遗产的传统叙事方式。进入数字时代,多模态大模型以其感知、理解、生成等方面的突出优势,为创新文化遗产叙事、重塑群体认同、营造沉浸体验提供了新路径。通过知识图谱构建实现... 采用口耳相传、文字记录、影像记录、实物收藏展示等是文化遗产的传统叙事方式。进入数字时代,多模态大模型以其感知、理解、生成等方面的突出优势,为创新文化遗产叙事、重塑群体认同、营造沉浸体验提供了新路径。通过知识图谱构建实现文化遗产语境再现,基于跨媒体内容智能生成与融合呈现丰富文化遗产表现力,利用情境感知与互动生成技术打造沉浸化文化遗产叙事。同时,多模态大模型助力跨文化语境挖掘、社交网络数据分析与虚实融合体验设计,多层面唤醒公众情感认同。在优化算法性能、开展跨学科协同创新的基础上,应注重数字鸿沟消弭、智能偏见消解、知识产权制度完善,推动多模态大模型成为文化遗产传承的新工具、新平台、新生态,在人机共舞中焕发文化遗产新活力。 展开更多
关键词 多模态模型 文化遗产 智能传承 沉浸式体验 情感认同
在线阅读 下载PDF
多模态大模型赋能高校思想政治教育的伦理审视及治理方略 被引量:3
11
作者 蒋红艳 孙迎光 《学校党建与思想教育》 北大核心 2025年第6期66-69,共4页
随着生成式人工智能的迅速发展,大模型技术实现从单一纯文本向多模态的跨模态转换。定焦于高校思想政治教育领域,多模态大模型正掀起一场基于数字技术的教育生态变革。但是,技术赋能同时也伴生主体、制度与技术多重伦理风险,影响大学生... 随着生成式人工智能的迅速发展,大模型技术实现从单一纯文本向多模态的跨模态转换。定焦于高校思想政治教育领域,多模态大模型正掀起一场基于数字技术的教育生态变革。但是,技术赋能同时也伴生主体、制度与技术多重伦理风险,影响大学生意识形态建构与德育观生成。鉴于此,通过建构“主体—制度—技术”治理框架,创建多主体互动模式实现“师—机—生”协同育人,制定相应伦理规约框定大模型发展边界“,以技制技”规训大模型从“赋魅”走向“祛魅”。 展开更多
关键词 多模态模型 高校思想政治教育 生成式人工智能 科技伦理
在线阅读 下载PDF
多模态大模型赋能思想政治教育的优势、隐忧与展望 被引量:1
12
作者 何梅 米华全 《学校党建与思想教育》 北大核心 2025年第11期79-82,共4页
作为一种新型的机器学习技术,多模态大模型能够处理多种媒体数据,并通过学习不同模态之间的关联,实现更加智能化的信息处理。多模态大模型赋能思想政治教育,催生了“多模态技术+思政教育”的创新融合范式,驱动了思想政治教育资源多元化... 作为一种新型的机器学习技术,多模态大模型能够处理多种媒体数据,并通过学习不同模态之间的关联,实现更加智能化的信息处理。多模态大模型赋能思想政治教育,催生了“多模态技术+思政教育”的创新融合范式,驱动了思想政治教育资源多元化、评价智能化,教育场景泛在化。如双刃剑之喻,多模态大模型的赋能之路亦可能伴随着技术越界、技术依赖和技术幻觉,给思想政治教育及其教育者、教育对象带来了新的挑战与考验。基于此,只有让技术回归“育人”、超越“理性”、兼具“智用”、风险“可控”,才能实现思想政治教育的数字化转型升级。 展开更多
关键词 多模态模型 思想政治教育 技术隐忧 应用展望
在线阅读 下载PDF
集成多模态大模型的施工安全隐患识别
13
作者 安思齐 蔡昂林 +1 位作者 马子程 朱宝岩 《中国安全科学学报》 北大核心 2025年第9期185-192,共8页
为提升施工场景中安全隐患的自动识别和安全管理水平,构建一个集成多模态大模型的施工安全隐患识别模型,进而构成其核心组件——多模态安全隐患识别模型LLaVA-CS(用于施工场景(Construction Site,CS)下的多模态视觉-文本大语言模型(LLaV... 为提升施工场景中安全隐患的自动识别和安全管理水平,构建一个集成多模态大模型的施工安全隐患识别模型,进而构成其核心组件——多模态安全隐患识别模型LLaVA-CS(用于施工场景(Construction Site,CS)下的多模态视觉-文本大语言模型(LLaVA));该系统将图像(施工现场照片)与安全操作规程(工人行为描述)相结合,利用多模态学习和深度学习技术,实时监控和分析施工现场;为支持系统的有效运行,构建一个涵盖不同光照、遮挡和多人场景等复杂条件的多模态数据集,弥补现有公开数据集的空白。结果表明:通过对LLaVA-1.5模型进行提示调优,LLaVA-CS模型能有效融合视觉与文本信息,提升安全隐患识别的精度和可解释性。集成该模型的施工安全隐患识别方法在多个实际施工项目中识别准确率达到0.7222,能够实时生成详细的解释文本,帮助管理人员快速理解安全隐患的具体情境,增强安全管理的决策支持。将多模态大模型应用于施工安全管理系统,有助于提供实时、可解释的安全监控解决方案。 展开更多
关键词 多模态模型 施工安全隐患 复杂施工场景 安全管理 提示调优
在线阅读 下载PDF
多模态大模型赋能高中地理教学的创新实践——以“碳排放与国际减排合作”为例
14
作者 李舒璇 张佳欣 +2 位作者 梁晓雨 葛佳浩 张建珍 《地理教学》 北大核心 2025年第21期14-19,共6页
近年来,多模态大模型凭借其强大的信息处理与跨模态生成能力,成为人工智能领域的突破性技术,为高中地理教学带来了新的机遇与挑战。本文以湘教版选择性必修3《资源、环境与国家安全》中“碳排放与国际减排合作”为实践载体,构建“教学... 近年来,多模态大模型凭借其强大的信息处理与跨模态生成能力,成为人工智能领域的突破性技术,为高中地理教学带来了新的机遇与挑战。本文以湘教版选择性必修3《资源、环境与国家安全》中“碳排放与国际减排合作”为实践载体,构建“教学资源生成—课堂任务设计—课后智能反馈”的应用框架,探索多模态大模型在课前教学资源整合、课堂教学活动设计以及课后教学效果评估中的实际应用,并对未来多模态大模型赋能高中地理教学的发展提出展望。 展开更多
关键词 多模态模型 高中地理 生成式人工智能 碳排放
在线阅读 下载PDF
面向函数图像数据的多模态大模型训练策略
15
作者 明一博 陈彦敏 赵嘉璐 《计算机应用研究》 北大核心 2025年第11期3421-3429,共9页
近年来,多模态大语言模型经历了快速发展,并在各种多模态下游任务中展现了卓越的性能。然而,当前主流的多模态大语言模型在函数图像推理任务中的表现仍不尽如人意,这要求模型不仅具备强大的视觉感知能力,还需进行链式思维推理,以准确理... 近年来,多模态大语言模型经历了快速发展,并在各种多模态下游任务中展现了卓越的性能。然而,当前主流的多模态大语言模型在函数图像推理任务中的表现仍不尽如人意,这要求模型不仅具备强大的视觉感知能力,还需进行链式思维推理,以准确理解和解答涉及数学函数的问题。为了解决这些问题,首先构建了一个专门针对函数图像推理任务的指令微调数据集FunctionQA。每条数据除标准问答对外,还包含详细的链式推理过程,确保模型在训练过程中能够学习到复杂的推理步骤。其次,针对函数图像推理任务,设计了一种四阶段微调策略,逐步优化视觉编码器、多模态适配器和大语言模型,并结合LoRA技术以降低训练成本。实验结果表明,基于LLaVA框架构建的mFunction-4B模型,经FunctionQA数据集与四阶段微调策略的优化后,以4B参数量在MathVista testmini FunctionQA子集上达到43.55%的准确率,较基线模型LLaVA-1.5-7B提升14.52%,验证了其方法的可行性和有效性。 展开更多
关键词 多模态大语言模型 链式思维推理 指令微调 LoRA
在线阅读 下载PDF
《计算机科学与探索》“多模态大模型:理论、技术与应用”专题征文通知
16
《计算机工程与应用》 北大核心 2025年第9期I0001-I0001,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力。 展开更多
关键词 DeepSeek Janus-Pro 多模态模型 GEMINI
在线阅读 下载PDF
“多模态大模型:理论、技术与应用”专题征文通知
17
《计算机科学与探索》 北大核心 2025年第8期I0002-I0002,共1页
近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多... 近年来,随着人工智能技术的飞速发展,多模态大模型通过整合文本、图像、音频、视频等多种模态数据,在跨模态理解、生成与推理任务中展现出前所未有的潜力。包括GPT-4o、Gemini、DeepSeek Janus-Pro在内的一系列多模态大模型先后出现,多模态大语言模型(multimodal large language models,MLLMs)方法与技术不仅在视觉内容理解、跨模态检索、文本到图像与视频生成等场景中展现出强大能力。 展开更多
关键词 DeepSeek Janus-Pro 多模态模型 GEMINI
在线阅读 下载PDF
树木倒伏场景中多模态大模型的应用挑战与优化研究
18
作者 冯雷 李超楠 +7 位作者 盛春杰 施宇星 黄奕铖 金剑虹 许韵 杜聿洲 周妮娜 缪思好 《华东师范大学学报(自然科学版)》 北大核心 2025年第5期53-65,共13页
针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有... 针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有效克服了传统模型易陷入单一错误逻辑的缺陷,显著增强了模型在复杂场景下的视觉决策能力.为验证该方法的有效性,构建了一个面向城市治理中树木倒伏场景的专用数据集.实验结果表明,与基线模型相比,本方法在事件召回率和关键信息捕获率上均有显著提升.本研究不仅为解决城市公共安全领域的视觉决策难题提供了可靠的技术方案,也为提升大模型在关键任务中的推理可靠性提供了新的范式. 展开更多
关键词 多模态模型 社会治理 智能体
在线阅读 下载PDF
基于多模态大模型的影像智能分析——以影像民族志为例
19
作者 富晓星 赵璐楠 王安顶 《广东社会科学》 北大核心 2025年第5期180-192,287,288,共15页
随着多模态大模型推动社会科学质性研究的智能化转型,影像民族志分析在技术升级的要求下面临着长视频深度解析的复杂挑战。本研究提出一种基于多模态大模型(MLLM)的影像智能分析框架,通过“切片-重组”技术路径将当前存在技术难点的长... 随着多模态大模型推动社会科学质性研究的智能化转型,影像民族志分析在技术升级的要求下面临着长视频深度解析的复杂挑战。本研究提出一种基于多模态大模型(MLLM)的影像智能分析框架,通过“切片-重组”技术路径将当前存在技术难点的长视频理解转化为可操作的文本分析任务,结合扎根理论编码与时间戳回溯机制,构建非结构化影像到结构化片段的跨模态解析体系。研究发现:MLLM具备时序推理、跨尺度细节捕捉及多模态语义融合能力,但仍需结合知识图谱优化文化特异性知识识别精度。该方法实现了传统影像分析在数量、质量和效率上的三重技术突破,不仅验证了跨模态理论的可迁移性,更揭示了社会科学研究在数字时代深度融合技术逻辑的必要性。 展开更多
关键词 多模态模型 影像智能分析 视频理解 影像民族志
在线阅读 下载PDF
基于提示词与多模态大模型选择的环境地图评价优化路径研究
20
作者 张雨薇 王民 《地理教学》 北大核心 2025年第13期20-24,共5页
为探究人工智能辅助环境地图评价的优化路径,本研究对比了不同提示词与大模型组合的评价结果,测量其与人类专家评分的拟合程度。本研究选择了环境地图展示活动的作品作为研究样本,选取了输入—输出提示(IO)、专家提示(EP)、自洽提示(SC... 为探究人工智能辅助环境地图评价的优化路径,本研究对比了不同提示词与大模型组合的评价结果,测量其与人类专家评分的拟合程度。本研究选择了环境地图展示活动的作品作为研究样本,选取了输入—输出提示(IO)、专家提示(EP)、自洽提示(SC)及思维图像提示(IOT)四类提示词,以及豆包、通义千问、智谱清言、跃问四个多模态大模型进行组合测试。结果表明,IOT提示词在整体作品评价和多数的分项评价上都表现出与人类专家相似的评价能力,豆包和跃问模型在地图识别任务上表现相对较好,为教学实践中的提示词及大模型选择提供了借鉴。 展开更多
关键词 环境地图 人工智能 多模态模型 提示词工程 教学评价
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部