-
题名面向多模态预训练的子图匹配式对比学习方法研究
- 1
-
-
作者
陈公冠
刘慧
李恒泰
郭强
张彩明
-
机构
山东财经大学计算机与人工智能学院
山东省数字经济轻量智算与可视化重点实验室
山东大学软件学院
-
出处
《计算机学报》
北大核心
2025年第4期893-909,共17页
-
基金
国家自然科学基金(62072274,U22A2033)
中央引导地方科技发展项目(YDZX2022009)
+1 种基金
山东省泰山学者特聘专家计划(tstp20221137)
济南市人才发展专项资金(202333037)资助。
-
文摘
通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。
-
关键词
多模态预训练大模型
局部匹配
子图匹配
无关联错误
聚类
-
Keywords
multi-modal pretrained large-scale models
local matching
subgraph matching
unrelated errors
clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名可重构OCS技术在大模型预训练中的应用(特邀)
被引量:1
- 2
-
-
作者
朱宸
周谞
王佩龙
-
机构
百度在线网络技术有限公司系统部
-
出处
《光通信研究》
北大核心
2024年第5期25-34,共10页
-
文摘
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。
-
关键词
全光电路交换
可重构
光电混合网络架构
大模型预训练
集合通信
并行训练
-
Keywords
OCS
reconfigurable
opto-electro hybrid network architect
large language models pre-training
collective communication
parallel training
-
分类号
TN929
[电子电信—通信与信息系统]
-
-
题名基于大模型的钻井现场人体姿态估计方法研究
被引量:1
- 3
-
-
作者
刘兆年
连远锋
师印亮
王宁
姜彬
-
机构
中海油研究总院有限责任公司
中国石油大学(北京)
-
出处
《钻采工艺》
北大核心
2025年第1期104-112,共9页
-
基金
中海油集团公司“十四五”重大科技项目“数据质量和安全自动化与数据分析预处理技术研究”(编号:KJGG-2024-15-0501)。
-
文摘
准确的人体姿态估计对钻井现场员工行为的监测和安全预警至关重要。针对钻井平台现场监控视频中存在高反光、高模糊和遮挡问题,提出一种基于双向特征融合的人体姿态估计模型,通过构建一种高效的双向特征融合机制,在ViT预训练模型的基础上引入空洞金字塔池化技术捕捉的图像多尺度空间特征。该机制可同时关注ViT预训练模型内部特征、多尺度空间特征以及两者间的交互特征,实现多类特征的高效集成。实验结果表明,通过与基准模型HRNet的对比,文章方法在KAP和KAR上分别实现了3.6%和4.1%的显著提升。同时,在南海某平台的智能监控系统中对所提出的模型进行应用测试,仍然显示出较高的准确性,为后续深入研究员工不安全行为的智能分析提供了精确的动作估计基础。
-
关键词
人体姿态估计
预训练大模型
空洞金字塔池化
双向特征融合
-
Keywords
human pose estimation
pre-training large model
atrous spatial pyramid pooling
bidirectional feature fusion
-
分类号
TE28
[石油与天然气工程—油气井工程]
TP391.41
[自动化与计算机技术—计算机应用技术]
-
-
题名主题结构增强的大模型实体共指消解方法
- 4
-
-
作者
刘小明
吴彦博
杨关
刘杰
吴佳昊
-
机构
中原工学院人工智能学院
中原工学院计算机学院
郑州市文本处理与图像理解重点实验室
北方工业大学信息学院
中国语言智能研究中心
-
出处
《计算机应用研究》
北大核心
2025年第9期2621-2630,共10页
-
基金
“新一代人工智能”国家科技重大专项资助项目(2020AAA0109703)
国家自然科学基金联合基金重点项目(U23B2029)
+2 种基金
国家自然科学基金资助项目(62076167,61772020)
河南省高等学校重点科研项目(24A520058,24A520060,23A520022)
河南省研究生教育改革与质量提升工程项目(YJS2024AL053)。
-
文摘
针对现有基于大规模预训练语言模型(large-scale pre-trained language models,LLMs)的实体共指消解(entity coreference resolution,ECR)方法在处理长文本和复杂情境时性能受限,且全参数微调计算开销大的问题,进行了一项研究。提出了一种基于提示学习的主题结构增强型ECR模型。此模型利用上下文中的主题结构信息,以增强模型捕捉长距离共指关系的能力;同时,设计了一种可学习的提示模板,显著降低了模型微调所需的计算资源。在三个公开数据集上的实验结果表明,所提方法相较于基准模型,性能分别提升了2.3、0.5和2.6个百分点。并且与当前先进的Link-Append、Seq2seqCoref等模型相比,该方法在仅使用约1.1%参数量的情况下,达到了其约98%的性能水平,证明了该方法在提升长文本ECR任务效果的同时,具备显著的计算效率优势。
-
关键词
实体共指消解
主题模型
提示学习
预训练大模型
-
Keywords
entity coreference resolution
topic model
prompt-based learning
LLMs
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名人工智能大模型发展带来的风险挑战和对策
被引量:9
- 5
-
-
作者
徐峰
赛秋玥
刘鑫怡
刘乾
-
机构
中国科学技术信息研究所人工智能发展研究中心
中国科学技术信息研究所
-
出处
《学术前沿》
CSSCI
北大核心
2024年第13期72-78,共7页
-
基金
科技创新2030——“新一代人工智能”重大项目研究成果之一,课题编号:2023ZD0121701。
-
文摘
近年来,以预训练大模型为代表的人工智能技术能力快速提升,也加速推动人工智能技术与科技、经济、社会发展深度融合,成为新一轮科技革命和产业变革的重要驱动力量。作为一项新兴技术,人工智能的“双刃剑”效应使得技术在快速进步和应用的同时,也引发了全球对其可能带来各类风险挑战的担忧。特别是随着大模型技术的突破,人工智能可能带来的风险挑战发生了一些新的变化。因此,需要在充分把握人工智能技术发展规律的基础上,从政策法规、技术能力、标准规范等多个方面采取针对性的治理之策,深化全球协作,共同应对风险挑战。
-
关键词
人工智能
预训练大模型
风险挑战
治理对策
-
Keywords
artificial intelligence
pretraining large model
risks and challenges
governance countermeasures
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名垂直领域大模型的定制化:理论基础与关键技术
被引量:26
- 6
-
-
作者
陈浩泷
陈罕之
韩凯峰
朱光旭
赵奕晨
杜滢
-
机构
深圳市大数据研究院
香港中文大学(深圳)理工学院
中国信息通信研究院
中国移动通信集团终端有限公司
-
出处
《数据采集与处理》
CSCD
北大核心
2024年第3期524-546,共23页
-
基金
广东省基础与应用基础研究重大项目(2023B0303000001)
国家自然科学基金面上项目(62371313)
广东省基础与应用基础研究基金面上项目(2022A1515010109)。
-
文摘
随着ChatGPT等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。
-
关键词
人工智能
垂直领域大模型
多模态大模型
预训练大模型
大模型微调
-
Keywords
artificial intelligence
domain-specific foundation model
multimodal large model
pre-trained foundation model
fine tuning of large models
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于大模型增强的通用人工智能教师架构
被引量:41
- 7
-
-
作者
余胜泉
熊莎莎
-
机构
北京师范大学未来教育高精尖创新中心
-
出处
《开放教育研究》
CSSCI
北大核心
2024年第1期33-43,共11页
-
基金
“十四五”国家重点研发计划项目“农村地区教师教学能力智能评测与教学精准辅助技术研究”(2022YFC3303600)。
-
文摘
以ChatGPT为代表的预训练大模型在教育界产生了巨大影响,也为发展通用人工智能教师带来了曙光。预训练大模型应用于教育存在幻觉、深度逻辑缺失、社会情感缺失等局限,如果这些关键问题不解决,大模型不可能在教育中得到真正有价值的应用。本文提出通过增强大模型构建通用人工智能教师架构,其核心思路是精调训练增强场景知识、检索增强认知、外部智能组件编排增强推理、多模态融合增强感知、情感计算增强社会情感,再通过教育知识图谱对大模型输出进行监督。通用人工智能教师主要有六种应用场景:需要渊博知识的场景、洞察创意增强场景、约束与管理场景、社会情感互动场景、个性化指导与反馈场景、多模态内容表现场景。文章最后分析了通用智能时代人类教师面临的机遇与挑战,提出教师需要主动拥抱、使用、驾驭并控制智能技术,解放、增强、进化自我,并跨越陷阱。
-
关键词
人工智能教师
生成式人工智能
预训练大模型
人工智能教育应用
-
Keywords
AI teacher
Generative artificial intelligence
pre-trained large models
application of artificial intelligence in education
-
分类号
G451
[文化科学—教育技术学]
-