期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
人工智能大模型训练中数据的赋能型治理 被引量:2
1
作者 梁伟亮 《学习与探索》 北大核心 2025年第3期73-84,共12页
数据作为人工智能发展的基础,其重要意义不仅在于能够为大模型训练提供基础原料,还在于能够突显人工智能的开发和经营主体的竞争优势。目前人工智能大模型训练主要面临数据来源的合规问题、数据处理的安全问题和数据生成的权属问题等,... 数据作为人工智能发展的基础,其重要意义不仅在于能够为大模型训练提供基础原料,还在于能够突显人工智能的开发和经营主体的竞争优势。目前人工智能大模型训练主要面临数据来源的合规问题、数据处理的安全问题和数据生成的权属问题等,亟待数据治理体系的完善以回应人工智能的发展要求。对此,应从数据治理本身所蕴含的赋能型理论入手,将数据的风险治理和高质量供给机制融入数据要素市场的治理体系之中,在市场化进程中健全数据分类分级授权使用、落实数据安全主体责任、健全数据产权分置与数据竞争等制度,探索赋能数据要素高效流通的新型治理路径,进而推进人工智能时代数据治理体系的完善,为人工智能发展提供制度助力。 展开更多
关键词 人工智能 大模型训练 数据治理 数据安全 数据竞争
在线阅读 下载PDF
从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展 被引量:16
2
作者 冯杨洋 汪庆 +1 位作者 谢旻晖 舒继武 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期809-823,共15页
以ChatGPT为代表的大模型在文字生成、语义理解等任务上表现卓越,引起了工业界和学术界的广泛关注.大模型的参数量在3年内增长数万倍,且仍呈现增长的趋势.首先分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算... 以ChatGPT为代表的大模型在文字生成、语义理解等任务上表现卓越,引起了工业界和学术界的广泛关注.大模型的参数量在3年内增长数万倍,且仍呈现增长的趋势.首先分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算模式、访存模式、数据特征,这使得针对互联网、大数据等应用的传统存储技术在处理大模型训练任务时效率低下,且容错开销大.然后分别阐述了针对大模型训练的3类存储加速技术与2类存储容错技术.针对大模型训练的存储加速技术包括:1)基于大模型计算模式的分布式显存管理技术,依据大模型计算任务的划分模式和计算任务间的依赖关系,设计模型数据在分布式集群中的划分、存储和传输策略;2)大模型训练访存感知的异构存储技术,借助大模型训练中的访存模式可预测的特性,设计异构设备中的数据预取和传输策略;3)大模型数据缩减技术,针对大模型数据的特征,对模型训练过程中的数据进行缩减.针对大模型训练的存储容错技术包括:1)参数检查点技术,将大模型参数存储至持久化存储介质;2)冗余计算技术,在多张GPU中重复计算相同版本的参数.最后给出了总结和展望. 展开更多
关键词 ChatGPT 大模型 存储系统 容错 大模型训练系统
在线阅读 下载PDF
HPN:阿里云大模型训练网络架构
3
作者 钱坤 翟恩南 操佳敏 《中兴通讯技术》 北大核心 2024年第6期63-67,共5页
介绍了阿里云用于大型语言模型(LLM)训练的数据中心网络架构高性能网络(HPN)。HPN通过双上联、多轨、双平面的网络架构设计,避免了单链路故障带来的严重连通性影响,并且避免了哈希极化的产生。实验表明,HPN将LLM训练的端到端性能提升超... 介绍了阿里云用于大型语言模型(LLM)训练的数据中心网络架构高性能网络(HPN)。HPN通过双上联、多轨、双平面的网络架构设计,避免了单链路故障带来的严重连通性影响,并且避免了哈希极化的产生。实验表明,HPN将LLM训练的端到端性能提升超过14.9%。HPN已在阿里的生产环境中部署了超过1年。 展开更多
关键词 大模型训练 网络架构 数据中心网络
在线阅读 下载PDF
Resilio:一种大模型弹性训练容错系统
4
作者 李焱 杨偲乐 +9 位作者 刘成春 王林梅 田瑶琳 张信航 朱昱 李莼蒲 孙磊 颜深根 肖利民 张伟丰 《计算机研究与发展》 北大核心 2025年第6期1380-1395,共16页
具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大... 具备千亿级参数的大型语言模型正在引领当今人工智能与异构计算的技术革新及商业模式的深刻转变.然而,大模型训练任务需要长时间占用大量的硬件资源,软硬件故障发生的频率高且类型较多,并且故障原因难定位导致训练中断时间较长.针对大模型训练过程中面临的网络中断、节点宕机、进程崩溃等多种典型故障,提出一种大模型弹性容错系统Resilio来提供高效自动的恢复机制.基于模型训练的并行策略与硬件的存储层次特点,Resilio通过多层次优化检查点读写操作和即时检查点保存机制,对于千亿规模参数模型,可以将端到端故障恢复时间缩短至10min以内,模型中断后的重新训练时间缩短至单次训练迭代时间.当集群资源弹性变化时,Resilio能够快速准确地获取大模型训练最优并行策略配置,与容错调度组件共同确保系统的自适应能力,弹性调度训练资源用以提升作业的训练效率和集群GPU资源利用率. 展开更多
关键词 大模型训练 深度学习 容错 故障检测 弹性训练 自动并行
在线阅读 下载PDF
大模型数据训练中的著作权合理使用研究 被引量:36
5
作者 张吉豫 汪赛飞 《华东政法大学学报》 CSSCI 北大核心 2024年第4期20-33,共14页
创建于文学艺术领域的著作权法在人工智能时代需要积极回应技术的发展需求,建构与社会技术发展相适应的合理使用规则。人工智能大模型训练过程中对作品的使用是一种技术过程中的附随性复制,具有极强的转换性目的。训练出的人工智能大模... 创建于文学艺术领域的著作权法在人工智能时代需要积极回应技术的发展需求,建构与社会技术发展相适应的合理使用规则。人工智能大模型训练过程中对作品的使用是一种技术过程中的附随性复制,具有极强的转换性目的。训练出的人工智能大模型的正常用途并非生成侵权内容,而是具有广阔的应用领域,对社会发展有积极意义。但大模型训练需要海量的高质量作品,并且作品需要具有丰富性、多样性。由于交易成本高、许可费堆积、许可意愿的有限性和选择性及公共利益考量等因素,市场机制难以有效实现资源合理配置。因此,有必要建立机器学习合理使用条款,来明确人工智能大模型训练中对作品使用的合法性,同时对人工智能输出端进行合理规范,以便更好地平衡著作权人、社会公众、人工智能大模型研发方等多重利益,促进个人创新、企业创新、社会创新,并鼓励著作权人与人工智能大模型研发者建立创新性的合作机制,在智能向善的原则下推动社会文化的繁荣发展和更美好生活的实现。 展开更多
关键词 人工智能大模型训练 合理使用 附随性复制 转换性使用 市场失灵
在线阅读 下载PDF
ScaleFS:面向大语言模型的高性能可扩展元数据设计 被引量:1
6
作者 尚碧筠 韩银俊 +3 位作者 肖蓉 陈正华 屠要峰 董振江 《计算机研究与发展》 北大核心 2025年第3期589-604,共16页
近年来,以Chat GPT为代表的大语言模型(large language model,LLM)技术发展迅速.随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战.首先分析了大模型在数据准... 近年来,以Chat GPT为代表的大语言模型(large language model,LLM)技术发展迅速.随着模型参数规模的持续增长,构建和应用大模型对数据存储规模和存储访问效率提出了更高要求,这对传统存储系统带来了严峻挑战.首先分析了大模型在数据准备、模型训练和推理阶段的存储访问特征,深入探讨了传统存储系统在大模型场景下面临的主要问题和瓶颈.针对这些挑战,提出并实现了一种高性能、可扩展的分布式元数据设计Scale FS.通过目录树元数据与属性元数据解耦的架构设计,并结合深度与广度均衡的目录树分层分区策略设计,Scale FS实现了高效的路径解析、负载均衡和系统扩展能力,能够高效管理千亿级文件.此外,Scale FS设计了细粒度元数据结构,优化了元数据访问模式,并构建了面向文件语义优化的元数据键值存储底座,显著提升了元数据访问效率并减少了磁盘I/O操作.实验结果表明,Scale FS的每秒操作次数(operations per second,OPS)是HDFS的1.04~7.12倍,而延迟仅为HDFS的12.67%~99.55%.在千亿级文件规模下,Scale FS的大部分操作性能优于HDFS在十亿级文件规模下的表现,展现出更高的扩展性和访问效率,能够更好地满足大模型场景对千亿级文件存储及高效访问的需求. 展开更多
关键词 大语言模型 大模型训练 存储系统 元数据管理 可扩展性
在线阅读 下载PDF
可重构OCS技术在大模型预训练中的应用(特邀) 被引量:1
7
作者 朱宸 周谞 王佩龙 《光通信研究》 北大核心 2024年第5期25-34,共10页
【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的... 【目的】相比于电子分组交换机(EPS),全光电路交换(OCS)在时延、功耗、成本和稳定性等各个方面都体现出了优势,文章通过分析大模型预训练中的并行切分策略、集合通信需求、流量模式和现今的网络架构,讨论了基于OCS在训练组网中的可行的应用方式,以在训练任务中充分利用OCS的优势。【方法】文章提出在故障快速恢复中采用多个小端口OCS进行网络设备冗余保护的机制,可在机顶(ToR)交换机故障时快速切换不中断训练任务。此外,文章还提出OCS只为数据并行(DP)服务,且仅在任务开始前进行配置。【结果】文章提出了多种可行的光电组网架构,以及在不同AllReduce算法下的具体配置,采用包括集合通信算法和架构设计联合优化的方式达到更优的带宽利用率。【结论】只要充分结合训练任务的流量模型,OCS可以很好地融入现有EPS网络架构,从成本、低功耗、低时延以及高稳定性等各方面对大模型预训练进行优化。 展开更多
关键词 全光电路交换 可重构 光电混合网络架构 大模型训练 集合通信 并行训练
在线阅读 下载PDF
面向多模态预训练的子图匹配式对比学习方法研究
8
作者 陈公冠 刘慧 +2 位作者 李恒泰 郭强 张彩明 《计算机学报》 北大核心 2025年第4期893-909,共17页
通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配... 通过图像文本对的联合学习,多模态预训练大模型在各种视觉任务中展现出巨大的潜力,比如在高质量数据集匮乏的医学领域。然而,现有的模态匹配式预训练方法通常使用全局匹配的方式,易受到低质量信息的干扰。尽管少量研究开始关注局部匹配,但这些方法仅仅通过简单的池化操作来缩小匹配范围,忽略了跨模态重要对象之间的内在关系以及跨样本对之间同语义表征的获取。鉴于此,本文在多模态大模型的预训练过程中,提出了一种基于图神经网络的消息传递机制,对多模态数据特征进行节点化和子图化,从而将跨模态的匹配方式由全局匹配转变为子图匹配,减少低质量信息的干扰。同时,利用交叉注意力在单一模态内进行子图级别的差异化处理,使其在跨模态学习中建立更细致的关联和语义理解。此外,提出高维空间的样本对聚类方法,以减少多模态大模型对相同语义的无关联错误表达。在涵盖图像分类、病灶区域目标检测和语义分割任务的七个医学图像数据集上进行了大量实验,验证了本文所提出模型的可行性和优越性能。同时在表情识别任务中进行实验,验证了本文模型的泛化性能。 展开更多
关键词 多模态预训练大模型 局部匹配 子图匹配 无关联错误 聚类
在线阅读 下载PDF
基于大模型的钻井现场人体姿态估计方法研究
9
作者 刘兆年 连远锋 +2 位作者 师印亮 王宁 姜彬 《钻采工艺》 北大核心 2025年第1期104-112,共9页
准确的人体姿态估计对钻井现场员工行为的监测和安全预警至关重要。针对钻井平台现场监控视频中存在高反光、高模糊和遮挡问题,提出一种基于双向特征融合的人体姿态估计模型,通过构建一种高效的双向特征融合机制,在ViT预训练模型的基础... 准确的人体姿态估计对钻井现场员工行为的监测和安全预警至关重要。针对钻井平台现场监控视频中存在高反光、高模糊和遮挡问题,提出一种基于双向特征融合的人体姿态估计模型,通过构建一种高效的双向特征融合机制,在ViT预训练模型的基础上引入空洞金字塔池化技术捕捉的图像多尺度空间特征。该机制可同时关注ViT预训练模型内部特征、多尺度空间特征以及两者间的交互特征,实现多类特征的高效集成。实验结果表明,通过与基准模型HRNet的对比,文章方法在KAP和KAR上分别实现了3.6%和4.1%的显著提升。同时,在南海某平台的智能监控系统中对所提出的模型进行应用测试,仍然显示出较高的准确性,为后续深入研究员工不安全行为的智能分析提供了精确的动作估计基础。 展开更多
关键词 人体姿态估计 训练大模型 空洞金字塔池化 双向特征融合
在线阅读 下载PDF
人工智能大模型发展带来的风险挑战和对策 被引量:6
10
作者 徐峰 赛秋玥 +1 位作者 刘鑫怡 刘乾 《学术前沿》 CSSCI 北大核心 2024年第13期72-78,共7页
近年来,以预训练大模型为代表的人工智能技术能力快速提升,也加速推动人工智能技术与科技、经济、社会发展深度融合,成为新一轮科技革命和产业变革的重要驱动力量。作为一项新兴技术,人工智能的“双刃剑”效应使得技术在快速进步和应用... 近年来,以预训练大模型为代表的人工智能技术能力快速提升,也加速推动人工智能技术与科技、经济、社会发展深度融合,成为新一轮科技革命和产业变革的重要驱动力量。作为一项新兴技术,人工智能的“双刃剑”效应使得技术在快速进步和应用的同时,也引发了全球对其可能带来各类风险挑战的担忧。特别是随着大模型技术的突破,人工智能可能带来的风险挑战发生了一些新的变化。因此,需要在充分把握人工智能技术发展规律的基础上,从政策法规、技术能力、标准规范等多个方面采取针对性的治理之策,深化全球协作,共同应对风险挑战。 展开更多
关键词 人工智能 训练大模型 风险挑战 治理对策
在线阅读 下载PDF
基于大模型增强的通用人工智能教师架构 被引量:37
11
作者 余胜泉 熊莎莎 《开放教育研究》 CSSCI 北大核心 2024年第1期33-43,共11页
以ChatGPT为代表的预训练大模型在教育界产生了巨大影响,也为发展通用人工智能教师带来了曙光。预训练大模型应用于教育存在幻觉、深度逻辑缺失、社会情感缺失等局限,如果这些关键问题不解决,大模型不可能在教育中得到真正有价值的应用... 以ChatGPT为代表的预训练大模型在教育界产生了巨大影响,也为发展通用人工智能教师带来了曙光。预训练大模型应用于教育存在幻觉、深度逻辑缺失、社会情感缺失等局限,如果这些关键问题不解决,大模型不可能在教育中得到真正有价值的应用。本文提出通过增强大模型构建通用人工智能教师架构,其核心思路是精调训练增强场景知识、检索增强认知、外部智能组件编排增强推理、多模态融合增强感知、情感计算增强社会情感,再通过教育知识图谱对大模型输出进行监督。通用人工智能教师主要有六种应用场景:需要渊博知识的场景、洞察创意增强场景、约束与管理场景、社会情感互动场景、个性化指导与反馈场景、多模态内容表现场景。文章最后分析了通用智能时代人类教师面临的机遇与挑战,提出教师需要主动拥抱、使用、驾驭并控制智能技术,解放、增强、进化自我,并跨越陷阱。 展开更多
关键词 人工智能教师 生成式人工智能 训练大模型 人工智能教育应用
在线阅读 下载PDF
垂直领域大模型的定制化:理论基础与关键技术 被引量:21
12
作者 陈浩泷 陈罕之 +3 位作者 韩凯峰 朱光旭 赵奕晨 杜滢 《数据采集与处理》 CSCD 北大核心 2024年第3期524-546,共23页
随着ChatGPT等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该... 随着ChatGPT等基于大模型的产品展现出强大的通用性能,学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中,即进行垂直领域大模型的定制化。然而,现有的通用大模型可能无法完全适配特定领域数据的格式,或不足以捕捉该领域的独特需求。因此,本文旨在探讨垂直领域大模型定制化的方法论,包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础,以及几种可行的垂直领域大模型构建方法,期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。 展开更多
关键词 人工智能 垂直领域大模型 多模态大模型 训练大模型 大模型微调
在线阅读 下载PDF
生成式人工智能著作权侵权问题研究 被引量:5
13
作者 祝建军 《知识产权》 北大核心 2025年第2期44-60,共17页
生成式人工智能是目前人类创新活动的前沿性领域,具有广阔的发展前景。新技术应用往往会带来利益分配和纠纷解决的法律适用难题。在生成式人工智能领域,首当其冲的难题是著作权法适用。面对新问题,理论界与实务界均存在较大争议。立足... 生成式人工智能是目前人类创新活动的前沿性领域,具有广阔的发展前景。新技术应用往往会带来利益分配和纠纷解决的法律适用难题。在生成式人工智能领域,首当其冲的难题是著作权法适用。面对新问题,理论界与实务界均存在较大争议。立足审判实务,总结生成式人工智能著作权侵权纠纷的中外实践经验和裁判规则,依据著作权法的原理和制度内涵,生成式人工智能大模型训练主要是培育机器具有类似人的智力能力,而非传播作品牟利,故生成式人工智能大模型训练未经许可使用他人作品构成合理使用。人工智能生成内容是机器运行生成的结果,不是自然人智力创作直接产生的成果,不应作为作品受到著作权法保护,否认其可版权性,并不会阻碍人工智能的技术发展和产业应用。人工智能生成内容与他人作品相同或近似构成著作权侵权时,为保护他人作品不受侵害,人工智能服务提供商应尽必要的注意义务。适用著作权法处理生成式人工智能著作权侵权纠纷,既要保护著作权人的合法权益,又要促进人工智能技术的发展,平衡好相关方的利益。 展开更多
关键词 生成式人工智能 大模型训练 合理使用 自然人创作 独创性 注意义务
在线阅读 下载PDF
面向智算中心的新型以太网需求与关键技术 被引量:3
14
作者 段晓东 李婕妤 +3 位作者 程伟强 李晗 王瑞雪 王豪杰 《电信科学》 北大核心 2024年第6期146-159,共14页
AI大模型正引领下一个十年的信息与通信技术(information and communications technology,ICT)产业发展热点。智算中心网络是支撑AI大模型分布式训练的通信底座,是决定AI集群效能的关键要素之一。AI大模型的数据量和参数量不断扩张,给... AI大模型正引领下一个十年的信息与通信技术(information and communications technology,ICT)产业发展热点。智算中心网络是支撑AI大模型分布式训练的通信底座,是决定AI集群效能的关键要素之一。AI大模型的数据量和参数量不断扩张,给智算中心网络带来了严峻的挑战,同时给关键网络技术进行代际性创新带来了机遇。在AI大模型训练和推理过程中,提供数据的高性能和高安全传输是AI业务对智算中心网络的两大核心需求。高效的负载均衡、拥塞控制技术和网络安全协议是其中的关键网络技术。为应对大规模AI业务带来的严峻挑战,提出全调度以太网(global scheduled Ethernet,GSE)作为对应的解决方案,并搭建真实的测试环境对GSE和RoCE(remote direct memory access over converged Ethernet)网络进行性能对比测试。测试结果证明,GSE相较RoCE网络显著改善了任务完成时间(job completion time,JCT)。 展开更多
关键词 AI大模型分布式训练 全调度以太网 负载均衡 拥塞控制 网络安全协议
在线阅读 下载PDF
主题结构增强的大模型实体共指消解方法
15
作者 刘小明 吴彦博 +2 位作者 杨关 刘杰 吴佳昊 《计算机应用研究》 2025年第9期2621-2630,共10页
针对现有基于大规模预训练语言模型(large-scale pre-trained language models,LLMs)的实体共指消解(entity coreference resolution,ECR)方法在处理长文本和复杂情境时性能受限,且全参数微调计算开销大的问题,进行了一项研究。提出了... 针对现有基于大规模预训练语言模型(large-scale pre-trained language models,LLMs)的实体共指消解(entity coreference resolution,ECR)方法在处理长文本和复杂情境时性能受限,且全参数微调计算开销大的问题,进行了一项研究。提出了一种基于提示学习的主题结构增强型ECR模型。此模型利用上下文中的主题结构信息,以增强模型捕捉长距离共指关系的能力;同时,设计了一种可学习的提示模板,显著降低了模型微调所需的计算资源。在三个公开数据集上的实验结果表明,所提方法相较于基准模型,性能分别提升了2.3、0.5和2.6个百分点。并且与当前先进的Link-Append、Seq2seqCoref等模型相比,该方法在仅使用约1.1%参数量的情况下,达到了其约98%的性能水平,证明了该方法在提升长文本ECR任务效果的同时,具备显著的计算效率优势。 展开更多
关键词 实体共指消解 主题模型 提示学习 训练大模型
在线阅读 下载PDF
智算互联综述
16
作者 张云勇 闫硕 +1 位作者 陈永铭 张启明 《电信科学》 2025年第8期22-32,共11页
随着大模型参数量突破万亿规模,智算互联面临超大规模组网、低时延通信、高带宽同步等技术挑战。研究构建了包含吞吐量、时延、扩展比等指标的多维评价体系,分析了大模型训练、人工智能(artificial intelligence,AI)推理和边缘计算三大... 随着大模型参数量突破万亿规模,智算互联面临超大规模组网、低时延通信、高带宽同步等技术挑战。研究构建了包含吞吐量、时延、扩展比等指标的多维评价体系,分析了大模型训练、人工智能(artificial intelligence,AI)推理和边缘计算三大应用场景的需求特点。通过对比主流科技企业的解决方案,总结了CLOS架构、Fat-Tree拓扑等创新实践,重点探讨了互联协议、网络拓扑、拥塞控制等关键技术,并展望了开放协议、光电融合等未来发展方向。研究表明,智算互联技术的持续创新将为AI发展提供关键基础设施支撑。 展开更多
关键词 人工智能 智算互联 大模型训练 网络拓扑 光电融合
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部