-
题名DeepSeek-R1是怎样炼成的?
被引量:35
- 1
-
-
作者
张慧敏
-
机构
不详
-
出处
《深圳大学学报(理工版)》
北大核心
2025年第2期226-232,共7页
-
文摘
简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专家策略,实现计算资源的高效利用;MoE模型架构中的稀疏激活机制和无损负载均衡策略显著提高了模型训练的效率和性能;多头潜在注意力(multi-head latent attention,MLA)机制通过减少内存使用和加速推理过程,降低了模型训练和推理成本;通过引入多token预测(multi-token prediction,MTP)和8位浮点数(floating point 8-bit,FP8)混合精度训练技术,提升了模型的上下文理解能力和训练效率;采用优化并行线程执行(parallel thread execution,PTX)代码显著提高了图形处理器(graphics processing unit,GPU)的计算效率;所提群体相对策略优化(group relative policy optimization,GRPO)对DeepSeek-R1-Zero模型进行纯强化学习训练,跳过了传统的监督微调和人类反馈阶段,显著提升了模型的推理能力.总体而言,DeepSeek系列模型通过多项创新,在人工智能领域取得了显著优势,树立了行业新标杆.
-
关键词
人工智能
DeepSeek
大语言模型
混合专家模型
多头潜在注意力机制
多token预测
混合精度训练
群体相对策略优化
-
Keywords
artificial intelligence
DeepSeek
large language model
mixture of experts architecture
multi-head latent attention mechanism
multi-token prediction
mixed-precision training
group relative policy optimization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-