原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

Attention 机制详解

位置编码基础 RoPE 数学推导 RoPE 代码实现长度外推

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

分布式训练数据并行 ZeRO 优化器全分片数据并行张量并行流水线并行多维混合并行

动手训练

预训练数据 Tokenizer 训练模型架构数据流水线训练循环监控与验证

系统工程分布式训练

ZeRO 优化器

会员专享

渐进式去冗余，从优化器状态到参数的三级分片

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

数据并行

理解通信原语和 DDP 的梯度同步机制

全分片数据并行

理解 FSDP 的 Intra-Tensor 分片与 All-Gather/Reduce-Scatter 通信模式

目录

训练状态的冗余分析

ZeRO Stage 1：分片优化器状态

参数分配策略

训练循环对比

ZeRO Stage 2：分片梯度

ZeRO Stage 3：分片参数

通信开销对比

ZeRO-3 的分片方式：Inter-Tensor