从数据并行到多维混合并行,理解大模型训练的核心并行策略
我们正在为您精心准备高质量内容,敬请期待!
反向传播实现
实现 Flash Attention 的梯度计算,通过 Recomputation 实现内存高效的训练。
数据并行
理解通信原语和 DDP 的梯度同步机制