原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

从 token ids 到 logits Embedding 与 LM Head

Attention 机制

Self-Attention 到 GQA Attention Sink

位置编码基础 RoPE 数学推导 RoPE 代码实现长度外推

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

分布式训练

数据并行 ZeRO 优化器全分片数据并行张量并行流水线并行多维混合并行

动手训练

预训练数据 Tokenizer 训练模型架构数据流水线训练循环监控与验证

系统工程GPU 编程基础

GPU 架构基础

会员专享

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射，建立并行计算的物理直觉。

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

GPU 编程基础

入门 CUDA 与 Triton，写出高效的 GPU Kernel

张量布局

深入理解张量在内存中的物理布局，Strides，View 与 Reshape 的区别，以及梯度追踪机制。

目录

核心矛盾：延迟 vs 吞吐

异构计算 (Heterogeneous Computing)

晶体管经济学

晶体管经济学与任务分工

从图形到 AI：算力的进化

摩尔定律的终结与并行化

CUDA：通用计算的钥匙

Tensor Core：为 AI 而生的"核"

SIMT：单指令多线程

告别循环思维

为什么需要边界检查？

硬件层级：Grid, Block 与 Thread

查询硬件限制

解决规模问题：全局索引计算

多维映射：走向矩阵计算

二维索引计算

为什么这很重要？