原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

从 token ids 到 logits Embedding 与 LM Head

Attention 机制

Self-Attention 到 GQA Attention Sink

位置编码基础 RoPE 数学推导 RoPE 代码实现长度外推

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

分布式训练

数据并行 ZeRO 优化器全分片数据并行张量并行流水线并行多维混合并行

动手训练

预训练数据 Tokenizer 训练模型架构数据流水线训练循环监控与验证

基础知识模型架构 Attention 机制

Attention Sink

会员专享

第一个 token 为什么吸走绝大部分注意力，这一现象的机制、代价，以及为何消除它要留到 Gated Attention

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

Self-Attention 到 GQA

从 Self-Attention 出发，依次拆开 Multi-Head、Causal Masking 与 GQA / MQA 的设计权衡

旋转位置编码

从位置编码基础到 RoPE 的数学推导、代码实现与长度外推

目录

GQA 之后还剩下的问题

现象：第一个 token 吸走了什么

一次直接观察

再拆一层：sink 来自模长还是角度

拆得更彻底：massive activation 落在哪

为什么会出现 sink

softmax 的"权重必须分完"约束

第一个 token 的"全局可见"特权

代价：KV cache 不能丢首 token