系统工程FlashAttention

Flash Attention 原理详解

通过交互式可视化，深入理解 Flash Attention 的核心技术：内存瓶颈、Online Softmax、与分块矩阵乘法。

标准 Attention 的内存瓶颈

在深入 Flash Attention 的代码实现之前，我们必须先回答一个底层问题：为什么标准的注意力机制公式 $Softmax(QK^T)V$ 在现代上跑得还不够快？

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

系统工程FlashAttention

Flash Attention 原理详解

通过交互式可视化，深入理解 Flash Attention 的核心技术：内存瓶颈、Online Softmax、与分块矩阵乘法。

标准 Attention 的内存瓶颈

在深入 Flash Attention 的代码实现之前，我们必须先回答一个底层问题：为什么标准的注意力机制公式 $Softmax(QK^T)V$ 在现代上跑得还不够快？

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

GPU

# 标准 Attention 实现的 IO 噩梦
def standard_attention(Q, K, V):
    # 1. HBM -> SRAM(计算) -> HBM(存 S)
    S = Q @ K.T

    # 2. HBM(读 S) -> SRAM(计算) -> HBM(存 P)
    P = softmax(S)

    # 3. HBM(读 P) -> SRAM(计算) -> HBM(存 O)
    O =

存储类型	容量示例 (`A100`)	带宽	速度比喻
`SRAM` (共享内存)	`~20 MB`	`~19 TB/s`	F1 赛车 🏎️
`HBM` (显存)	`40~80 GB`	`~1.5 TB/s`	普通轿车 🚗

方法	`HBM` 读写量	复杂度
`Standard Attention`	$O(N^2)$	随着序列变长，IO 爆炸
`Flash Attention`	$O(N)$	线性增长，极大节省带宽

Flash Attention V1 (Outer loop over K)

# 1. 初始化 HBM 中的 O 为全 0 (必须!)
O = HBM_ZEROS(8, 128)

# 外循环：遍历 K, V 的 4 个 Block
FOR j in 0..3:
    # 把 K[j], V[j] 加载到 SRAM (Cache)
    Kj =

Flash Attention V2 (Outer loop over Q)

# 1. HBM 中的 O 不需要初始化！(可以是随机垃圾值)

# 外循环：遍历 Q 的 4 个 Block
FOR i in 0..3:
    Qi = LOAD_TO_SRAM(Q[i])

    # [优化] 在 SRAM 中初始化累加器为 0
    # 这是纯寄存器/SRAM 操作，速度极快
    Oi_acc = SRAM_ZEROS(2

Naive Block-wise Attention (Mathematically Incorrect)

# 尝试直接将 Softmax 放入 V2 循环结构

# 外循环：遍历 Q 的 4 个 Block
FOR i in 0..3:
    Qi = LOAD_TO_SRAM(Q[i])

    # 在 SRAM 中初始化累加器
    Oi_acc = SRAM_ZEROS(2, 128

Inner Loop: Process K_j

# ---- 保存旧状态 ----
m_prev = m
l_prev = l
Oi_acc_prev = Oi_acc

# ---- Step 1: 更新 running max ----
Sij = Qi @ Kj.T                        # 当前 Block 的 Score
m =

SRAM

l = 1 + e^{2-3} \approx 1.36

S

11

)

\max(S_{11})

Flash Attention 原理详解

标准 Attention 的内存瓶颈

登录以继续阅读

Flash Attention 原理详解

标准 Attention 的内存瓶颈

登录以继续阅读

GPU 内存层级：SRAM 与 HBM

标准实现的逻辑陷阱

SRAM 与 HBM 的带宽差异

速度差异对比

瓶颈本质：IO 受限 (IO-bound)

SRAM 的容量限制

物理制约与成本

容量极限

核心思路：IO 复杂度优化

避免中间矩阵落盘

Online Softmax 原理

离线算法的局限性

在线算法与动态修正

修正公式推导

数值演示：以序列 `[3, 2, 5, 1]` 为例

Flash Attention 的数学原理总结

分块矩阵乘法 (Tiling)

为什么要进行“分块”？

可视化演示：分块计算流程

观察重点

Tiling 与 Attention 的结合

循环策略对比：V1 vs V2

图解交互指南

分块 Attention 的 Softmax 修正

朴素实现：局部 Softmax 的局限

解决方案：在线重缩放 (Online Rescaling)

初始化

内循环: 遍历 K-Blocks

最终步骤: 归一化

目录