LogoCookLLM文档
LogoCookLLM文档
首页CookLLM - LLM 系统课程

核心课程

Basics
GPU 编程基础
FlashAttention
并行策略 (Parallelism)
量化技术 (Quantization)
激活检查点 (Activation Checkpointing)
CPU 卸载 (CPU Offloading)
推理优化 (Inference)
Scaling Laws
Data
Alignment
Systems

parallelism

parallelism module

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

Flash Attention 原理详解

通过交互式可视化,深入理解 Flash Attention 的核心技术:内存瓶颈、Online Softmax、与分块矩阵乘法。

quantization

quantization module