Systems
GPU 编程基础
掌握 CUDA 与 Triton,写出高效的 GPU Kernel
概述
在深入 Flash Attention 等高级优化技术之前,我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始,理解 GPU 的工作原理,并学会使用 CUDA 和 Triton 编写高效的 GPU Kernel。
本章是 Systems 模块的前置知识,建议在学习 Flash Attention 之前完成。
章节内容
📚 即将推出
-
CUDA 编程入门
- GPU 架构概述:SM、Warp、Thread
- CUDA 编程模型:Grid、Block、Thread
- 内存层次:Global Memory、Shared Memory、Registers
- 实战:编写你的第一个 CUDA Kernel
-
Tensor Layouts
- 行优先 vs 列优先
- Stride 与 Contiguous
- 内存对齐与 Coalesced Access
- 为什么 Layout 对性能至关重要
-
Triton 编程入门
- Triton 是什么:用 Python 写 GPU Kernel
- Block-level 编程模型
- 自动 Tiling 与 Memory Coalescing
- 实战:用 Triton 实现矩阵乘法
登录以继续阅读
这是一篇付费内容,请登录您的账户以访问完整内容。
CookLLM文档