系统工程
GPU 编程基础
入门 CUDA 与 Triton,写出高效的 GPU Kernel
概述
在深入 Flash Attention 等高级优化技术之前,我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始,理解 GPU 的工作原理,并学会使用 Triton 编写高效的 GPU Kernel。
本章是 Systems 模块的前置知识,建议在学习 Flash Attention 之前完成。
章节内容
GPU 架构基础
理解 SIMT 编程模型、内存层级与硬件限制
张量布局
深入内存:Stride、Contiguous 与 View 机制
Triton 入门:向量加法
从零开始编写你的第一个 Triton Kernel
为什么需要学这些?
| 你想做的事 | 需要的知识 |
|---|---|
| 理解 Flash Attention 的实现 | Shared Memory, Tiling |
| 写自己的 Attention Kernel | Triton 编程 |
| 优化模型推理速度 | Memory Layout, Coalescing |
| 实现自定义量化 Kernel | CUDA/Triton 基础 |
CookLLM文档