系统工程

GPU 编程基础

入门 CUDA 与 Triton，写出高效的 GPU Kernel

概述

在深入 Flash Attention 等高级优化技术之前，我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始，理解 GPU 的工作原理，并学会使用 Triton 编写高效的 GPU Kernel。

本章是 Systems 模块的前置知识，建议在学习 Flash Attention 之前完成。

章节内容

GPU 架构基础

理解 SIMT 编程模型、内存层级与硬件限制

张量布局

深入内存：Stride、Contiguous 与 View 机制

Triton 入门：向量加法

从零开始编写你的第一个 Triton Kernel

为什么需要学这些？

你想做的事	需要的知识
理解 Flash Attention 的实现	Shared Memory, Tiling
写自己的 Attention Kernel	Triton 编程
优化模型推理速度	Memory Layout, Coalescing
实现自定义量化 Kernel	CUDA/Triton 基础

参考资料