GPU 编程基础

概述

在深入 Flash Attention 等高级优化技术之前，我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始，理解 GPU 的工作原理，并学会使用 CUDA 和 Triton 编写高效的 GPU Kernel。

本章是 Systems 模块的前置知识，建议在学习 Flash Attention 之前完成。

CUDA 编程入门
- GPU 架构概述：SM、Warp、Thread
- CUDA 编程模型：Grid、Block、Thread
- 内存层次：Global Memory、Shared Memory、Registers
- 实战：编写你的第一个 CUDA Kernel
Tensor Layouts
- 行优先 vs 列优先
- Stride 与 Contiguous
- 内存对齐与 Coalesced Access
- 为什么 Layout 对性能至关重要
Triton 编程入门
- Triton 是什么：用 Python 写 GPU Kernel
- Block-level 编程模型
- 自动 Tiling 与 Memory Coalescing
- 实战：用 Triton 实现矩阵乘法

这是一篇付费内容，请登录您的账户以访问完整内容。

本章是 Systems 模块的前置知识，建议在学习 Flash Attention 之前完成。

CUDA 编程入门
- GPU 架构概述：SM、Warp、Thread
- CUDA 编程模型：Grid、Block、Thread
- 内存层次：Global Memory、Shared Memory、Registers
- 实战：编写你的第一个 CUDA Kernel
Tensor Layouts
- 行优先 vs 列优先
- Stride 与 Contiguous
- 内存对齐与 Coalesced Access
- 为什么 Layout 对性能至关重要
Triton 编程入门
- Triton 是什么：用 Python 写 GPU Kernel
- Block-level 编程模型
- 自动 Tiling 与 Memory Coalescing
- 实战：用 Triton 实现矩阵乘法

这是一篇付费内容，请登录您的账户以访问完整内容。