LogoCookLLM文档
LogoCookLLM文档
首页CookLLM - LLM 系统课程

核心课程

Basics
GPU 编程基础
GPU 架构基础:从延迟到吞吐
FlashAttention
并行策略 (Parallelism)
量化技术 (Quantization)
激活检查点 (Activation Checkpointing)
CPU 卸载 (CPU Offloading)
推理优化 (Inference)
Scaling Laws
Data
Alignment
Systems

GPU 编程基础

掌握 CUDA 与 Triton,写出高效的 GPU Kernel

概述

在深入 Flash Attention 等高级优化技术之前,我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始,理解 GPU 的工作原理,并学会使用 CUDA 和 Triton 编写高效的 GPU Kernel。

本章是 Systems 模块的前置知识,建议在学习 Flash Attention 之前完成。

章节内容

📚 即将推出

  1. CUDA 编程入门

    • GPU 架构概述:SM、Warp、Thread
    • CUDA 编程模型:Grid、Block、Thread
    • 内存层次:Global Memory、Shared Memory、Registers
    • 实战:编写你的第一个 CUDA Kernel
  2. Tensor Layouts

    • 行优先 vs 列优先
    • Stride 与 Contiguous
    • 内存对齐与 Coalesced Access
    • 为什么 Layout 对性能至关重要
  3. Triton 编程入门

    • Triton 是什么:用 Python 写 GPU Kernel
    • Block-level 编程模型
    • 自动 Tiling 与 Memory Coalescing
    • 实战:用 Triton 实现矩阵乘法

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

为什么需要学这些?

你想做的事需要的知识
理解 Flash Attention 的实现Shared Memory, Tiling
写自己的 Attention KernelTriton 编程
优化模型推理速度Memory Layout, Coalescing
实现自定义量化 KernelCUDA/Triton 基础

参考资料

  • CUDA C++ Programming Guide
  • Triton Documentation
  • GPU Architecture Explained

learning-rate

learning-rate module

GPU 架构基础:从延迟到吞吐

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射,建立并行计算的物理直觉。

目录

概述
章节内容
📚 即将推出
为什么需要学这些?
参考资料