LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

系统工程

GPU 编程基础

入门 CUDA 与 Triton,写出高效的 GPU Kernel

概述

在深入 Flash Attention 等高级优化技术之前,我们需要先掌握 GPU 编程的基础知识。本章将带你从零开始,理解 GPU 的工作原理,并学会使用 Triton 编写高效的 GPU Kernel。

本章是 Systems 模块的前置知识,建议在学习 Flash Attention 之前完成。

章节内容

GPU 架构基础

理解 SIMT 编程模型、内存层级与硬件限制

张量布局

深入内存:Stride、Contiguous 与 View 机制

Triton 入门:向量加法

从零开始编写你的第一个 Triton Kernel

为什么需要学这些?

你想做的事需要的知识
理解 Flash Attention 的实现Shared Memory, Tiling
写自己的 Attention KernelTriton 编程
优化模型推理速度Memory Layout, Coalescing
实现自定义量化 KernelCUDA/Triton 基础

参考资料

  • CUDA C++ Programming Guide
  • Triton Documentation
  • GPU Architecture Explained

与 Transformer 集成

理解 Hyper-connection 架构,将 Engram 集成到 Transformer 中

GPU 架构基础

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射,建立并行计算的物理直觉。

目录

概述
章节内容
为什么需要学这些?
参考资料