CookLLM Docs

Home CookLLM

Principles

Tokenization

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

FlashAttention

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

CookLLM Docs

Home CookLLM

Principles

Tokenization

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

FlashAttention

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

SystemsGPU Programming Basics

Triton Basics: Vector Add

Premium

Learn Triton’s programming model through a simple vector add example.

Companion Code

Log in to continue reading

This is premium content. Please log in to access the full article.

Tensor Layout

Understand physical memory layout, strides, view vs reshape, and gradient tracking.

Flash Attention

Deeply understand Flash Attention principles and Triton implementation

SPMD Programming Model

Build the Kernel Step by Step

Step 1: Identify Yourself

Step 2: Compute Offsets

Step 3: Handle Boundaries

Step 4: Load, Compute, Store

SystemsGPU Programming Basics

Triton Basics: Vector Add

Premium

Learn Triton’s programming model through a simple vector add example.

Companion Code

Log in to continue reading

This is premium content. Please log in to access the full article.

Tensor Layout

Understand physical memory layout, strides, view vs reshape, and gradient tracking.

Flash Attention

Deeply understand Flash Attention principles and Triton implementation

SPMD Programming Model

Build the Kernel Step by Step

Step 1: Identify Yourself

Step 2: Compute Offsets

Step 3: Handle Boundaries

Step 4: Load, Compute, Store

Triton Basics: Vector Add

Log in to continue reading

Table of Contents

Triton Basics: Vector Add

Log in to continue reading

Table of Contents