Principles

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

From token ids to logits Embedding and LM Head

Attention Mechanisms

From Self-Attention to GQA Attention Sink

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Distributed Training

Data Parallelism ZeRO Optimizer Fully Sharded Data Parallel 张量并行流水线并行多维混合并行

Hands-on Training

Pretraining Data Tokenizer Training Model Architecture Data Pipeline Training Loop Monitoring and Validation

SystemsGPU Programming Basics

Tensor Layout

Premium

Understand physical memory layout, strides, view vs reshape, and gradient tracking.

Log in to continue reading

This is premium content. Please log in to access the full article.

GPU Architecture Basics

Understand GPU design philosophy, the SIMT model, and hardware hierarchy mapping to build parallel intuition.

Triton Basics: Vector Add

Learn Triton’s programming model through a simple vector add example.

Table of Contents

What Is a Tensor?

Key Concept: Strides

Vector Example (1D)

Matrix Example (2D)

Contiguity Explained

What Breaks Contiguity?

Why Non-contiguous?

View vs Reshape: A Performance Pivot

view(): Zero-copy, But Restricted

reshape(): Smarter, Safer

Gradient Tracking: Clone, Detach, and Their Combination

clone(): Copy Data, Keep Grad History

detach(): Cut Grad, Share Memory

detach().clone(): Common Pattern

Layout Types: Row-major vs Column-major

Test Your Understanding