Principles

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

FundamentalsModel Architecture Position Encoding

Length Extrapolation

Premium

NTK-aware Scaling, YaRN, and other methods to let RoPE handle longer sequences

Log in to continue reading

This is premium content. Please log in to access the full article.

RoPE Implementation

Inverse frequency computation, cos/sin caching, and a vectorized apply_rotary_pos_emb

GPU Programming Basics

Learn CUDA and Triton, and write efficient GPU kernels

Table of Contents

The Rotation View: Understanding Extrapolation

Rotating on the Unit Circle

High Frequency vs Low Frequency: Coverage Differences

From Rotation to Solutions

Position Interpolation (PI)

NTK-aware Scaling

Advantages of NTK-aware

YaRN’s Three Components

1. NTK-by-parts (piecewise interpolation)

2. Attention Scaling

Summary Comparison