Principles

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

FundamentalsModel Architecture Position Encoding

Position Encoding Basics

Premium

Why Transformers need position information, and the methods and limits of absolute position encoding

Log in to continue reading

This is premium content. Please log in to access the full article.

Rotary Position Embedding

From position encoding basics to RoPE math, implementation, and length extrapolation

RoPE Math Derivation

From complex rotations to higher-dimensional generalization, understand the core math of rotary position embeddings

Table of Contents

Permutation Invariance in Transformers

Absolute Position Encoding

Sinusoidal Position Encoding

Learned Position Encoding

How Absolute Position Encoding Is Used

Hidden Properties of Sinusoidal PE

Dot Product Depends Only on Relative Position

Long-Range Decay

Limits of Absolute Position Encoding