Principles

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

FundamentalsTokenization

BPE Algorithm

Premium

Deep dive into Byte Pair Encoding, with manual training, encoding, and decoding

Log in to continue reading

This is premium content. Please log in to access the full article.

Tokenization Basics

Why tokenization? From character-level to subword-level, with Unicode and UTF-8

GPT Tokenizers

GPT-2/GPT-4 tokenization, regex pre-tokenization, and the tiktoken library

Table of Contents

Core Idea of BPE

BPE Algorithm Steps

Round 1: Find Most Frequent Pair

Round 2: Continue Merging

Implementing BPE: Core Functions

1. Count Pair Frequencies

2. Merge a Pair

Encoding and Decoding

Encoding: Text → Tokens

Decoding: Tokens → Text

Advantages of BPE