Tokenization

概述

Tokenization（词元化）是大语言模型的基础组件，负责将文本转换为模型可以处理的数字序列。虽然它看起来只是简单的文本预处理，但实际上 Tokenization 的设计直接影响模型的性能、效率和行为。许多 LLM 的"奇怪"表现，比如不擅长拼写、对某些语言支持不佳等，都可以追溯到 Tokenization 的设计。

本系列将带你从零开始理解 Tokenization 的原理，学习 Byte Pair Encoding (BPE) 算法，并动手实现一个 GPT 风格的 Tokenizer。

本系列适合对 LLM 有基本了解的读者。如果你想深入理解 Tokenization 如何影响模型行为，或者想自己实现一个 Tokenizer，这个系列非常适合你。

章节内容

Tokenization 基础

为什么需要 Tokenization？从字符级到子词级，理解 Unicode 和 UTF-8 编码

BPE 算法详解

深入 Byte Pair Encoding 原理，手动实现训练、编码和解码

GPT 系列 Tokenizer

GPT-2/GPT-4 的 Tokenization 方案，Regex 预处理与 tiktoken 库

BPE 训练工程化

大规模 BPE 训练的工程优化：并行预分词、增量更新、低频剪枝，实现 20 倍速度提升

学习路径

你想做的事	需要的知识
理解 LLM 的输入处理	Tokenization 基础、Unicode/UTF-8
实现自己的 Tokenizer	BPE 算法、训练流程
使用 GPT 系列模型	tiktoken 库、特殊 token
大规模训练 Tokenizer	并行处理、增量更新、内存优化

概述

章节内容

学习路径

参考资料

概述

章节内容

Tokenization 基础

BPE 算法详解

GPT 系列 Tokenizer

BPE 训练工程化

学习路径

Tokenization

概述

章节内容

Tokenization 基础

BPE 算法详解

GPT 系列 Tokenizer

BPE 训练工程化

学习路径

参考资料

目录