基础知识
Tokenization
深入理解 LLM 的词元化机制,从 BPE 算法到 GPT 系列实现
概述
Tokenization(词元化)是大语言模型的基础组件,负责将文本转换为模型可以处理的数字序列。虽然它看起来只是简单的文本预处理,但实际上 Tokenization 的设计直接影响模型的性能、效率和行为。许多 LLM 的"奇怪"表现,比如不擅长拼写、对某些语言支持不佳等,都可以追溯到 Tokenization 的设计。
本系列将带你从零开始理解 Tokenization 的原理,学习 Byte Pair Encoding (BPE) 算法,并动手实现一个 GPT 风格的 Tokenizer。
本系列适合对 LLM 有基本了解的读者。如果你想深入理解 Tokenization 如何影响模型行为,或者想自己实现一个 Tokenizer,这个系列非常适合你。
章节内容
Tokenization 基础
为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码
BPE 算法详解
深入 Byte Pair Encoding 原理,手动实现训练、编码和解码
GPT 系列 Tokenizer
GPT-2/GPT-4 的 Tokenization 方案,Regex 预处理与 tiktoken 库
BPE 训练工程化
大规模 BPE 训练的工程优化:并行预分词、增量更新、低频剪枝,实现 20 倍速度提升
CookLLM文档