LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

基础知识

Tokenization

深入理解 LLM 的词元化机制,从 BPE 算法到 GPT 系列实现

概述

Tokenization(词元化)是大语言模型的基础组件,负责将文本转换为模型可以处理的数字序列。虽然它看起来只是简单的文本预处理,但实际上 Tokenization 的设计直接影响模型的性能、效率和行为。许多 LLM 的"奇怪"表现,比如不擅长拼写、对某些语言支持不佳等,都可以追溯到 Tokenization 的设计。

本系列将带你从零开始理解 Tokenization 的原理,学习 Byte Pair Encoding (BPE) 算法,并动手实现一个 GPT 风格的 Tokenizer。

本系列适合对 LLM 有基本了解的读者。如果你想深入理解 Tokenization 如何影响模型行为,或者想自己实现一个 Tokenizer,这个系列非常适合你。

章节内容

Tokenization 基础

为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码

BPE 算法详解

深入 Byte Pair Encoding 原理,手动实现训练、编码和解码

GPT 系列 Tokenizer

GPT-2/GPT-4 的 Tokenization 方案,Regex 预处理与 tiktoken 库

BPE 训练工程化

大规模 BPE 训练的工程优化:并行预分词、增量更新、低频剪枝,实现 20 倍速度提升

学习路径

你想做的事需要的知识
理解 LLM 的输入处理Tokenization 基础、Unicode/UTF-8
实现自己的 TokenizerBPE 算法、训练流程
使用 GPT 系列模型tiktoken 库、特殊 token
大规模训练 Tokenizer并行处理、增量更新、内存优化

参考资料

  • minbpe Repository
  • tiktoken Library
  • GPT-2 Paper

CookLLM

深入学习大语言模型的核心技术与实战应用

Tokenization 基础

为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码

目录

概述
章节内容
学习路径
参考资料