LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

基础知识词元化

Tokenization 基础

会员专享

为什么需要 Tokenization?从字符级到子词级,理解 Unicode 和 UTF-8 编码

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

Tokenization

深入理解 LLM 的词元化机制,从 BPE 算法到 GPT 系列实现

BPE 算法详解

深入 Byte Pair Encoding 原理,手动实现训练、编码和解码

目录

为什么需要 Tokenization
从字符级 Tokenization 开始
字符级方案的工作流程
字符级方案的局限性
Unicode 和 UTF-8:支持多语言
Unicode 是什么
UTF-8 编码
为什么不直接用 UTF-8 字节?
总结