原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

Attention 机制详解

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

动手训练

基础知识词元化

BPE 训练工程化

会员专享

从玩具数据到真实语料：内存优化、并行预分词、增量更新与时间-空间权衡

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

GPT 系列 Tokenizer

GPT-2/GPT-4 的 Tokenization 方案，Regex 预处理与 tiktoken 库

Architecture（模型架构）

深入理解大语言模型的架构设计

目录

真实数据训练

1.1 Baseline 实现

数据结构变化

Baseline 训练函数

1.2 Baseline 性能测试

1.3 问题引出：为什么会 OOM？

内存瓶颈分析

2.1 预分词与 chunk 边界

为什么需要分块

边界选择：不能随意切

并行预分词

2.2 低频序列剪枝

为什么可以剪枝？

剪枝的影响

2.3 增量更新 vs 全量重算

问题：merge 后怎么更新统计？

方案一：全量重算

方案二：增量更新

索引结构的作用

增量更新的步骤

数据变化示例

如何选择？

2.4 检查点机制

2.5 性能对比

关键优化效果