LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

基础知识词元化

BPE 训练工程化

会员专享

从玩具数据到真实语料:内存优化、并行预分词、增量更新与时间-空间权衡

配套代码

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

GPT 系列 Tokenizer

GPT-2/GPT-4 的 Tokenization 方案,Regex 预处理与 tiktoken 库

Architecture(模型架构)

深入理解大语言模型的架构设计

目录

真实数据训练
1.1 Baseline 实现
数据结构变化
频率加权
Baseline 训练函数
1.2 Baseline 性能测试
1.3 问题引出:为什么会 OOM?
内存瓶颈分析
解决思路
2.1 预分词与 chunk 边界
为什么需要分块
边界选择:不能随意切
并行预分词
2.2 低频序列剪枝
为什么可以剪枝?
剪枝策略
剪枝的影响
2.3 增量更新 vs 全量重算
问题:merge 后怎么更新统计?
方案一:全量重算
方案二:增量更新
索引结构的作用
增量更新的步骤
数据变化示例
如何选择?
2.4 检查点机制
2.5 性能对比
关键优化效果
总结