LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Transformer LM
从 token ids 到 logitsEmbedding 与 LM Head
Attention 机制
位置编码
位置编码基础RoPE 数学推导RoPE 代码实现长度外推
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现
分布式训练
数据并行ZeRO 优化器全分片数据并行张量并行流水线并行多维混合并行

动手训练

概述
预训练
预训练数据Tokenizer 训练模型架构数据流水线训练循环监控与验证
X (Twitter)
基础知识模型架构

Transformer LM

从 token ids 到 next-token logits,建立 Decoder-only Transformer 的整体心智模型

概述

Transformer LM 系列回答一个具体问题:当我们调用 model(input_ids) 时,模型内部到底发生了什么?

这一系列先建立 Decoder-only Transformer 的整体前向传播,再拆解 embedding、LM head、decoder block、residual stream 等关键接口。Attention、RoPE、RMSNorm、SwiGLU 会在后续专题中展开,这里先把它们放回完整语言模型的数据流里。

章节内容

从 token ids 到 logits

理解 Decoder-only Transformer 的输入输出关系

Embedding 与 LM Head

理解 token ids 如何进入连续向量空间,以及 hidden states 如何投影回词表 logits

学习路径

阶段内容目标
整体从 token ids 到 logits看清输入、输出、shape 和训练/推理分岔点
输入输出Embedding 与 LM Head理解 token ids 如何进入模型,hidden states 如何变成 logits

参考资料

  • Attention Is All You Need:Transformer 架构、残差连接和注意力机制的原始论文。
  • Language Models are Unsupervised Multitask Learners:GPT-2 技术报告,展示 Decoder-only LM 的语言建模范式。
  • LLaMA: Open and Efficient Foundation Language Models:参考现代 Decoder-only LM 的 RoPE、RMSNorm、SwiGLU 和 pre-norm 设计。

Architecture(模型架构)

从 Transformer LM 主干到 Attention、RoPE 与现代组件,理解语言模型架构

从 token ids 到 logits

理解 Decoder-only Transformer 如何把 token ids 变成 next-token logits

目录

概述
章节内容
学习路径
参考资料