LogoCookLLM Docs
LogoCookLLM Docs
HomeCookLLM

Principles

Tokenization
Tokenization BasicsBPE AlgorithmGPT TokenizersBPE Training Engineering
Model Architecture
Attention Mechanisms
Position Encoding
Position Encoding BasicsRoPE Math DerivationRoPE ImplementationLength Extrapolation
GPU Programming Basics
GPU Architecture BasicsTensor LayoutTriton Basics: Vector Add
FlashAttention
Flash Attention PrinciplesFrom Naive to Auto-TuningBlock Pointers and Multi-Dim SupportCausal Masking OptimizationGrouped Query AttentionBackward Pass

Hands-on Training

X (Twitter)

Transformer LM

从 token ids 到 next-token logits,建立 Decoder-only Transformer 的整体心智模型

概述

Transformer LM 系列回答一个具体问题:当我们调用 model(input_ids) 时,模型内部到底发生了什么?

这一系列先建立 Decoder-only Transformer 的整体前向传播,再拆解 embedding、LM head、decoder block、residual stream 等关键接口。Attention、RoPE、RMSNorm、SwiGLU 会在后续专题中展开,这里先把它们放回完整语言模型的数据流里。

章节内容

从 token ids 到 logits

理解 Decoder-only Transformer 的输入输出关系

Embedding 与 LM Head

理解 token ids 如何进入连续向量空间,以及 hidden states 如何投影回词表 logits

学习路径

阶段内容目标
整体从 token ids 到 logits看清输入、输出、shape 和训练/推理分岔点
输入输出Embedding 与 LM Head理解 token ids 如何进入模型,hidden states 如何变成 logits

参考资料

  • Attention Is All You Need:Transformer 架构、残差连接和注意力机制的原始论文。
  • Language Models are Unsupervised Multitask Learners:GPT-2 技术报告,展示 Decoder-only LM 的语言建模范式。
  • LLaMA: Open and Efficient Foundation Language Models:参考现代 Decoder-only LM 的 RoPE、RMSNorm、SwiGLU 和 pre-norm 设计。

Table of Contents

概述
章节内容
学习路径
参考资料