Transformer LM
从 token ids 到 next-token logits,建立 Decoder-only Transformer 的整体心智模型
概述
Transformer LM 系列回答一个具体问题:当我们调用 model(input_ids) 时,模型内部到底发生了什么?
这一系列先建立 Decoder-only Transformer 的整体前向传播,再拆解 embedding、LM head、decoder block、residual stream 等关键接口。Attention、RoPE、RMSNorm、SwiGLU 会在后续专题中展开,这里先把它们放回完整语言模型的数据流里。
章节内容
从 token ids 到 logits
理解 Decoder-only Transformer 的输入输出关系
Embedding 与 LM Head
理解 token ids 如何进入连续向量空间,以及 hidden states 如何投影回词表 logits
学习路径
| 阶段 | 内容 | 目标 |
|---|---|---|
| 整体 | 从 token ids 到 logits | 看清输入、输出、shape 和训练/推理分岔点 |
| 输入输出 | Embedding 与 LM Head | 理解 token ids 如何进入模型,hidden states 如何变成 logits |
参考资料
- Attention Is All You Need:Transformer 架构、残差连接和注意力机制的原始论文。
- Language Models are Unsupervised Multitask Learners:GPT-2 技术报告,展示 Decoder-only LM 的语言建模范式。
- LLaMA: Open and Efficient Foundation Language Models:参考现代 Decoder-only LM 的 RoPE、RMSNorm、SwiGLU 和 pre-norm 设计。
CookLLM Docs