Transformer LM

概述

Transformer LM 系列回答一个具体问题：当我们调用 model(input_ids) 时，模型内部到底发生了什么？

这一系列先建立 Decoder-only Transformer 的整体前向传播，再拆解 embedding、LM head、decoder block、residual stream 等关键接口。Attention、RoPE、RMSNorm、SwiGLU 会在后续专题中展开，这里先把它们放回完整语言模型的数据流里。

章节内容

从 token ids 到 logits

理解 Decoder-only Transformer 的输入输出关系

Embedding 与 LM Head

理解 token ids 如何进入连续向量空间，以及 hidden states 如何投影回词表 logits

学习路径

阶段	内容	目标
整体	从 token ids 到 logits	看清输入、输出、shape 和训练/推理分岔点
输入输出	Embedding 与 LM Head	理解 token ids 如何进入模型，hidden states 如何变成 logits

参考资料

Attention Is All You Need：Transformer 架构、残差连接和注意力机制的原始论文。
Language Models are Unsupervised Multitask Learners：GPT-2 技术报告，展示 Decoder-only LM 的语言建模范式。
LLaMA: Open and Efficient Foundation Language Models：参考现代 Decoder-only LM 的 RoPE、RMSNorm、SwiGLU 和 pre-norm 设计。
Using the Output Embedding to Improve Language Models：系统讨论输入/输出 embedding tying 对语言模型的影响。
Tying Word Vectors and Word Classifiers：从语言模型输出分类器角度分析 weight tying。

概述

章节内容

从 token ids 到 logits

Embedding 与 LM Head

学习路径

参考资料

目录

Transformer LM

概述

章节内容

从 token ids 到 logits

Embedding 与 LM Head

学习路径

参考资料

目录