基础知识模型架构
Transformer LM
从 token ids 到 next-token logits,建立 Decoder-only Transformer 的整体心智模型
概述
Transformer LM 系列回答一个具体问题:当我们调用 model(input_ids) 时,模型内部到底发生了什么?
这一系列先建立 Decoder-only Transformer 的整体前向传播,再拆解 embedding、LM head、decoder block、residual stream 等关键接口。Attention、RoPE、RMSNorm、SwiGLU 会在后续专题中展开,这里先把它们放回完整语言模型的数据流里。
章节内容
从 token ids 到 logits
理解 Decoder-only Transformer 的输入输出关系
Embedding 与 LM Head
理解 token ids 如何进入连续向量空间,以及 hidden states 如何投影回词表 logits
CookLLM文档