基础知识
Architecture(模型架构)
从 Transformer LM 主干到 Attention、RoPE 与现代组件,理解语言模型架构
| 阶段 | 内容 | 目标 |
|---|---|---|
| 整体 | Transformer LM | 掌握输入输出契约、shape 变化和 forward pass |
| 核心 | Attention 机制 | 掌握 Self-Attention、Multi-Head、Causal Masking |
| 核心 | 位置编码与 RoPE | 理解位置编码的演进,掌握 RoPE 原理与实现 |
| 优化 | GQA/MQA | 理解 KV Cache 优化与内存效率 |
| 进阶 | 长度外推 | 掌握 NTK-aware、YaRN 等长序列处理方法 |