基础知识
Architecture(模型架构)
深入理解大语言模型的架构设计
概述
Architecture 模块深入探讨大语言模型的核心架构组件,从基础的 Attention 机制到前沿的记忆增强模块。
本模块假设你已掌握深度学习基础知识。建议先学习 Attention 机制,再探索高级架构。
章节内容
Attention 机制详解
深入理解 Transformer 中的 Attention 机制,包括 MHA、Causal Attention、GQA 和 MQA
位置编码与 RoPE
从 Sinusoidal PE 到旋转位置编码,理解 RoPE 的数学原理、代码实现与长度外推
学习路径
| 阶段 | 内容 | 目标 |
|---|---|---|
| 核心 | Attention 机制 | 掌握 Self-Attention、Multi-Head、Causal Masking |
| 核心 | 位置编码与 RoPE | 理解位置编码的演进,掌握 RoPE 原理与实现 |
| 优化 | GQA/MQA | 理解 KV Cache 优化与内存效率 |
| 进阶 | 长度外推 | 掌握 NTK-aware、YaRN 等长序列处理方法 |
CookLLM文档