基础知识Architecture(模型架构)深入理解大语言模型的架构设计概述 Architecture 模块深入探讨大语言模型的核心架构组件,从基础的 Attention 机制到前沿的记忆增强模块。 本模块假设你已掌握深度学习基础知识。建议先学习 Attention 机制,再探索高级架构。 章节内容 Attention 机制详解深入理解 Transformer 中的 Attention 机制,包括 MHA、Causal Attention、GQA 和 MQA 学习路径 阶段内容目标核心Attention 机制掌握 Self-Attention、Multi-Head、Causal Masking优化GQA/MQA理解 KV Cache 优化与内存效率 参考资料 Attention Is All You Need GQA: Training Generalized Multi-Query Transformer Fast Transformer Decoding: One Write-Head is All You Need BPE 训练工程化从玩具数据到真实语料:内存优化、并行预分词、增量更新与时间-空间权衡Attention 机制详解深入理解 Transformer 中的 Attention 机制,包括 MHA、Causal Attention、GQA 和 MQA。