Architecture（模型架构）

概述

Architecture 模块深入探讨大语言模型的核心架构组件，从基础的 Attention 机制到前沿的记忆增强模块。

本模块假设你已掌握深度学习基础知识。建议先学习 Attention 机制，再探索高级架构。

深入理解 Transformer 中的 Attention 机制，包括 MHA、Causal Attention、GQA 和 MQA

阶段	内容	目标
核心	Attention 机制	掌握 Self-Attention、Multi-Head、Causal Masking
优化	GQA/MQA	理解 KV Cache 优化与内存效率

Architecture 模块深入探讨大语言模型的核心架构组件，从基础的 Attention 机制到前沿的记忆增强模块。

本模块假设你已掌握深度学习基础知识。建议先学习 Attention 机制，再探索高级架构。

深入理解 Transformer 中的 Attention 机制，包括 MHA、Causal Attention、GQA 和 MQA

阶段	内容	目标
核心	Attention 机制	掌握 Self-Attention、Multi-Head、Causal Masking
优化	GQA/MQA	理解 KV Cache 优化与内存效率