原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

Attention 机制详解

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

动手训练

系统工程GPU 编程基础

张量布局

会员专享

深入理解张量在内存中的物理布局，Strides，View 与 Reshape 的区别，以及梯度追踪机制。

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

GPU 架构基础

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射，建立并行计算的物理直觉。

Triton 入门：向量加法

通过一个简单的向量加法例子，学习 Triton 的基本编程模型。

目录

张量是什么？

关键概念：步幅 (Strides)

向量示例 (1D)

矩阵示例 (2D)

连续性 (Contiguity) 详解

什么操作会破坏连续性？

发生了什么？

为什么不再连续？

View vs Reshape：性能关键

View：零成本，但有限制

Reshape：更智能，更安全

梯度追踪：Clone、Detach 及其组合

clone()：复制数据，保留梯度历史

detach()：切断梯度，共享内存

detach().clone()：常见组合

布局类型：行优先与列优先

测试你的理解