LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

系统工程GPU 编程基础

张量布局

会员专享

深入理解张量在内存中的物理布局,Strides,View 与 Reshape 的区别,以及梯度追踪机制。

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

GPU 架构基础

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射,建立并行计算的物理直觉。

Triton 入门:向量加法

通过一个简单的向量加法例子,学习 Triton 的基本编程模型。

目录

张量是什么?
关键概念:步幅 (Strides)
向量示例 (1D)
矩阵示例 (2D)
连续性 (Contiguity) 详解
什么操作会破坏连续性?
发生了什么?
为什么不再连续?
View vs Reshape:性能关键
View:零成本,但有限制
Reshape:更智能,更安全
梯度追踪:Clone、Detach 及其组合
clone():复制数据,保留梯度历史
detach():切断梯度,共享内存
detach().clone():常见组合
调试技巧
布局类型:行优先与列优先
测试你的理解
总结