LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

系统工程GPU 编程基础

Triton 入门:向量加法

会员专享

通过一个简单的向量加法例子,学习 Triton 的基本编程模型。

配套代码

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

张量布局

深入理解张量在内存中的物理布局,Strides,View 与 Reshape 的区别,以及梯度追踪机制。

Flash Attention

深入理解 Flash Attention 的原理与 Triton 实现

目录

SPMD 编程模型
逐步构建 Kernel
第一步:定位自己
第二步:计算偏移量
第三步:处理边界
第四步:加载、计算、存储
完整 Kernel 代码
启动 Kernel
验证正确性
总结