LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

系统工程GPU 编程基础

GPU 架构基础

会员专享

深入理解 GPU 的设计哲学、SIMT 编程模型以及硬件层级映射,建立并行计算的物理直觉。

配套代码

登录以继续阅读

这是一篇付费内容,请登录您的账户以访问完整内容。

GPU 编程基础

入门 CUDA 与 Triton,写出高效的 GPU Kernel

张量布局

深入理解张量在内存中的物理布局,Strides,View 与 Reshape 的区别,以及梯度追踪机制。

目录

核心矛盾:延迟 vs 吞吐
异构计算 (Heterogeneous Computing)
晶体管经济学
晶体管经济学与任务分工
从图形到 AI:算力的进化
摩尔定律的终结与并行化
CUDA:通用计算的钥匙
Tensor Core:为 AI 而生的"核"
SIMT:单指令多线程
告别循环思维
为什么需要边界检查?
硬件层级:Grid, Block 与 Thread
层级映射
查询硬件限制
解决规模问题:全局索引计算
多维映射:走向矩阵计算
二维索引计算
为什么这很重要?
总结