LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
Engram 原理详解从零实现 Engram与 Transformer 集成
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

基础知识模型架构Engram

与 Transformer 集成

会员专享

理解 Hyper-connection 架构,将 Engram 集成到 Transformer 中

配套代码
👨‍🍳

内容正在烹饪中...

我们正在为您精心准备高质量内容,敬请期待!

从零实现 Engram

逐步构建压缩分词、多头嵌入、门控融合等核心组件

GPU 编程基础

入门 CUDA 与 Triton,写出高效的 GPU Kernel

目录

Hyper-connection 架构
传统残差连接
DeepSeek 的 Hyper-connection
Engram 与 Hyper-connection
与 TransformerBlock 的集成
插入位置
层选择策略
完整模型集成示例
运行完整示例
训练注意事项
梯度流动
内存占用
与原论文的对比
总结