LogoCookLLM文档
LogoCookLLM文档
首页CookLLM

原理精讲

词元化
Tokenization 基础BPE 算法详解GPT 系列 TokenizerBPE 训练工程化
模型架构
Attention 机制详解
Engram
Engram 原理详解从零实现 Engram与 Transformer 集成
GPU 编程基础
GPU 架构基础张量布局Triton 入门:向量加法
FlashAttention
Flash Attention 原理详解从朴素实现到 Auto-TuningBlock Pointer 与多维支持Causal Masking 优化Grouped Query Attention反向传播实现

动手训练

基础知识模型架构Engram

从零实现 Engram

会员专享

逐步构建压缩分词、多头嵌入、门控融合等核心组件

配套代码
👨‍🍳

内容正在烹饪中...

我们正在为您精心准备高质量内容,敬请期待!

Engram 原理详解

从 Attention 的局限性出发,理解 N-gram 哈希编码与门控融合机制

与 Transformer 集成

理解 Hyper-connection 架构,将 Engram 集成到 Transformer 中

目录

压缩分词器
为什么需要压缩?
标准化流程
构建查找表
N-gram 哈希实现
核心数据结构
Layer-Specific 乘法常数
哈希计算
多头嵌入
朴素方法的问题
Offset 技巧
内存布局示意
短卷积
设计选择
扩张因子的作用
门控融合
完整实现
理解 Sqrt-Sign
完整模块
数据流
运行验证
性能基准
总结