原理精讲

Tokenization 基础 BPE 算法详解 GPT 系列 Tokenizer BPE 训练工程化

Attention 机制详解

Engram 原理详解从零实现 Engram 与 Transformer 集成

GPU 编程基础

GPU 架构基础张量布局 Triton 入门：向量加法

Flash Attention 原理详解从朴素实现到 Auto-Tuning Block Pointer 与多维支持 Causal Masking 优化 Grouped Query Attention 反向传播实现

动手训练

基础知识模型架构 Engram

与 Transformer 集成

会员专享

理解 Hyper-connection 架构，将 Engram 集成到 Transformer 中

👨‍🍳

内容正在烹饪中...

我们正在为您精心准备高质量内容，敬请期待！

从零实现 Engram

逐步构建压缩分词、多头嵌入、门控融合等核心组件

GPU 编程基础

入门 CUDA 与 Triton，写出高效的 GPU Kernel

目录

Hyper-connection 架构

传统残差连接

DeepSeek 的 Hyper-connection

Engram 与 Hyper-connection

与 TransformerBlock 的集成

层选择策略

完整模型集成示例

运行完整示例

训练注意事项

与原论文的对比