Principles

Tokenization Basics BPE Algorithm GPT Tokenizers BPE Training Engineering

Model Architecture

Attention Mechanisms

Position Encoding

Position Encoding Basics RoPE Math Derivation RoPE Implementation Length Extrapolation

GPU Programming Basics

GPU Architecture Basics Tensor Layout Triton Basics: Vector Add

Flash Attention Principles From Naive to Auto-Tuning Block Pointers and Multi-Dim Support Causal Masking Optimization Grouped Query Attention Backward Pass

Hands-on Training

模型架构

Premium

从 bento_29m.yaml 读懂 BentoLM 的结构和参数规模

Log in to continue reading

This is premium content. Please log in to access the full article.

Table of Contents

模型前向流程

BentoLM 用到的现代技巧

为什么先用 29M