LogoCookLLM Docs
LogoCookLLM Docs
HomeCookLLM

Principles

Tokenization
Tokenization BasicsBPE AlgorithmGPT TokenizersBPE Training Engineering
Model Architecture
Attention Mechanisms
Position Encoding
Position Encoding BasicsRoPE Math DerivationRoPE ImplementationLength Extrapolation
GPU Programming Basics
GPU Architecture BasicsTensor LayoutTriton Basics: Vector Add
FlashAttention
Flash Attention PrinciplesFrom Naive to Auto-TuningBlock Pointers and Multi-Dim SupportCausal Masking OptimizationGrouped Query AttentionBackward Pass

Hands-on Training

X (Twitter)

Embedding 与 LM Head

Premium

理解 token ids 如何进入连续向量空间,以及 hidden states 如何投影回词表 logits

Companion Code

Log in to continue reading

This is premium content. Please log in to access the full article.

Table of Contents

为什么输入输出层值得单独看?
Embedding
按 token id 查表
训练后的 embedding 学到了什么?
加新的 special token:padded 槽位的妙用
SFT 把 embedding 改了什么
从 special token 读 SFT 重点
从普通 BPE token 读 SFT 内容
拼出来的 SFT 配方
LM Head
几何视角:为什么形状一样不是巧合
代码里就是一行赋值
代价:tying 不是免费的
LoRA包装一层之后,tying 还成立吗
参考资料