从 token ids 到 logits

会员专享

理解 Decoder-only Transformer 如何把 token ids 变成 next-token logits

这是一篇付费内容，请登录您的账户以访问完整内容。

会员专享

理解 Decoder-only Transformer 如何把 token ids 变成 next-token logits

这是一篇付费内容，请登录您的账户以访问完整内容。

从 token ids 开始

在词元化部分，我们已经把文本转成了 token ids。到这里，模型看到的不是字符串，而是一串整数。

接下来的问题是：这些整数进入 Transformer 之后，为什么最后会变成每个位置对整个词表的打分？

先把完整模型记作 $f_\theta$ ，其中 $\theta$ 表示模型的所有可训练参数。对一个 batch 来说，输入是：

x \in \mathbb{Z}^{B \times T}

输出是：

Transformer LM

从 token ids 到 next-token logits，建立 Decoder-only Transformer 的整体心智模型

Embedding 与 LM Head

理解 token ids 如何进入连续向量空间，以及 hidden states 如何投影回词表 logits