基础知识模型架构Attention 机制Self-Attention 到 GQA会员专享从 Self-Attention 出发,依次拆开 Multi-Head、Causal Masking 与 GQA / MQA 的设计权衡登录以继续阅读这是一篇付费内容,请登录您的账户以访问完整内容。Attention 机制从 MHA / Causal / GQA,到 Attention Sink 与 Gated Attention,理解注意力机制的设计、缺陷与演进Attention Sink第一个 token 为什么吸走绝大部分注意力,这一现象的机制、代价,以及为何消除它要留到 Gated Attention