从 bento_29m.yaml 读懂 BentoLM 的结构和参数规模
这是一篇付费内容,请登录您的账户以访问完整内容。
Tokenizer 训练
使用 RustBPE 训练 BPE tokenizer,并导出 tiktoken 编码
数据流水线
理解 Parquet shard 如何变成训练 batch