理解 Fineweb-Edu-Chinese 数据、采样 shard 和默认目录
这是一篇付费内容,请登录您的账户以访问完整内容。
预训练
从样本数据开始,完成 29M BentoLM 的完整预训练闭环
Tokenizer 训练
使用 RustBPE 训练 BPE tokenizer,并导出 tiktoken 编码