准备工作数据准备下载 Fineweb-Edu-Chinese 数据,理解 Parquet 存储和数据检查流程👨🍳内容正在烹饪中...我们正在为您精心准备高质量内容,敬请期待!环境搭建使用 uv 安装 cookllm-bento 依赖,并检查 GPU 与配置文件Tokenizer 训练使用 RustBPE 训练 BPE tokenizer,并导出 tiktoken 编码