首页 CookLLM - LLM 系统课程

核心课程

监督微调 (SFT)

强化学习 (RLHF)

偏好数据 (Preference Data)

合成数据 (Synthetic Data)

验证器 (Verifiers)

sft

sft module

登录以继续阅读

这是一篇付费内容，请登录您的账户以访问完整内容。

Alignment：对齐技术

SFT, RLHF, Preference data, Synthetic data

reinforcement-learning

reinforcement-learning module