题目 ID: q-5911

介绍一下大模型的预训练后训练以及推理是怎么做的，并且详细问了 RLHF 的做法，包括PPO 算法的原理，以及 DPO 和PPO 的区别

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

百度