题目 ID: q-5911 介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了 RLHF 的做法,包括PPO 算法的原理,以及 DPO 和PPO 的区别 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 百度