题目 ID: q-4832

Post-Training 的工作机制，为什么要做三阶段训练？什么情况下应该用GRPO？为什么DeepSeek用了GRPO？如何从V3到R1？

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团