题目 ID: q-6384

八股：DPO、PPO、GRPO 三者的优化目标有何不同？为什么 GRPO 的 loss 中要显式加入 KL 散度项？

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动