题目 ID: q-7549

既然GRPO的会有方差问题，那GRPO应用到什么样的背景下，SFT要做怎样的处理，才能够使GRPO强化学习微调效果更好

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

小米