题目 ID: q-7549 既然GRPO的会有方差问题,那GRPO应用到什么样的背景下,SFT要做怎样的处理,才能够使GRPO强化学习微调效果更好 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 小米