题目 ID: q-7549

既然GRPO的会有方差问题,那GRPO应用到什么样的背景下,SFT要做怎样的处理,才能够使GRPO强化学习微调效果更好

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

小米