题目 ID: q-4831

为什么你要用GRPO？GPRO结果比之前好多少？显存开销多大？训练一个Step需要多久？奖励函数如何设置的，为什么？有没有想过为什么一开始Reward出现大幅度震荡？GRPO是否一定有效，还有什么解决方法？

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团