题目 ID: q-4830

GRPO为什么要做clip，直接用SFT后的模型还会不稳定吗？优势度可以怎样改进？

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团