题目 ID: q-7598

ppo、grpo、dpo(critic model和rewardmodel，哪个是未来价值，组内相对优势怎么计骎算，*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

小米