题目 ID: q-7598 ppo、grpo、dpo(critic model和rewardmodel,哪个是未来价值,组内相对优势怎么计骎算,*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 小米