题目 ID: q-7598

ppo、grpo、dpo(critic model和rewardmodel,哪个是未来价值,组内相对优势怎么计骎算,*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

小米