题目 ID: q-4368 ppo算法为什么有reward model 又有critic model 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 项目:PPO算法为什么有reward model 又有critic model项目:PPO算法为什么有reward model 又有critic modelPPO算法为什么有reward model 又有critic model 常见公司 阿里巴巴通用题库字节跳动