题目 ID: q-4307 PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义? 频次 5 NLP与大模型 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义? 常见公司 蚂蚁集团通用题库