题目 ID: q-4414 PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌? 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 项目:PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌?PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌?项目:PPO/GRPO 微调后,如何防止模型在分布外(OOD)问题上性能崩塌? 常见公司 通用题库美团