题目 ID: q-4215 GRPO的原理,损失函数如何计算? 频次 8 NLP与大模型 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 GRPO 损失函数是什么,这个公式每一部分的作用是什么,为什么要这样设计GRPO的公式是什么,这样做为什么更好?GRPO损失函数是什么,这个公式每一部分的作用是什么,为什么要这样设计 常见公司 美团百度字节跳动腾讯