题目 ID: q-4215

GRPO的原理,损失函数如何计算?

频次 8
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • GRPO 损失函数是什么,这个公式每一部分的作用是什么,为什么要这样设计
  • GRPO的公式是什么,这样做为什么更好?
  • GRPO损失函数是什么,这个公式每一部分的作用是什么,为什么要这样设计

常见公司

美团百度字节跳动腾讯