题目 ID: q-11700

项目:为什么GRPO在训练MOE时会出问题?原因是啥,怎么改进策略

频次 5
深度学习 高频

当前状态:未收藏、未完成

常见追问

  • 5.用GRPO训练moe模型经常效果不好,为什么?
  • 项目:为什么GRPO在训练MOE时会出问题?原因是啥,怎么改进策略
  • 为什么GRPO在训练MOE时会出问题?

常见公司

通用题库小红书京东