题目 ID: q-11700 项目:为什么GRPO在训练MOE时会出问题?原因是啥,怎么改进策略 频次 5 深度学习 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 5.用GRPO训练moe模型经常效果不好,为什么?项目:为什么GRPO在训练MOE时会出问题?原因是啥,怎么改进策略为什么GRPO在训练MOE时会出问题? 常见公司 通用题库小红书京东