题目 ID: q-6328 4. 你用的什么RL的算法?GRPO的原理?你如何修改reward模型?adv是怎么计算的,手撕一下公式?组采样是如何做的?手撕一下temperature 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 字节跳动