题目 ID: q-6328

4. 你用的什么RL的算法？GRPO的原理？你如何修改reward模型？adv是怎么计算的，手撕一下公式？组采样是如何做的？手撕一下temperature

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动