题目 ID: q-6328

4. 你用的什么RL的算法?GRPO的原理?你如何修改reward模型?adv是怎么计算的,手撕一下公式?组采样是如何做的?手撕一下temperature

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动